在乡村振兴战略的背景下基于ARIMA模型对张掖市甘州区农村人口变化的预测
摘要
关键词
乡村振兴;ARIMA模型;农村人口预测;张掖市甘州区
正文
课题项目:本文为“河西学院学生科技创新项目”研究成果。
引言:乡村振兴战略乃是新时代我国“三农”工作极为重要的着力点。随着中国城市化进程的迅猛推进以及农村人口流动的不断加剧,农村人口的数量与结构正发生着显著变化。这一趋势不仅给乡村振兴战略的实施带来了全新挑战,也对教育、农业、医疗、社会保障、基础设施建设等诸多方面提出了更高要求。准确预测农村人口变化,对于政府科学制定相关政策、合理优化资源配置以及大力促进城乡融合发展具有重大意义。张掖市甘州区作为甘肃省重要的农业区,农村人口的变化趋势对区域经济发展和社会稳定有着举足轻重的影响。本研究拟采用ARIMA模型,结合SAS(Statistical Analysis System)软件的数据分析能力,并提供准确的统计分析结果,对甘州区农村人口变化进行精准预测,深入分析其变化趋势和驱动因素,并提出相应的政策建议,为政府制定相关政策提供科学依据,有力推动甘州区乡村振兴战略的实施,促进乡村全面振兴。
1文献综述
1.1国内研究现状分析
目前,人口预测方法有很多种,比如指数增长模型、线性回归预测和神经网络模型等方法和模型,最常用的就是ARIMA模型预测。国内不少学者选取不同时间段的中国人口数据进行ARIMA模型构建和分析,例如,有研究者基于深圳市 1979-2010 年常住人口数据,运用 ARIMA(1,1,0)模型进行拟合,以获取深圳市常住人口的预测数据,并参照深圳市 1979-2010 年常住人口人均床位数状况加以综合研判。结果显示,未来十年深圳市常住人口数量将超 1300 万人[3]。在特定领域的人口研究语境中,ARIMA模型在疾病发病情形的分析与预测方面有着重要应用。就中国肺结核发病趋势的预测而言,依据 2018- 2019 年的相关数据构建 ARIMA 模型,以此达成对该疾病发病趋势的监测目的以及短期的预测成效[4]。在地区人口研究方面,例如代欢[5]等根据武汉市户籍人口数,利用时间序列法建立武汉市户籍人口模型,并选取1978-2013年武汉市户籍人口数据,通过Eviews软件进行模型识别和参数估计,并确定ARMA(4,2)为较合理的选择,预测2014-2017年武汉市户籍人口数量,结果表明武汉市户籍人口数呈现逐年下降的趋势。总之,ARIMA模型在我国人口研究中得到了一定应用,为人口数量、结构及相关问题研究和预测提供了一种有效方法和思路。
1.2国外研究现状分析
ARIMA 模型在国外的运用范围颇为广阔,在人口预测以及老龄化探究方面表现突出,且相较于我国,其应用时间更早。国外这方面的研究发端于 John Graunt 对人口预测模型的钻研。继之,日本的 Ueda Masco 和瑞典的 Grstav Sundbarg 也相继在该领域有所深入与拓展,进一步推动了相关研究的进程与发展[6]。在国际上发表的论文中,有研究使用ARIMA模型对中国的老龄化人口进行短期预测,并针对老龄化所产生的社会问题提供政策建议[7];Parag[8]通过利用ARIMA模型对印度制铁组织的能源消耗和温室气体排放量进行准确的预测。在 2006 年,Haberman 和 Renshaw 针对人口死亡率数据展开研究,他们以包含队列因素的 Lee - Carter 模型为基础,运用泊松回归与 ARIMA 模型,分别进行参数估计的操作以及死亡率预测的工作,从而为相关领域的研究提供数据支持与趋势判断依据[9]等。
2ARIMA(p,d,q)模型理论分析
ARIMA 模型构建的关键流程涵盖六个主要方面:一是数据平稳性的检验;二是模型的判别与阶数确定;三是参数的估算;四是模型适配性的检测;五是模型误差的剖析;六是模型的预测工作。
2.1ARIMA模型原理
ARIMA模型,其全称为求和自回归移动平均模型,通常简记为ARIMA(p,d,q)模型。这是一种用于时间序列预测的方法,其中包含了AR(p)自回归部分和MA(q)移动平均部分。此模型的作用在于通过差分运算把非平稳的时间序列转变为差分平稳序列,接着凭借因变量的滞后值以及随机误差项来构建模型,从而实现对未来值进行预测的目的。具体的数学表达式如下所示:
2.2纯随机性检验
Ljung和Box证明LB统计量近似服从自由度为m的卡方分布,具体数学表达式为:
LB=~(m),∀m>0
其中,n为观测期数,m为延迟期数。若LB统计量小于临界水平(一般取0.05),则拒绝原假设,认为该序列为非白噪声序列,可以继续拟合该模型。
2.3平稳性检验
2.3.1图形检验
通过绘制时间序列的折线图,观察序列的走势是否随时间变化。绘制序列的自相关函数(ACF)图和偏自相关函数(PACF)图,观察是否存在时间依赖性。
2.3.2统计检验
ADF(Augmented Dickey - Fuller)检验属于最为常用的单位根检验手段之一。其核心思想为:在回归方程内增添因变量的滞后项,进而对回归系数展开检验,判断其是否小于 1。一旦回归系数小于 1,那么意味着时间序列处于平稳状态;而倘若回归系数等于 1,则表明时间序列存在单位根,属于非平稳序列。
2.4模型识别
在建立ARIMA模型时,通常会有几个模型通平稳性和随机性检验,此时就需采用下表 1所示原则来选择相关模型,并采用信息量(AIC值和SBC值)准备来确定模型的最优阶数。
k | kk | 模型定阶 |
拖尾 | p阶截尾 | AR(p)模型 |
q阶截尾 | 拖尾 | MA(q)模型 |
拖尾 | 拖尾 | ARMA(p,q)模型 |
2.5模型估计
在ARMA(p,q)模型场合:
=(1,...,p,...,,...,)’
Ft()=--...-
残差项为:=-()
残差平方和为:()=2
使残差平方和达到最小的参数值为的最小二乘估计值。
2.6模型预测
用(l)衡量预测误差,(l)= - (l),显然预测误差越小预测精度越高。现最常用的预测原则就是预测方差最小原则,即Var[et(l)]=min{Var[et(l)}。
3ARIMA模型建模分析
本文所用到的2000~2023年张掖市甘州区农村人口数量数据均来自于张掖市人民政府统计年鉴所公布。首先,为了对数据的整体状况形成初步认知,我们率先针对数据开展了描述性统计分析工作。结果见表 2。
表 2. 2000~2023 年张掖市甘州区农村人口数据描述性统计分析
单位:万人
指标 | 均值 | 方差 | 最小值 | 最大值 |
数值 | 77.4 | 343.4 | 49.9 | 103.7 |
3.1纯随机性检验
如表 3所示,原序列在各阶数下LB 统计量的P值均小于5%的临界水平,因此该序列拒绝原假设,即张掖市甘州区2000~2023年人口总数序列为非白噪声序列,可拟合模型。
白噪声的自相关检查 | |||||||||
至滞后 | 卡方 | 自由度 | Pr > 卡方 | 自相关 | |||||
6 | 70.86 | 6 | <.0001 | 0.889 | 0.775 | 0.663 | 0.552 | 0.438 | 0.318 |
3.2平稳性检验
张掖市甘州区农村人口的变化数据呈现出不平稳的特征,针对这类非平稳的时间序列数据,可运用差分手段将其转化为平稳的时间序列数据。具体而言,可先借助公式①实施一阶差分操作,若一阶差分后数据依旧处于非平稳状态,那么便采用公式②开展二阶差分处理,依此类推,直至数据转变为平稳的时间序列数据为止。
=- ①
=- ②
为增强论证的可信度与有效性,率先针对原始数据展开 ADF 检验工作[11-12],结果见表 4。
表 4. 原始数据增广 Dickey-Fuller 单位根检验
增广 Dickey-Fuller 单位根检验 | |||||||
类型 | 滞后 | Rho | Pr < Rho | Tau | Pr < Tau | F | Pr>F |
零均值 | 0 | -0.6596 | 0.5282 | -3.91 | 0.0004 | ||
1 | -0.6640 | 0.5258 | -3.08 | 0.0037 | |||
2 | -0.6254 | 0.5336 | -2.39 | 0.0196 | |||
单均值 | 0 | -0.1620 | 0.9390 | -0.21 | 0.9246 | 7.64 | 0.0047 |
1 | -0.2650 | 0.9321 | -0.34 | 0.9043 | 4.70 | 0.0728 | |
2 | -0.1407 | 0.9394 | -0.17 | 0.9279 | 2.90 | 0.3802 | |
趋势 | 0 | -8.2079 | 0.4932 | -2.15 | 0.4951 | 2.32 | 0.7270 |
1 | -10.2720 | 0.3211 | -2.07 | 0.5358 | 2.13 | 0.7596 | |
2 | -17.0017 | 0.0461 | -2.27 | 0.4286 | 2.60 | 0.6778 |
接下来,对原始数据进行一阶差分,并对差分后的数据进行ADF检验,结果见表 5。
表 5. 一阶差分后数据的增广 Dickey-Fuller 单位根检验
增广 Dickey-Fuller 单位根检验 | |||||||
类型 | 滞后 | Rho | Pr < Rho | Tau | Pr < Tau | F | Pr>F |
零均值 | 0 | -13.4577 | 0.0052 | -3.02 | 0.0043 | ||
1 | -7.6551 | 0.0434 | -1.90 | 0.0564 | |||
2 | -4.4512 | 0.1333 | -1.35 | 0.1582 | |||
单均值 | 0 | -23.2034 | 0.0004 | -4.75 | 0.0011 | 11.30 | 0.0010 |
1 | -24.8811 | 0.0001 | -3.26 | 0.0300 | 5.33 | 0.0466 | |
2 | -26.6465 | <.0001 | -2.52 | 0.1261 | 3.17 | 0.3179 | |
趋势 | 0 | -23.2046 | 0.0041 | -4.63 | 0.0069 | 10.73 | 0.0010 |
1 | -25.0529 | 0.0014 | -3.18 | 0.1152 | 5.06 | 0.2491 | |
2 | -27.3086 | 0.0003 | -2.45 | 0.3476 | 3.00 | 0.6090 |
接下来,对原始数据进行二阶差分,并对差分后的数据进行ADF检验,结果见表 6。
表 6. 二阶差分后数据的增广 Dickey-Fuller 单位根检验
增广 Dickey-Fuller 单位根检验 | |||||||
类型 | 滞后 | Rho | Pr < Rho | Tau | Pr < Tau | F | Pr>F |
零均值 | 0 | -31.3304 | <.0001 | -7.75 | <.0001 | ||
1 | -61.9559 | <.0001 | -5.30 | <.0001 | |||
2 | -509.742 | 0.0001 | -3.89 | 0.0005 | |||
单均值 | 0 | -31.3295 | <.0001 | -7.55 | 0.0003 | 28.54 | 0.0010 |
1 | -61.9858 | <.0001 | -5.16 | 0.0006 | 13.29 | 0.0010 | |
2 | -509.011 | 0.0001 | -3.77 | 0.0115 | 7.10 | 0.0129 | |
趋势 | 0 | -31.3343 | <.0001 | -7.34 | 0.0002 | 27.04 | 0.0010 |
1 | -62.1409 | <.0001 | -5.00 | 0.0038 | 12.52 | 0.0010 | |
2 | -573.227 | 0.0001 | -3.66 | 0.0513 | 6.71 | 0.0700 |
3.3模型识别与定阶
3.3.1模型识别
绘制二阶差分后的时间序列的自相关图(ACF)和偏自相关图(PACF)初步识别p,q的值。可以看出,ACF第一阶后呈截尾状。通过图 7看出,PACF第一阶后呈拖尾状,因此可初步判定差分后的序列适合ARIMA(1,2,1)模型或者ARIMA(0,2,1)。
3.3.2模型定阶
对 ARIMA(p,d,q)模型里参数 p 与 q 的各类可能取值予以反复拟合,并通过计算相应参数所对应的 AIC 值以及 BIC 值,以此初步确定模型的最优阶数,结果见表 7。
参数(p,q) | AIC值 | SBC值 |
(0,1) | 113.0571 | 114.1482 |
(0,2) | 115.0635 | 117.2456 |
(1,1) | 115.1126 | 117.2947 |
(1,2) | 117.0911 | 120.3642 |
3.4模型的估计
对模型残差序列进行白噪声检验(如表 8所示),得到它们的残差的自相关检查图。当显著性水平取0.05时,显示个阶LB检验统计量的P值均显著大于0.05,即说明可以认为该残差序列为白噪声序列,该拟合模型显著成立。
残差的自相关检查 | |||||||||
至滞后 | 卡方 | 自由度 | Pr > 卡方 | 自相关 | |||||
6 | 0.90 | 5 | 0.9705 | -0.037 | -0.049 | -0.022 | -0.077 | -0.079 | -0.112 |
12 | 2.10 | 11 | 0.9981 | 0.012 | 0.124 | -0.071 | -0.005 | -0.042 | -0.080 |
18 | 2.16 | 17 | 1.0000 | 0.006 | 0.014 | 0.016 | 0.010 | 0.006 | 0.010 |
3.5模型预测
经过比较,ARIMA(0,2,1)模型的预测精度最高,因此选择该模型进行预测。利用得到的ARIMA(0,2,1)模型对张掖市甘州区未来五年的农村人口进行了预测,通过预测结果看出张掖市甘州区农村人口数量在未来五年将呈现下降趋势。能够发现张掖市甘州区农村人口存在显著的流失现象,此情形与我国的实际状况相契合,即众多人口持续从农村流出,致使我国农村人口规模大幅缩减。
4结果与分析
4.1实验结果
为了更加精确的看出预测结果,将得到的预测结果做成表 9,如下所示。
未来五年张掖市甘州区农村人口预测数量(万人) | |||||
年份 | 2024 | 2025 | 2026 | 2027 | 2028 |
预测值 | 47.5200 | 45.1800 | 42.8400 | 40.5000 | 38.1600 |
4.2实验分析
根据实验结果与实际情况分析,可以得出张掖市甘州区农村人口下降因素主要有:
(1)经济发展因素
在乡村振兴战略背景下,尽管有政策推动,但张掖市甘州区农村地区可能仍面临经济发展相对滞后的问题。与城市相比,农村产业结构单一,农业生产效率较低,缺乏高附加值产业,就业机会有限。年轻劳动力为寻求更好的经济收入和发展空间,往往选择离开农村前往城市就业,导致农村人口下降。
(2)医疗保健因素
虽然乡村振兴重视农村医疗基础设施建设,但甘州区可能存在医疗资源分布不均衡的情况。农村地区医疗设施相对简陋,医疗技术水平有限,医护人员数量不足。对于一些患有严重疾病或需要长期医疗护理的居民来说,城市的优质医疗资源更具吸引力,这可能促使部分人口向城市流动,造成农村人口减少。
(3)教育水平因素
教育在乡村振兴中是关键一环,但甘州区农村教育可能仍面临一些挑战。农村学校在师资力量、教学设施和教育资源等方面可能不如城市学校。为了给子女提供更好的教育条件,一些家庭会选择迁移到城市居住,使得农村人口数量下降。
5政策建议
(1)优化产业结构方面
产业振兴乃是乡村发展的关键所在。一方面,应紧密结合当地资源禀赋,大力发展特色农业、乡村旅游、农产品加工等产业,全力打造“一村一品”格局。通过深加工等手段提高农产品附加值,从而切实增加农民收入,为吸引人才回流创造有利条件。另一方面,积极促进产业融合发展,推动农业与第二产业、第三产业深度融合,着力发展休闲农业、乡村旅游、文化创意等新业态,有效拓展农业发展空间,创造更多就业岗位。以甘州区为例,需加大对农村特色农业的扶持力度,依据其地理和气候条件,引导农民发展高效、生态、特色农业,在提高农产品附加值增加农民收入的同时,吸引劳动力回流。同时,深入挖掘农村自然风光、历史文化和民俗风情等旅游资源,精心打造乡村旅游品牌,创造更多就业机会,稳定农村人口数量。
(2)加强基础设施建设方面
持续加大对农村交通设施建设的投入,改善农村道路状况,提高农村与城市之间的交通便利性,便于农村居民出行和农产品运输,同时也有利于吸引外部投资和游客。进一步加强农村医疗基础设施建设,增加医疗设备投入,提高医疗技术水平。通过政策优惠等方式吸引和留住医护人员,建立健全农村医疗卫生服务体系,提升农村医疗保障能力,减少因医疗原因导致的人口外流。重视农村教育基础设施建设,改善农村学校办学条件,提高教师待遇,吸引优秀教师到农村任教。加强农村教育资源的整合与优化,提升农村教育质量,为农村学生提供更好的教育环境。
(3)完善社会保障体系方面
建立健全农村社会保障制度,扩大社会保障覆盖范围,提高农村居民的养老、医疗、失业等社会保障水平。特别是加强农村养老保障体系建设,解决农村居民养老后顾之忧,提高农村生活的吸引力。加强对农村困难群体的帮扶和救助,确保农村弱势群体的基本生活需求得到满足,增强农村居民的归属感和幸福感。
(4)促进城乡融合发展方面
打破城乡二元结构,消除城乡之间在户籍、就业、教育、医疗等方面的制度障碍,促进农村人口合理流动。可以建立城乡统一的劳动力市场,为农村劳动力提供平等的就业机会和发展空间。加强城乡之间的交流与合作,推动城市资源向农村流动,实现城乡资源共享、优势互补。如鼓励城市企业到农村投资兴业,促进城市技术、人才、资金等要素与农村土地、劳动力等要素有机结合,共同推动乡村振兴和农村人口稳定发展。
6结语
本文旨在构建ARIMA模型预测,为政策制定提供依据。实验结果显示,ARIMA(0,2,1)模型预测较为准确,未来五年甘州区农村人口呈逐年下降趋势。通过分析发现,影响因素包括经济、医疗、教育等方面。尽管有乡村振兴战略的推动,但甘州区仍面临产业结构单一、资源不均衡、教育条件差等问题,导致人口外流。为此,本文提出优化产业结构、加强基础设施建设、完善社会保障体系、促进城乡融合发展等建议。
研究表明,ARIMA模型能够有效地进行预测,提出的政策建议具有针对性和实践意义。未来可考虑更多因素构建更全面的模型,利用大数据提高精度,研究地区差异并提出针对性建议,从而为甘州区农村人口发展提供参考依据和决策支持。
参考文献:
[1] 颜姜慧,朱舜.农村人口转移趋势及空间指向研究[J].中国人口·资源与环境,2017,27(05):146-152.
[2] 严丽丽,我国农村人口问题及其全面发展初探[J].湖北农业科学,2011,50(17):3647-3650.
[3] 郑红云.ARIMA模型在深圳人口与医疗需求预测的应用[J].山东轻工业学院学报(自然科学版),2012,26(04):44-49.
[4] 言晨绮, 王瑞白, 刘海灿, 蒋毅, 李马超, 尹树鹏, 肖彤洋, 万康林, 让蔚清. ARIMA模型预测2018-2019年我国肺结核发病趋势的应用. 中华流行病学杂志, 2019, 40(6): 633-637
[5] 代欢,王传美. 武汉市户籍人口的ARIMA模型分析与预测[J]. 中国科技论文在线精品论文,2015,8(1):6-11.
[6] Hansen,P.E.(1989)Leslie Matrix Models.Mathematical Population Studies,2,209-222.
[7] 李恩来.基于ARIMA模型的中国老龄化人口预测预测研究[J].老龄化研究,2016,3(1):1-9.
[8] Parag Sen,Mousumi Roy,Parimal Pal.Application of ARIMA for forecasting energy consumption and GHG emission:Acase study of an Indian pig iron manufacturing organization[J].Energy,2016,116:1031-1038.
...