一种基于最速下降法的数据分段拟合方法
摘要
关键词
拟合方法;分段技术;最小二乘法;方差;最速下降算法
正文
引言
随着科学技术的不断进步,人类已经迈入信息化和数字化时代,并向高端智能化进军.大量先进数据采集设备投入实际应用中,数据获取速度快、实时性强、自动化程度高、数据量大等独特优势,这就对数据处理提出更高的要求,以实现效率高、速度快、精度高、可靠性强等优势.而数据拟合在数据处理中发挥着重要作用,构建数据拟合模型是提高数据处理关键,它影响着数据处理的精度、可靠性等等,它在工程测量、人工智能、航天技术等应用非常广泛.
众多学者和科研人员对不同类型的数据处理提出了相应的方法或模型,获得了大量研究成果.对于二维数据,Pearson提出了总体最小二乘的思想,讨论了线性方程的近似计算方法;随后Van Huffel 和 Vandenwalle出版了总体最小二乘专著,提出了TLS与LS应用范围相同并具有更高精度的观点;张东林、谢友、田垅等人提出把数据分成若干组,然后对每组数据再进行线性拟合,得到了基于最小二乘法的分段直线拟合方法,之后对数据的处理常采用基于最小二乘法的分段数据拟合方法,这些方法能够达到最佳逼近[1-4].然而,本文首先对数据进行方差分段处理,提出利用最速下降法给出直线或抛物线拟合模型,进而选择最佳曲线进行拟合.
1 方差分段
对数据(),i=1,2,...,n,每两个相邻点利用公式
i=1,2,...,n-1, (1)
计算出斜率,再对斜率这组新数据进行方差分析,
D(X)=(X-E(X))2 (2)
X表示随机变量,E(X)表示期望,D(X)表示方差,用来表示数据的偏离程度,描述数值波动情况.方差数值越小,表明数据越稳定,越符合同一条的曲线规律,当方差数值变化较大时,表明与均值离散程度较大,则从此点进行分段.
对下面数据进行方差分析(见表1),可见方差离散程度变化较大,从此点进行分段,因此从第五点成为分段点.
表1 数据分析表
x | y | 斜率 | 方差 |
1 | 0.7981 | ||
2 | 2.351 | 1.5529 | 0 |
3 | 3.0512 | 0.7002 | 0.363548645 |
4 | 2.7413 | -0.3099 | 0.869570523 |
5 | 2.1003 | -0.641 | 0.994922083 |
6 | 3.875 | 1.7747 | 1.166198707 |
从数据分析表1的散点图1进行对比,可以直观地看到方差分段是可行.
说明:横轴为x轴,纵轴为y轴
图1 散点图
2 拟合模型
本文对数据采用多模型直线、抛物线进行拟合,拟合模型为
(3)
(4)
对拟合模型常见的方法是采用最小二乘法给出参数,然而本文是结合最速下降法给出拟合模型的参数,具体方法如下:
首先将误差光滑化处理,构造函数
和
误差越小,拟合效果越好,于是得到下面的优化问题
(5)
(6)
本文结合最速下降法的思想,采用负梯度作为下降方向,进而给出拟合模型的参数迭代格式.
梯度为
(7)
(8)
给初始值或
,拟合模型的参数迭代公式:
(9)
(10)
3 算法
步0:给初值,和t=1,i=1,j=1,m=1,输入n和数据
步1:若,停止计算,否则,
令i=m,利用公式(1)计算斜率
计算方差,
当 ,
则令i=i+1,继续计算方差;否则,分段点为转入步2;
步2:进行数据拟合,若散点图接近直线步3,否则转入步4;
步3:给定
其中
步4:给定
其中
步5:若或
停止计算,输出拟合模型,m:=i-1转步1,否则,令t=t+1,转步2迭代.
4 数值实验
给出10组数据,见数据表2.
表2 数据表
x | y | x | y |
1 | 0.7981 | 6 | 3.875 |
2 | 2.351 | 7 | 5.1314 |
3 | 3.0512 | 8 | 6.9921 |
4 | 2.7413 | 9 | 8.4210 |
5 | 2.1003 | 10 | 1.5103 |
先将这些数据进行方差分析,利用本文算法步1中的公式计算斜率和方差,得表3;利用算法进行拟合,拟合曲线如如图2所示.
表3 方差分析
x | y | 斜率 | 方差 |
1 | 0.7981 | ||
2 | 2.351 | 1.5529 | |
3 | 3.0512 | 0.7002 | 0.363548645 |
4 | 2.7413 | -0.3099 | 0.869570523 |
5 | 2.1003 | -0.641 | 0.994922083 |
6 | 3.875 | 1.7747 | 1.166198707 |
7 | 5.1314 | 1.2564 | 0.134317445 |
8 | 6.9921 | 1.8607 | 0.10686823 |
9 | 8.4210 | 1.4289 | 0.081416209 |
10 | 1.5103 | -6.9107 | 14.48005381 |
说明:横轴为x轴,纵轴为y轴
图2 拟合结果图
数值实验结果:算法根据方差偏离程度,只要满足,会自动进行分段,可见拟合精度高;然后算法再将这些数据进行拟合,数据从第1个点到第五个点采用了抛物线拟合,可见曲线光滑、可导,拟合效果好,第五点到第九个点采用直线拟合,第九点到第十点也采用直线拟合,可见计算速度快、误差小.
5 结束语
对上述数据若只采用一种分段直线拟合,从第一个点到第三个点、第三个点到第五个点会采取两段直线拟合,在第三个点处出现尖点,导致不可导点增多,光滑性较弱,然而本算法利用方差自动分段、多模型拟合,从第一点到第五个点采用了抛物线拟合,很好地避免了这种情况,可见本文提出的算法拟合效果更好.
参考文献
[1]谢友宝.最小二乘法分段直线拟合[J].南昌航空工业学院学报,1992(2):19-25.
[2]张东林.分段最小二乘法曲线拟合[J].沈阳大学学报1994(2):80-83.
[3]田垅.最小二乘法分段直线拟合[J].计算机科学,2012,39(6A):482-484.
[4]刘霞,王运锋.基于最小二乘法的自动分段多项式曲线拟合方法研究[J].科学技术与工程,2014,14(3):55-58.
[5]刘元琦,顾寄南,周培垄.基于分段Newton插值法的螺杆型线拟合[J].组合机床与自动化加工技术,2014,2:141-143.
[6]冯卡力,李安,覃方君.基于多模型分段拟合的光纤陀螺温度误差补偿方法[J].中国惯性技术学报,2014,22(6):825-828.
[7]周雪青,张岩坡,李铁成,李安昌.TA误差分段拟合算法的分段点选取方法[J].河北电力技术,2017,36(7):49-51.
[8]浮寸,萍胡,帅朋.分段二次曲线拟合法在联网高速测量中的应用[J].地理空间信息.2020,18(01):98-100+10.
[9]雍龙泉.基于正弦余弦算法的非线性数据拟合及应用[J].统计与决策,2022(08):47-50.
[10]谢昊,郭天太,王浩.基于分段拟合算法的V型焊缝识别[J].现代电子技术.2023,46(20):153-158.
作者简介:薛丽红(1981— ),女,满,内蒙古兴安盟人,硕士,集宁师范学院数学与统计学院副教授,研究方向最优化理论与应用;内蒙古自治区高等学校科学技术研究项目“多种空间数据拟合方法研究”(项目编号NJZY22307)
A data segmentation fitting method based on the steepest descent method
Xue Lihong
(College of Mathematics and Statistics, Jining Normal University, Ulanqab Inner Mongolia, 012000)
Abstract:Data fitting is a common method in data processing and analysis, and data fitting usually adopts least squares to solve the model. Using one kind of curve to fit the data will have a big error at some points, so using the idea of subsection to fit the data will be closer to the actual law. In this paper, the slope of data is analyzed by variance and segmented according to the deviation degree of variance, combined with the steepest descent algorithm, the curve fitting models of straight line and parabola are given respectively, then the best fitting curve is selected by fitting comparison, and then the piecewise fitting is realized to achieve the best approximation. According to the numerical experiment, the fitting effect is good.
Key words: Fitting Method;Segmented Technology; Least Square Method;Variance;Steepest descent algorithm
...