杠杆值用于量化数据集中各数据点的影响力,广泛应用于子抽样方法以提取具有代表性的子样本。本文针对二维自回归模型中杠杆值的计算与应用问题展开深入研究。基于其协变量矩阵的结构特性,我们创新性地提出了二维自回归模型杠杆值的递推计算公式,并据此设计了一种高效的近似计算算法。在理论层面,我们证明了该近似方法的误差上界,并对其计算复杂度进行了系统分析。通过广泛的数值模拟和真实数据实验,我们验证了该方法的性能、效率与稳健性,及其在超光谱图像异常检测任务中的价值。
二维自回归(Two-dimensional Autoregressive,简称2D AR)模型因其能刻画二维数据的特定结构而在图像处理、图像压缩任务中有很强的应用潜力。然而,用最小二乘方法拟合2D AR模型的计算复杂度较高,尤其在模型阶数未知的情况下,需要拟合不同阶数的模型以进行阶数选择,很大程度上限制了2D AR模型的实用价值。
本文提出了一种快速算法,可以高效地对2D AR模型进行模型阶数选择,杠杆值估计,和参数估计。对一个包含N个像素点,d个参数的2D AR模型,该算法可以将阶数选择中每个子模型的平均计算复杂度降至O(Nd)。算法得到参数估计的误差上界存在理论保证。大量数值实验表明,所提算法在保持与随机抽样相同时间复杂度的同时,实现了与杠杆值子抽样方法相当的参数估计精度。
本文提出了一种基于2D AR模型杠杆值的图像异常检测方法。杠杆值量化了单个数据点在模型中的影响,而异常像素通常具有较高的杠杆值,因此2D AR模型的杠杆值可以自然地作为评估像素异常程度的一种指标。数值模拟实验结果显示,该方法在含有自相关噪声的低信噪比条件下仍能保持优异的异常检测性能,可准确识别图像中的异常像素区域。在真实数据上,相较于主流的图像异常检测方法,本方法不仅获得了更精确的检测结果,同时展现出显著的计算效率优势。
黄君烈,中国人民大学统计与大数据研究院2022级博士生,明理创新实验室Stat2Spark团队理事,主要研究方向为大数据子抽样、图像异常检测和非参数统计等。目前已有一篇论文被《Journal of Computational and Graphical Statistics》接收,曾入选全国工业统计学教学研究会青年统计学家协会年会博士生论坛获海报展示机会。深度参与华为“难题揭榜”,作为核心成员斩获一枚火花奖,两枚鼓励奖。
孟澄,统计与大数据研究院助理教授、博士生导师。中国大百科全书(第三卷)统计学卷-数据科学分卷副主编。主要研究方向为:大数据压缩、最优输运方法、统计及工业交叉科学等,在Biometrika, IEEE TPAMI, TNNLS, JMLR等期刊会议上发表论文二十余篇。主要研究方向为大数据快速算法、最优输运问题等,主持国自科青年基金。孟澄带领团队获得华为“难题揭榜”价值火花奖三枚、鼓励火花奖三枚,指导博士生李梦雨获得2024年度中国科协青年人才托举工程博士生专项计划(托举学会:中国现场统计研究会)。
2020年以来,研究院学生在统计学、计量经济、机器学习等领域国际一流学术期刊上发表了26篇高水平论文。
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872