计算机集成制造系统 ›› 2022, Vol. 28 ›› Issue (12): 3869-3878.DOI: 10.13196/j.cims.2022.12.014
张忠平1,2,3,张玉停1,刘伟雄1,邓禹1
ZHANG Zhongping1,2,3,ZHANG Yuting1,LIU Weixiong1,DENG Yu1
摘要: 离群点检测是数据挖掘研究的一个重要领域。在传统基于近邻的离群点检测方法中,k近邻关系被广泛使用。然而,随着数据分布的多样化和数据维度的增加,基于k近邻关系算法检测离群点的过程中易受不同类簇影响而检测效果不佳。针对以上问题,首先通过引入近邻树代替k近邻关系生成新的邻域集合,提出质心投影的概念用来刻画数据对象与其邻居点的分布特征,其次在数据对象邻居点逐渐增多的过程中,离群点和内部点质心投影变化不同,采用质心投影波动来衡量每个数据对象的离群程度,最终提出了基于质心投影波动的离群点检测算法。通过在人工数据集和真实数据集下进行的实验表明,该算法能有效且较为全面地检测离群点。
中图分类号: