缺失值文献综述

更新时间:2024-02-04 作者:用户投稿原创标记本站原创 点赞:2606 浏览:7932

摘 要:国内外众多学者已经高度关注缺失值的问题研究,形成了对缺失值问题的专门研究领域,包括对缺失值各种计算方法进行比较研究、实际应用领域的缺失值处理方法以及缺失值处理方法的改进等.

关 键 词:缺失值;文献综述

中图分类号:TB文献标识码:A文章编号:1672-3198(2012)23-0224-01

1缺失值的概念

John R. Gerlach (2009)等指出:缺失等于在数据步中应用且区别于“缺失陈述”的系统选项.“缺失陈述”中认为在原始数据中,缺失值就代表数值型数据.从近几年的国内外研究文献来看,对缺失值的处理方法可概括为两大类:删除(忽略)和插补.

2近几年国内外对缺失值问题处理方法的研究现状

2.1国外研究现状

(1)缺失值处理方法比较分析.

B. Mehala等(2009)分别用.5和K均值算法在不同的缺失率、不同的属性中的情况下,对缺失值进行估计.并通过实验证明K均值法在大多数情况下所得结果更好.

(2)缺失值处理方法的改进、扩展研究.

近年来,国外的研究文献主要集中在这方面.Shichao Zhang等提供了一种基于数据聚类的不含参数的计算缺失值的方法:CMI(Clustering based Missing value Imputation);Luai Al Shalabi等基于GRNN(Generalized Regression Neural Networks)的概念提出了一种非参数多重插补的新方法:GMI;Michinori Nakata and Hiroshi Sakai研究了量化容量关系(Valued tolerance relations)方法处理不完整数据的适用性.

2.2国内研究现状

郭超、陆新建(2010)针对工业生产过程中数据确实的问题,首次提出运用MI方法建立多元线性回归模型来处理;张国毅等(2010)针对机械观测平台侦收辐射源目标信号时由于条件限制和外界干扰导致观测量缺失的情况,根据缺失数据的性质,提出利用最小二乘多项式拟合法填补观测数据的缺失值,通过仿真分析得出该法具有较强的工程应用价值;刘凤芹(2009)对收入变量的缺失值问题,将一种基于链式方程的多重插补方法应用到实际数据集,结果表明此方法适用于通常计量分析中绝大部分的收入变量和数据集.

3总结

目前关于缺失值的处理方法大多数都是针对某一类或某一领域的缺失值问题,而且考虑的环境影响因素很有限.影响缺失值处理方法的环境因素主要是:缺失值的类型、缺失率、缺失属性的相关性、属性的类型、缺失对象与其他对象的关系以及操作性等等.而目前的处理方法考虑的范围很有限.同时,从理论上讲,在各种方法中,多重插补法是最合适的,但是在实践中要正确地运用多重插补却并非易事,因为没有一种方法能使用于全部的缺失问题,在实践中还需具体问题具体分析,选择合适的方法.