【摘要】 在数据检查与整理时,通常会发现一些完全偏离其他数据的数值,称之为离群值,产生的原因可能是数据错误(测量或记录错误)或真正离群值,主要分为单变量离群值和多变量离群值。离群值的识别没有精确的、能够称之为金标准的方法,通常经过一些统计学方法进行识别。
对离散值的处理
在数据检查与整理时,通常会发现一些完全偏离其他数据的数值,称之为离群值,产生的原因可能是数据错误(测量或记录错误)或真正离群值,主要分为单变量离群值和多变量离群值。离群值的识别没有精确的、能够称之为金标准的方法,通常经过一些统计学方法进行识别。
对单变量离群值的识别,主要的方法为直方图(落在直方图两端较远距离数据)和箱式图(距离第25百分位数Q1或第75百分位数Q3的距离是四分位数间距IQR的1.5-3倍为轻度离群值,距离Q1或Q3的距离大于IQR的3倍为极端离群值)[5]。
对多变量离群值的识别,可通过马氏距离进行判断,首先计算一个点到某一数据分布之间的距离,随后根据卡方分布确定临界值,若某个个体的马氏距离大于该临界值,则可认为是离群值[6]。
对于离群值的处理,有以下几种方法:
① 数据检查:检查是否为客观失误造成的数值异常,如果存在数据收集或录入错误,要及时更正;
② 转换变量:如果能够确定某一离群值是正确且真实的,为避免数据分布严重倾斜,可以对数据进行转换,这样不会改变原有数值间的相对大小,但会使数据分布更为集中;
③ 删除数据行:适用于某一个案例出现了多个变量异常的情况,或含有异常值的个体所占比例很小,可以考虑删除整条信息;
④ 删除变量:若多个案例的某一变量均发现异常,可以根据实际情况考虑删除该变量;
⑤ 将离群值视为缺失数据处理,可以进行数据填补等操作;
⑥ 改变数值:若想对离群值进行保留,可以对其数值进行调整使之更接近均值,也就是说可以设定一个百分位阈值,将超过该百分位范围的数据替换为该百分位数值。
数据适用性
不同的统计分析方法对数据有不同的要求,例如正态分布及方差齐性假设等,因此在分析前,需要对数据进行检查,来判断是否符合相应假设,这些假设见下表所示:
表1 数据假设的使用情境及检验方法
|
数据假设 |
使用情境 |
检验方法 |
|
正态性 |
t检验,方差分析,Person相关性,线性回归,其它参数检验 [7] |
|
|
方差同质性 |
方差分析ANOVA(t 检验 and F 检验)[8] |
Bartlett’s检验,Levene’s检验,Brown-Forsythe检验 [9] |
|
方差齐性 |
相关和回归分析 |
Breusch-Pagan检验 [10] |
|
方差/协方差矩阵的同质性 |
多元方差分析MANOVA,判别函数分析,多变量回归 [11] |
Box’s M检验 |
|
球行检验 |
重复测量的ANOVA |
Mauchly's检验 |
|
回归同质性 |
协方差分析ANCOVA |
因变量与协变量散点图,自变量与协变量交互分析(广义线性模型) |
|
线性相关 |
线性回归分析 |
散点图 |
此外,在进行回归分析时,还需要对变量之间的多重共线性进行判断。当模型中的一个变量可以被其他变量或其他变量的线性组合较好的预测时,就会出现该情况。
多重共线性一般由容忍度和方差膨胀因子(VIF)进行判断。一般认为如果容忍度<0.2或VIF>5,则提示变量之间存在多重共线性。一般解决方法有剔除模型中一个或多个预测变量,将模型中多个预测变量整合为一个复合变量,采用逐步回归的方法进行变量筛选,或进行主成分分析。
通常,收集到的数据都会存在各种各样的问题,为了得到“干净”且适合分析的数据,通常需要经过很多步骤,来达到最终的目的。因此我们要掌握并选择最适合自己数据的处理方法,来得到更精确的分析结果。
[5] Available at http://www.psychwiki.com/wiki/Detecting_Outliers_-_Univariate.
[6] Available at https://en.wikiversity.org/wiki/Multivariate_outlier.
[7] Ghasemi, A., & Zahediasl, S. (2012). Normality tests for statistical analysis: a guide for non-statisticians. International journal of endocrinology and metabolism, 10(2), 486.
[8] Available at https://methods.sagepub.com/reference/encyc-of-research-design/n179.xml.
[9] Available at http://www.math.montana.edu/jobo/st541/sec2e.pdf.
[10] Available at https://en.wikipedia.org/wiki/Homoscedasticity.
[11] Available at http://www.introspective-mode.org/data-assumption-homogeneity-of-variance-covariance/.
以上仅为科学指南针检测平台对网上资料的收集整合,故此分享给大家,希望可以帮助大家对测试更了解,如有测试需求,可以和科学指南针联系,我们会给与您最准确的数据和最好的服务体验,惟祝科研工作者可以更轻松的工作。
免责声明:文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。







您已经拒绝加入团体

