统计分析前，要做哪些数据准备工作？（一）-数据分析-科学指南针

【摘要】提到数据分析，首先会想到的可能是t检验、回归分析等各种具体的分析方法，但对于经历过完整数据分析的同学来说，最复杂、最耗费时间的步骤往往是数据的清理，也就是将数据整理成为能够进行上述统计分析的格式。因此，本节内容我们将对数据的准备进行简要介绍，重点介绍数据审核，其次会用少量篇幅简单介绍数据在进行分析时的适用性。

提到数据分析，首先会想到的可能是t检验、回归分析等各种具体的分析方法，但对于经历过完整数据分析的同学来说，最复杂、最耗费时间的步骤往往是数据的清理，也就是将数据整理成为能够进行上述统计分析的格式。因此，本节内容我们将对数据的准备进行简要介绍，重点介绍数据审核，其次会用少量篇幅简单介绍数据在进行分析时的适用性。

在数据审核方面，主要考虑的是数据的完整性和合理性，也就是对缺失数据和离群值进行识别和处理。

对缺失值的处理

在很多情况下，研究中所收集的数据会出现缺失情况，缺失的类型大致可以分为以下三种：

① 完全随机缺失(Missing completely at random，MCAR)，数据缺失随机发生，与自身及其他变量均无关，任何变量的每一条记录发生缺失的概率相同。例如由于设备故障、样品运输丢失等导致的数据缺失，可视为MCAR[1]。这是最理想的情况，但在许多领域中这种情况并不合理;

② 随机缺失(Missing at random，MAR)，是一种较为合理的情况。缺失值与自身变量无关，但与其他研究变量相关。假设老师的职称越高，提供其工资信息的可能性越低，那么每个职称分组中可认为老师工资信息缺失是随机发生的，可以通过加权的方法进行解决;

③ 非随机缺失(Missing not at random，MNAR)，即缺失值与自身变量有关。例如一项研究中对受教育程度情况进行了调查，受教育程度较低的个体可能存在该变量的缺失，这就是非随机缺失。

对缺失值最好的处理方法是预防缺失的发生，即通过合理的研究设计、预试验的开展、调查员培训等方法尽量保证数据的完整性。但当缺失值不可避免时，就需要通过一些统计学方法对其进行处理：

① 缺失值删除

(a) 删除缺失数据行，适用于MCAR数据的处理，在大样本量且缺失较少的情况下很有效。该方法不会影响结果估计的准确性，但样本量会因此减小，从而影响结果的精确性;

(b) 删除缺失变量，适用于存在另一个无缺失的变量能够代替有缺失变量的情况，通常不建议采用这种方法，因为“保留数据总比删除数据好”;

② 缺失值填补

(a) 均值、中位数和众数填补：根据数据分布，选择使用样本均值、中位数或众数对缺失值进行填补，没有考虑时序特征及变量间关系。该方法较为简单，但有明显缺陷，例如降低了数据方差;

(b) 多重填补：基于贝叶斯方法，创建多个填补数据集，即根据现有观测数据为每个缺失数据生成若干个可供填补的数值，结合填补后不同的结果，得出平均估计结果并考察缺失数据的不确定性[2];

(d) 虚拟变量设置：将是否缺失设置为虚拟变量，这是处理分类变量缺失较为简单的一种方法，但估计精度会下降;

(e) 线性内插法[3]：若缺失值与未缺失值间存在线性关系，根据缺失值的前一个和后一个观测值对缺失值进行计算;

(f) 临床试验中常用方法[4]：末次观察前推法(Last observation carried forward，LOCF)，前次观察值后推法(Next observation carried backward，NOCB)，基线值后推法(Baseline observation carried forward，BOCF)，最差观测值推进法(Worst observation carried forward，WOCF)和将缺失值视为治疗失败法(Missing value treated as failure，MVTF)等。

图1 缺失值处理方法的选择

（来源：https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4）

对于完全随机缺失，简单的删除缺失数据行就可得到无偏的估计结果；对于随机缺失，一些复杂的统计方法可能会得到无偏估计结果；而对于非随机缺失，无法得到无偏估计结果，只能通过复杂的统计方法减小估计值的偏倚。

[1] Kang, H. (2013). The prevention and handling of the missing data. Korean journal of anesthesiology, 64(5), 402.

[2] Sterne, J. A., White, I. R., Carlin, J. B., Spratt, M., Royston, P., Kenward, M. G., ... & Carpenter, J. R. (2009). Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ, 338, b2393.

[3] Available at https://www.lexjansen.com/nesug/nesug01/ps/ps8026.pdf.

[4] Available at http://onbiostatistics.blogspot.com/2010/08/locf-bocf-wocf-and-mvtf.html.

以上仅为科学指南针检测平台对网上资料的收集整合，故此分享给大家，希望可以帮助大家对测试更了解，如有测试需求，可以和科学指南针联系，我们会给与您最准确的数据和最好的服务体验，惟祝科研工作者可以更轻松的工作。

免责声明：文章整合自网络，因内容庞杂无法联系到全部作者，如有侵权，请联系删除，我们会在第一时间予以答复，万分感谢。

质谱解析——几道例题让你从质谱图小白变大神！查看全部内容>>

一张化合物的质谱包含着有关化合物的丰富信息，大多数情况下，仅依靠质谱就可以确定化合物的分子量、分子式和分子结构。而且，质谱分析的样品用量极微，因此，质谱法是进行有机物鉴定的有力工具。接下来咱们就利用具体的例子来解析质谱图。

2021-09-24

51933

扫码登录

密码登录验证码登录

—— 第三方账号登录 ——

微信登录

二维码已失效

点击刷新

微信登录

请根据提示在手机上完成操作

首次扫码需要确认身份，
下次扫码可实现1秒登录哦~

登录成功

下次使用微信扫码可实现1秒登录哦~

新版用户协议

【审慎阅读】您在点击登陆前，应当认真阅读以下协议。请您务必审慎阅读、充分理解协议中相关条款内容，其中包括：

1、与您约定免除或限制责任的条款；

2、与您约定法律适用和管辖的条款；

3、其他以粗体下划线标识的重要条款。

如您对协议有任何疑问，可向平台客服咨询。

【特别提示】当您按照登陆页面提示填写信息、阅读并同意协议且登陆后，即表示您已充分阅读、理解并接受协议的全部内容。如您在接受服务时与科学指南针平台发生争议，适用《科学指南针服务协议》处理。
阅读协议的过程中，如果您不同意相关协议或其中任何条款约定，请您立即停止使用科学指南针的相关服务。

《科学指南针服务协议》《科学指南针售后协议》《隐私权政策》

同意协议

不同意

400-831-0631 研趣

9:00—18:00(法定节假日除外)

总部地址：浙江省杭州市西湖区西园八路2号银江软件园B座1层、2层

加入我们：hr@shiyanjia.com

统计分析前，要做哪些数据准备工作？（一）

对缺失值的处理

AFM 离线软件NanoScope Analysis使用教程 查看全部内容>>

AFM 离线软件NanoScope Analysis使用教程

采用Jade软件进行XRD数据处理、检索分析及Origin作图详细步骤 查看全部内容>>

X射线衍射(X-ray diffraction, XRD)是人类用来研究物质微观结构的第一种方法。

冷门绝技，让你的Origin坐标轴“断掉” 查看全部内容>>

今天分享一个虽说冷门，但实为Origin的特色功能。坐标轴断点、刻度线类型。

【晶体学基础】晶体结构cif文件的查找和获取 查看全部内容>>

本文总结了10种获取材料晶体结构cif文件的方法

质谱解析——几道例题让你从质谱图小白变大神！查看全部内容>>

TEM晶格条纹测量软件（Digital Micrograph）的使用方法，附软件资源！！！查看全部内容>>

Digital Micrograph 是由美国Gatan公司开发的透射电子显微镜数据采集和分析软件。

【Origin】十步学会求解曲线峰面积，帮你走好数据处理第一步！查看全部内容>>

Origin软件求曲线峰面积的方法

【干货】3个方面快速学会如何对BET报告解读和分析 查看全部内容>>

物理吸附提供了测定催化剂表面积、平均孔径及孔径分布的方法（一般而言指N2吸脱附实验）。

400-831-0631 研趣

您在本次下单过程中遇到了哪些问题

请选择取消【】订单的原因

补差提醒

统计分析前，要做哪些数据准备工作？（一）

对缺失值的处理

推荐阅读

AFM 离线软件NanoScope Analysis使用教程

X射线衍射(X-ray diffraction, XRD)是人类用来研究物质微观结构的第一种方法。

今天分享一个虽说冷门，但实为Origin的特色功能。坐标轴断点、刻度线类型。

本文总结了10种获取材料晶体结构cif文件的方法

Digital Micrograph 是由美国Gatan公司开发的透射电子显微镜数据采集和分析软件。

Origin软件求曲线峰面积的方法

物理吸附提供了测定催化剂表面积、平均孔径及孔径分布的方法（一般而言指N2吸脱附实验）。

400-831-0631 研趣

您在本次下单过程中遇到了哪些问题

请选择取消【】订单的原因

补差提醒