【摘要】 抽样是从整个研究中抽取一部分个体作为我们真正的研究对象。我们可以简单地把样本理解为整体的一个子集,并通过样本的结果来推断整体情况。
统计量及其抽样分布
抽样容易理解,抽样分布不容易理解。
抽样是从整个研究中抽取一部分个体作为我们真正的研究对象。我们可以简单地把样本理解为整体的一个子集,并通过样本的结果来推断整体情况。例如,我们想知道中国成年男性的平均身高。理论上最准确的方法是调查中国所有成年男性的身高,然后计算平均值。显然,没人做过。在实践中,我们总是选择一些人,然后计算出这些人的平均身高。从这个平均高度,我们可以估计出总的平均高度。
了解抽样,然后了解抽样分布。谁是抽样分布的分布?答案是样本统计,例如样本均值或样本比率。以样本均值为例,一般来说,样本均值的抽样分布如何。这里,样本平均数被视为一个随机变量。我们最想让你记住的是,样本均值是一个随机变量,但对于初学者来说,这是违反直觉的。
为什么样本均值可以看作一个随机变量?因为样本均值取决于样本计算:每组样本都可以计算出一个样本均值,而这些样本均值多少会有所不同。因此,样本均值会随样本的不同而随机变化。然而,在现实生活中,我们通常只取一组样本,计算一个样本的平均值。因此,我们会觉得样本的平均值是不变的。
这一章节,需要大家掌握几个核心概念:
- 统计量
- 抽样
- 抽样分布
参数估计
在大学开学时,学习数理统计变得越来越困难。在学习的过程中,可以说就像吞下了没有理解的枣子。但现在,经过长时间的实践,我们对统计学知识有了更深的认识。
统计推断,老实说,有两件事。首先,参数估计。第二,各种类型的假设检验。在这里学习,如果你做数据挖掘,机器学习,你会强烈意识到数据挖掘和统计之间存在着无数的联系。
参数估计,顾名思义,就是估计参数。什么是参数?如果你假设分布的参数,也就是说,你认为或知道一个随机过程服从什么分布,但你不确定它的参数是什么,你应该怎么做?你抽样,取很多样本(实际值),通过这些样本的值来估计参数的分布就是参数估计。
这一章节,需要大家掌握几个核心概念:
- 参数
- 点估计
- 区间估计
假设检验
如上所述,统计推断需要理解两件事,一是参数估计,二是假设检验。
什么是假设检验?说白了,假设检验就是先猜测总体的一个参数值,然后用样本数据检验参数值的准确性。
Abtest方法在网络生产实践中经常被应用到假设检验的思想中。
举一个简单的例子:
学而思在线学校应用程序已经过修订和迭代,现在有以下两个版本
版本1:首页为一屏课程列表
版本2:首页为信息流
如果要区分这两个版本,用户更喜欢哪个版本,转化率会更高。我们需要对整体(所有用户)进行评估,但并不是所有现有用户都会访问应用,每天都会有很多新用户加入,所以我们不能对整体(所有用户)进行评估,我们只能从整体用户中随机抽取样本(访问应用的用户)进行分析,使用样本数据性能作为总体数据性能来评估哪个版本的转换率更高。
这一章节,需要大家掌握几个核心概念:
- 假设检验
- P值
免责声明:部分文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。