【摘要】 在大学学习统计时,我最喜欢回归分析,也是最清楚的学习部分。因为它容易理解,也因为它的实用性。

回归分析

 

在大学学习统计学时,我最喜欢回归分析,也是最清楚的学习部分。因为它容易理解,也因为它的实用性。但随着数据分析经验的积累,对回归分析的认识也越来越深刻。它不是求解回归模型那么简单,而是解决日常工作中问题的一种思路和方法。

 

数据挖掘中使用的各种高级模型,任何模型都可以理解为回归模型,包括因变量y和自变量x,用来求解参数。

 

在我看来,回归分析包括两部分:业务分析和技术分析。其中,业务分析属于“道”层面,技术分析属于“术”层面。从“道”的角度看,回归分析就是业务分析。它分析的不是数据,而是业务,这是业务中的不确定性。通过业务分析,我们可以了解业务的不确定性,进而将抽象的不确定性业务问题转化为具体的数据可分析问题。

 

什么是数据可分析性?一个业务问题,只要有一个明确定义的因变量y(无论是可见的还是不可见的)和一个明确定义的自变量x,就是一个数据可分析的问题。一旦业务问题被标准化为一个特定的数据分析问题(具有明确定义的y和x),那么下一步就是技术分析,这属于回归分析的“技术”层面。在这个层次上,人们关心的问题是,对于给定的y和X的不确定性,应该选择什么样的模型来研究,线性模型还是非线性模型,一元模型还是多元模型,简单决策树还是随机林,普通神经网络还是深度学习。在模型设置被确定之后,我们需要考虑使用什么方法来估计、如何调整等等。

 

以上是对回归分析的广泛理解。要从狭义上理解回归分析,我们需要理解以下核心概念:

 

  • 相关系数
  • 回归分析
  • 最小二乘法
  • 显著性检验
  • 多重共线性
  • 拟合优度

 

 

当然,统计学也包含了很多知识,如方差分析、时间序列分析、统计指标等。这些知识广泛应用于具体应用中,但与上述知识点相比,应用范围较小。

 

免责声明:部分文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。