介绍这10个分析方法 数据统计分析方法有哪些?( 二 )


  • 明年我每月的开支会是多少?
  • 哪个因素(每月收入还是每月旅行次数)在决定我的每月开支时更重要?
  • 每月收入、每月旅行次数是如何与每月支出相关的?
分类
分类是一种数据挖掘技术 , 通过确定一组数据所属的类别以实现更准确的预测和分析 。 分类有时候也称为决策树 , 是对大型数据集进行分析的利器之一 。 常用的分类方法有两种:逻辑回归和判别分析(Discriminant Analysis) 。
逻辑回归适合于因变量为二元变量时 。 像所有的回归分析一样 , 逻辑回归是一种预测性分析 。 逻辑回归用于描述数据并解释一个二元因变量与一个或多个名义、序列、时间间隔或比率独立变量之间的关系 。 逻辑回归可以回答的问题有:
  • 每增加一磅体重和每天吸烟的包数如何影响患肺癌的概率?
  • 卡路里摄入、脂肪摄入和年龄是否对心脏病发作有影响?
在判别分析中 , 先验知道两个或多个分组或类别(clusters) , 然后基于已测量的特征将1个或多个新观测对象分类到一个已知类别中去 。 判别分析在每个类别下分别对预测变量X的分布进行建模 , 然后使用贝叶斯定理将这些变量转换为给定X值的对应类别的概率估计 。 这些模型可以是线性的或者二次方的:
线性判别分析(Linear Discriminant Analysis)为每个观测值计算“判别分数”来判断它应该属于哪个类别 。 判别分数是通过寻找自变量的线性组合得到的 。 它假设每个类别中的观测值都来自于多元高斯分布 , 并且预测变量的协方差在响应变量Y的所有k个水平上都相同 。
二次判别分析(Quadratic Discriminant Analysis)提供了一个替代方法 。 与线性判别分析一样 , 二次判别分析假设每个Y类别的观察值都来自于高斯分布 。 然后 , 与线性判别分析不同的是 , 二次判别分析假设每个类都有自己的协方差矩阵 。 换句话说 , 预测变量并未假设在Y中的所有k个水平上都具有共同的方差 。
重采样方法(Resampling Methods)
重采样是从原始数据中重复采集样本的方法 。 这是一种非参数统计推断方法 。 换句话说 , 重采样方法不涉及使用通用分布表来计算近似的p概率值 。
重采样根据实际数据生成一个唯一的采样分布 。 它使用实验方法而不是分析方法来生成唯一的样本分布 。 它产生的是无偏估计 , 因为它是基于研究人员研究的数据的所有可能结果生成的无偏样本 。 为了理解重采样的概念 , 你需要理解术语Bootstrapping和交叉验证(Cross-Validation) 。
Bootstrapping 在很多情况下是一种有用的方法 , 比如评估模型性能、模型集成(ensemble methods)、估计模型的偏差和方差等 。 它的工作机制是对原始数据进行有放回的采样 , 并将“没被选上”的数据点作为测试用例 。 我们可以这样操作多次 , 并计算平均得分作为模型性能的估计 。
交叉验证是评估模型性能的一种方法 , 它通过将训练数据分成k份 , 使用k-1份作为训练集 , 使用保留的那份作为测试集 。 以不同的方式重复整个过程k次 。 最终取k个得分的平均值作为模型性能的估计 。
对于线性模型而言 , 普通最小二乘法是拟合数据的主要标准 。 不过 , 接下来的3种方法可以为线性模型提供更好的预测准确性和模型可解释性 。
子集选择(Subset Selection)
这种方法先确定与因变量相关的p个自变量的一个子集 , 然后使用子集特征的最小二乘拟合模型 。
  • 最优子集法(Best-Subset Selection)对p个自变量的所有可能组合分别做最小二乘法回归 , 查看最终的模型拟合效果 。 该算法分为2个阶段:
  • 拟合所有包含k个自变量的模型 , 其中k是模型的最大长度;
  • 使用交叉验证误差来选出最佳模型 。
使用测试误差或者验证误差而不是训练误差来评估模型很重要 , 因为RSS和R2会随着变量的增加而单调增加 。 最好的方式是交叉验证并选择测试误差上R2最高而RSS最低的模型 。