介绍这10个分析方法数据统计分析方法有哪些？( 二 ) _数据统计分析方法

明年我每月的开支会是多少？
哪个因素（每月收入还是每月旅行次数）在决定我的每月开支时更重要？
每月收入、每月旅行次数是如何与每月支出相关的？

分类
分类是一种数据挖掘技术，通过确定一组数据所属的类别以实现更准确的预测和分析。分类有时候也称为决策树，是对大型数据集进行分析的利器之一。常用的分类方法有两种：逻辑回归和判别分析(Discriminant Analysis) 。
逻辑回归适合于因变量为二元变量时。像所有的回归分析一样，逻辑回归是一种预测性分析。逻辑回归用于描述数据并解释一个二元因变量与一个或多个名义、序列、时间间隔或比率独立变量之间的关系。逻辑回归可以回答的问题有：

每增加一磅体重和每天吸烟的包数如何影响患肺癌的概率？
卡路里摄入、脂肪摄入和年龄是否对心脏病发作有影响？

在判别分析中，先验知道两个或多个分组或类别（clusters），然后基于已测量的特征将1个或多个新观测对象分类到一个已知类别中去。判别分析在每个类别下分别对预测变量X的分布进行建模，然后使用贝叶斯定理将这些变量转换为给定X值的对应类别的概率估计。这些模型可以是线性的或者二次方的：
线性判别分析(Linear Discriminant Analysis)为每个观测值计算“判别分数”来判断它应该属于哪个类别。判别分数是通过寻找自变量的线性组合得到的。它假设每个类别中的观测值都来自于多元高斯分布，并且预测变量的协方差在响应变量Y的所有k个水平上都相同。
二次判别分析(Quadratic Discriminant Analysis)提供了一个替代方法。与线性判别分析一样，二次判别分析假设每个Y类别的观察值都来自于高斯分布。然后，与线性判别分析不同的是，二次判别分析假设每个类都有自己的协方差矩阵。换句话说，预测变量并未假设在Y中的所有k个水平上都具有共同的方差。
重采样方法（Resampling Methods）
重采样是从原始数据中重复采集样本的方法。这是一种非参数统计推断方法。换句话说，重采样方法不涉及使用通用分布表来计算近似的p概率值。
重采样根据实际数据生成一个唯一的采样分布。它使用实验方法而不是分析方法来生成唯一的样本分布。它产生的是无偏估计，因为它是基于研究人员研究的数据的所有可能结果生成的无偏样本。为了理解重采样的概念，你需要理解术语Bootstrapping和交叉验证(Cross-Validation) 。
Bootstrapping 在很多情况下是一种有用的方法，比如评估模型性能、模型集成(ensemble methods)、估计模型的偏差和方差等。它的工作机制是对原始数据进行有放回的采样，并将“没被选上”的数据点作为测试用例。我们可以这样操作多次，并计算平均得分作为模型性能的估计。
交叉验证是评估模型性能的一种方法，它通过将训练数据分成k份，使用k-1份作为训练集，使用保留的那份作为测试集。以不同的方式重复整个过程k次。最终取k个得分的平均值作为模型性能的估计。
对于线性模型而言，普通最小二乘法是拟合数据的主要标准。不过，接下来的3种方法可以为线性模型提供更好的预测准确性和模型可解释性。
子集选择（Subset Selection）
这种方法先确定与因变量相关的p个自变量的一个子集，然后使用子集特征的最小二乘拟合模型。