- 明年我每月的开支会是多少?
- 哪个因素(每月收入还是每月旅行次数)在决定我的每月开支时更重要?
- 每月收入、每月旅行次数是如何与每月支出相关的?
分类是一种数据挖掘技术 , 通过确定一组数据所属的类别以实现更准确的预测和分析 。 分类有时候也称为决策树 , 是对大型数据集进行分析的利器之一 。 常用的分类方法有两种:逻辑回归和判别分析(Discriminant Analysis) 。
逻辑回归适合于因变量为二元变量时 。 像所有的回归分析一样 , 逻辑回归是一种预测性分析 。 逻辑回归用于描述数据并解释一个二元因变量与一个或多个名义、序列、时间间隔或比率独立变量之间的关系 。 逻辑回归可以回答的问题有:
- 每增加一磅体重和每天吸烟的包数如何影响患肺癌的概率?
- 卡路里摄入、脂肪摄入和年龄是否对心脏病发作有影响?
线性判别分析(Linear Discriminant Analysis)为每个观测值计算“判别分数”来判断它应该属于哪个类别 。 判别分数是通过寻找自变量的线性组合得到的 。 它假设每个类别中的观测值都来自于多元高斯分布 , 并且预测变量的协方差在响应变量Y的所有k个水平上都相同 。
二次判别分析(Quadratic Discriminant Analysis)提供了一个替代方法 。 与线性判别分析一样 , 二次判别分析假设每个Y类别的观察值都来自于高斯分布 。 然后 , 与线性判别分析不同的是 , 二次判别分析假设每个类都有自己的协方差矩阵 。 换句话说 , 预测变量并未假设在Y中的所有k个水平上都具有共同的方差 。
重采样方法(Resampling Methods)
重采样是从原始数据中重复采集样本的方法 。 这是一种非参数统计推断方法 。 换句话说 , 重采样方法不涉及使用通用分布表来计算近似的p概率值 。
重采样根据实际数据生成一个唯一的采样分布 。 它使用实验方法而不是分析方法来生成唯一的样本分布 。 它产生的是无偏估计 , 因为它是基于研究人员研究的数据的所有可能结果生成的无偏样本 。 为了理解重采样的概念 , 你需要理解术语Bootstrapping和交叉验证(Cross-Validation) 。
Bootstrapping 在很多情况下是一种有用的方法 , 比如评估模型性能、模型集成(ensemble methods)、估计模型的偏差和方差等 。 它的工作机制是对原始数据进行有放回的采样 , 并将“没被选上”的数据点作为测试用例 。 我们可以这样操作多次 , 并计算平均得分作为模型性能的估计 。
交叉验证是评估模型性能的一种方法 , 它通过将训练数据分成k份 , 使用k-1份作为训练集 , 使用保留的那份作为测试集 。 以不同的方式重复整个过程k次 。 最终取k个得分的平均值作为模型性能的估计 。
对于线性模型而言 , 普通最小二乘法是拟合数据的主要标准 。 不过 , 接下来的3种方法可以为线性模型提供更好的预测准确性和模型可解释性 。
子集选择(Subset Selection)
这种方法先确定与因变量相关的p个自变量的一个子集 , 然后使用子集特征的最小二乘拟合模型 。
- 最优子集法(Best-Subset Selection)对p个自变量的所有可能组合分别做最小二乘法回归 , 查看最终的模型拟合效果 。 该算法分为2个阶段:
- 拟合所有包含k个自变量的模型 , 其中k是模型的最大长度;
- 使用交叉验证误差来选出最佳模型 。
- 向前逐步选择(Forward Stepwise Selection)使用一个更小的自变量子集 。 它从一个不包含任何自变量的模型开始 , 将自变量逐个加入模型中 , 一次一个 , 直到所有自变量都进入模型 。 每次只将能够最大限度提升模型性能的变量加入模型中 , 直到交叉验证误差找不到更多的变量可以改进模型为止 。
- 向后逐步选择(Backward Stepwise Selection)在开始时包含全部p个自变量 , 然后逐个移除最没用的自变量 。
- 混合方法(Hybrid Methods)遵循向前逐步选择原则 , 但是在每次添加新变量之后 , 该方法也可能移除对模型拟合没有贡献的变量 。
推荐阅读
- 介绍5个分析用户行为数据驱动业务增长的方法 如何用户行为数据分析?
- 光遇10月11日季节蜡烛位置详解介绍
- 江南百景图杭州奇观建筑介绍为你解答
- 介绍11个销售的技巧 常见的销售技巧有哪些?
- 高能手办团大招流派介绍为你解答
- 批八字算命合婚,有这些方法
- 相亲者要学会应用相亲介绍人三定律
- 介绍做农业网络推广方案的5种方法 农业网络推广方案该怎么做?
- 阐述网络营销的12种方式 网络营销的方式有哪些?
- 介绍网络营销的6种方法 网络营销的方法有哪些?