Bagging是一种通过从原始数据生成额外的训练数据从而减少预测方差的方法 , 它通过使用重复的组合来生成与原始数据相同的多样性 。 通过增加训练集的大小 , 虽然不能提高模型的预测力 , 但可以减小方差 , 将预测调整到预期结果 。
Boosting是一种使用多个不同模型计算输出的方法 , 然后使用加权平均法对结果进行平均 。 通过改变加权公式 , 结合这些模型的优点和缺陷 , 使用不同的微调模型 , 可以为更广泛的输入数据提供良好的预测力 。
随机森林算法非常类似于Bagging 。 先采集训练集的随机bootstrap样本 , 然后采集特征的随机子集来训练单棵树;而在bagging时是给每一棵树全部特征 。 由于随机特征选择 , 与常规bagging相比 , 树彼此之间更加独立 , 这通常会导致更好的预测性能(因为更好的方差偏差权衡) , 而且训练速度更快 , 因为每棵树只从特征的一个子集学习 。
支持向量机
支持向量机是一种分类技术 , 属于机器学习中的监督学习模型 。 通俗地说 , 它通过寻找超平面(二维中的线 , 三维中的平面和更高维中的超平面 , 更正式地 , 超平面是n维空间的n-1维子空间)以及最大边界(margin)来划分两类点 。 从本质上讲 , 它是一个约束优化问题 , 因为其边界最大化受到数据点分布的约束(硬边界) 。
“支持”这个超平面的数据点被称为“支持向量” 。 在上图中 , 填充的蓝色圆圈和两个实心方块是支持向量 。 对于两类数据不能线性分离的情况 , 这些点将被投影到一个更高维的的空间中 , 在这个空间里可能会线性可分 。 多分类问题可以分解为多个一对一或者一对其余类的二分类问题 。
无监督学习
到目前为止 , 我们只讨论了监督学习 , 即数据类别是已知的 , 算法的目标是找出实际数据与它们所属的类别之间的关系 。 当类别未知时 , 我们使用另一种方法 , 叫做无监督学习 , 因为它让学习算法自己去找出数据中的模式 。 聚类是无监督学习的一个例子 , 其中不同的数据被聚类为密切相关的分组 。 下面是最广泛使用的无监督学习算法的列表:
- 主成分分析:通过识别一组具有最大方差和相互不相关的特征的线性组合来生成低维表示的数据集 。 这种方法有助于理解变量在无监督环境下的潜在的相互作用 。
- k-Means聚类:根据聚类中心点的距离将数据分为k个不同的聚蔟 。
- 层次聚类:通过创建一棵聚类树来构建多级分层结构 。
P.S:您可以从我的GitHub源代码中获取所有演讲幻灯片和RStudio会话 。 感谢您的回应!
如果你喜欢这篇文章 , 可以在社交媒体上分享它 , 我会很感激 。 你可以在GitHub上找到我的代码:
https://github.com/khanhnamle1994/statistical-learning以及我在个人网站上的更多写作和项目:
https://jameskle.com/)原文标题:The 10 Statistical Techniques Data Scientists Need to Master
原文链接:https://www.codementor.io/james_aka_yale/the-10-statistical-techniques-data-scientists-need-to-master-fvj4dx78a
译者简介
【介绍这10个分析方法 数据统计分析方法有哪些?】和中华 , 留德软件工程硕士 。 由于对机器学习感兴趣 , 硕士论文选择了利用遗传算法思想改进传统kmeans 。 目前在杭州进行大数据相关实践 。 加入数据派THU希望为IT同行们尽自己一份绵薄之力 , 也希望结交许多志趣相投的小伙伴 。
推荐阅读
- 介绍5个分析用户行为数据驱动业务增长的方法 如何用户行为数据分析?
- 光遇10月11日季节蜡烛位置详解介绍
- 江南百景图杭州奇观建筑介绍为你解答
- 介绍11个销售的技巧 常见的销售技巧有哪些?
- 高能手办团大招流派介绍为你解答
- 批八字算命合婚,有这些方法
- 相亲者要学会应用相亲介绍人三定律
- 介绍做农业网络推广方案的5种方法 农业网络推广方案该怎么做?
- 阐述网络营销的12种方式 网络营销的方式有哪些?
- 介绍网络营销的6种方法 网络营销的方法有哪些?