特征缩减(Shrinkage)
这种方法使用所有p个自变量拟合模型 , 但相对于最小二乘估计 , 该方法会让一些自变量的估计系数向着0衰减 。 这种衰减又称正则化(Regularization) , 具有减少方差的作用 。 根据所使用的缩减方法 , 一些系数可能被估计为0 。 因此这个方法也用于变量选择 。 最常用的两种缩减系数方法是岭回归(Ridge regression)和L1正则化(Lasso) 。
岭回归(Ridge regression)与最小二乘类似 , 但在原有项的基础上增加了一个正则项 。 和最小二乘法一样 , 岭回归也寻求使RSS最小化的参数估计 , 但当待估参数接近于0时 , 它会有一个收缩惩罚 。 这个惩罚会促使缩减待估参数接近于0 。 您无需深入数学海洋 , 仅需要知道岭回归通过减小模型方差来缩减特征就可以了 。 就像主成分分析一样 , 岭回归将数据投影到d维空间 , 然后对比低方差(最小主成分)和高方差(最大主成分)的系数进行剔除和筛选 。
岭回归至少有一个缺点:它的最终模型中包含全部p个自变量 。 惩罚项会让许多系数接近于0但永远不为0 。 这一点通常对预测准确性而言并不是问题 , 但它可能会使模型更难解释 。 正则化克服了这个缺点 , 只要s足够小 , 它能强迫某些系数为0 。 S=1就是常规的最小二乘法回归 , 当s接近于0时 , 系数朝着0缩减 。 因此正则化也相当于进行了变量选择 。
降维(Dimension Reduction)
降维将估计p+1个系数减少为M+1个系数 , 其中M<p 。 这是通过计算变量的M个不同的线性组合或投影来实现的 。 然后 , 这M个投影被用作预测变量 , 使用最小二乘来拟合线性回归模型 。 常用的两种降维方法分别是主成分回归(Principal component regression)和偏最小二乘法(Partial least squares) 。
可以将主成分回归描述为从大量变量中导出低维特征集的方法 。 数据的第一主成分方向是观测值变化最大的方向 。 换句话说 , 第一主成分是一条尽可能拟合数据的直线 。 可以拟合p个不同的主成分 。 第二主成分是与第一主成分不相关的变量的线性组合 , 且方差最大 。 主成分分析的思想是使用正交方向的数据的线性组合来捕获数据中的最大方差 。 通过这种方式可以组合相关变量的影响 , 从可用数据中提取更多信息 , 而在常规最小二乘中我们必须丢弃其中一个相关变量 。
主成分分析法识别最能代表预测变量X的线性组合 。 这些组合(方向)以无监督的方式被识别 , 响应变量Y并未用于帮助确定主成分方向 , 因此不能保证最能解释预测变量的方向在预测上也是最好的(尽管通常都这样假定) 。 偏最小二乘法是主成分分析法的一种监督学习替代方式 。 它也是一种降维方法 , 首先识别一个新的较小的特征集 , 这些特征是原始特征的线性组合 , 然后通过对新的M个特征最小二乘拟合成线性模型 。 与主成分分析法不同的是 , 偏最小二乘法会利用响应变量来识别新特征 。
非线性模型(Nonlinear Models)
在统计学中 , 非线性回归是回归分析的一种形式 , 观测数据是通过一个或多个自变量的非线性组合函数来建模 。 数据用逐次逼近的方法进行拟合 , 下面是一些处理非线性模型的重要方法:
如果一个实数域上的函数可以用半开区间上的指示函数的有限次线性组合来表示 , 则它被称为阶跃函数(step function) 。 换一种不太正式的说法就是 , 阶跃函数是有限段分段常数函数的组合 。
分段函数是由多个子函数定义的函数 , 每个子函数应用于主函数域的某一个区间上 。 分段实际上是表达函数的一种方式 , 而不是函数本身的特性 , 但是加上额外的限定条件 , 它也可以描述函数的性质 。 例如 , 分段多项式函数是这样一个函数 , 它是每个子域上的多项式 , 但每个子域上可能是不同的函数 。
样条曲线(spline)是由多项式分段定义的特殊函数 。 在计算机图形学中 , 样条是指分段多项式参数曲线 。 因为它们的结构简单 , 拟合简易而准确 , 可以近似曲线拟合和交互式曲线设计中的复杂形状 , 样条曲线是很流行的曲线 。
广义可加模型(Generalized additive model)是一种广义线性模型 , 其中线性预测变量依赖于某些预测变量的未知光滑函数 , 侧重于这些光滑函数的推理 。
树形方法(Tree-Based Methods)
树形方法可以用于回归和分类问题 。 这涉及到将预测空间分层或分割成若干简单区域 。 由于用于分割预测空间的分裂规则集可以概括成树形 , 因此这类方法被称为决策树方法 。 下面的方法都是先生成多棵树 , 然后将这些树组合在一起以产生单个共识预测 。
推荐阅读
- 介绍5个分析用户行为数据驱动业务增长的方法 如何用户行为数据分析?
- 光遇10月11日季节蜡烛位置详解介绍
- 江南百景图杭州奇观建筑介绍为你解答
- 介绍11个销售的技巧 常见的销售技巧有哪些?
- 高能手办团大招流派介绍为你解答
- 批八字算命合婚,有这些方法
- 相亲者要学会应用相亲介绍人三定律
- 介绍做农业网络推广方案的5种方法 农业网络推广方案该怎么做?
- 阐述网络营销的12种方式 网络营销的方式有哪些?
- 介绍网络营销的6种方法 网络营销的方法有哪些?