赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

为回归问题选择最佳的机器学习算法

当接触任何类型的机器学习(ML)问题时,有许多不同的算法可供选择。 在机器学习中,有一种称为“天下无免费午餐”的定理,它表明基本上没有一种ML算法适合所有问题。 不同ML算法的性能很大程度上取决于数据的大小和结构。 因此,如何选择正确的算法通常仍然不清楚,我们智能直接通过普通的试验和误差测试我们的算法。

但是,每个ML算法都有一些优点和缺点,我们可以将其作为指导。 虽然一种算法并不总是优于另一种算法,但我们可以使用每种算法的一些属性作为快速选择正确算法和调整超参数的指南。 我们将看一些针对回归问题的突出ML算法,并根据其优势和劣势设置何时使用它们的指南。 这篇文章应该可以帮助您为回归问题选择最佳的ML算法!

线性多项式回归


为回归问题选择最佳的机器学习算法


从简单的情况开始,单变量线性回归是一种用于使用线性模型(即直线)来模拟单个输入自变量(特征变量)和输出因变量之间的关系的技术。 更一般的情况是多变量线性回归,其中为多个独立输入变量(特征变量)和输出因变量之间的关系创建模型。 模型保持线性,输出是输入变量的线性组合。

存在第三种最常见的称为多项式回归的情况,其中模型现在变为特征变量的非线性组合,即可以存在指数变量,正弦和余弦等。然而,这需要知道数据与输出的相关关系。 可以使用随机梯度下降(SGD)训练回归模型。

优点:

  • 快速建模,当要建模的关系不是非常复杂并且您没有大量数据时,它特别有用。

  • 线性回归很容易理解,这对于业务决策非常有价值。

缺点:

  • 对于非线性数据,多项式回归在设计时可能非常具有挑战性,因为必须具有关于数据结构和特征变量之间关系的一些信息。

  • 由于上述原因,当涉及高度复杂的数据时,这些模型不如其他模型好。

神经网络


为回归问题选择最佳的机器学习算法


神经网络由一组称为神经元的互连节点组成。 来自数据的输入特征变量作为多变量线性组合传递给这些神经元,其中乘以每个特征变量的值称为权重。 然后将非线性应用于该线性组合,这给予神经网络模拟复杂非线性关系的能力。 神经网络可以具有多个层,其中一层的输出以相同的方式传递到下一层。 在输出端,通常不应用非线性。 使用随机梯度下降(SGD)和反向传播算法(均在上面的GIF中显示)训练神经网络。

优点:

  • 由于神经网络可以具有许多具有非线性的层(并因此具有参数),因此它们在建模高度复杂的非线性关系方面非常有效。

  • 我们通常不必担心神经网络中的数据结构在学习几乎任何类型的特征变量关系时都非常灵活。

  • 研究一致表明,简单地为网络提供更多的训练数据,无论是全新的还是增加原始数据集,都有利于网络性能。

缺点:

  • 由于这些模型的复杂性,它们不易于解释和理解。

  • 它们在训练时可能非常具有挑战性并且计算复杂,需要仔细的超参数调整和学习速率计划的设置。

  • 它们需要大量数据才能实现高性能,并且在“小数据”情况下通常没其他ML算法好。

回归树和随机森林


为回归问题选择最佳的机器学习算法

从基本情况开始,决策树是一种直观的模型,其中一个人遍历树的分支,并根据节点的决定选择下一个分支。 树形导入是将一组训练实例作为输入,决定哪些属性最佳分割,分割数据集以及在生成的分割数据集上重复出现直到所有训练实例都被分类的任务。 在构建树时,目标是分割创建最纯子节点的属性,这样可以将为了对数据集中的所有实例进行分类而需要进行的分割数量保持最小。 纯度是通过信息增益的概念来衡量的,信息增益的概念与先前看不见的实例需要了解多少以便对其进行适当分类有关。 在实践中,这是通过比较熵或将当前数据集分区的单个实例分类所需的信息量与如果当前数据集分区在给定时进一步分区时对单个实例进行分类的信息量来测量的。属性。

随机森林只是决策树的集合。 输入向量通过多个决策树运行。 对于回归,所有树的输出值是平均的; 对于分类,投票方案用于确定最终类别。

优点:

  • 擅长学习复杂,高度非线性的关系。 它们通常可以实现相当高的性能,优于多项式回归,并且通常与神经网络相当。

  • 很容易解释和理解。 虽然最终训练的模型可以学习复杂的关系,但是在训练期间建立的决策边界很容易理解。

缺点:

  • 由于训练决策树的性质,它们可能容易出现严重的过度拟合。 完成的决策树模型可能过于复杂并且包含不必要的结构。 但这有时可以通过适当的树修剪和更大的随机森林集成来缓解。

  • 使用较大的随机森林集成来实现更高的性能带来了更慢和需要更多内存的缺点。



发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com