机器学习入门:线性回归基础

在当今世界,机器学习和人工智能是吸引无数人眼球的词汇。一些人想要利用这些技术,而另一些人则希望在这些领域建立自己的职业生涯。本文主要针对那些想要在这些领域发展或仅仅对它们工作原理感兴趣的人。

是否对成为机器学习工程师感兴趣?是否已经学习了像Python或R这样的编程语言,但在进一步发展时遇到了困难?(这种情况大多发生在自学者身上)。是否觉得统计学、概率论和回归分析这些词汇令人生畏?如果来自非技术背景,这种感觉是完全可以理解的。但有一个解决办法,那就是……开始行动。记住,如果从不开始,就永远不会犯错,也永远不会学习。所以从小处开始。

简单线性回归

何时使用线性回归

将使用线性回归创建一个简单的机器学习模型。但在进入编码部分之前,让先看看它背后的基础和逻辑。回归分析是当前使用最多的监督机器学习算法之一。回归分析是一种建立因变量(y)和自变量(x)之间关系的方法,从而能够预测和预测结果。是否还记得在学校时解决像y = mx + c这样的方程?如果是,那么恭喜。已经知道简单线性回归了。如果不是,学习起来也一点都不难。

让考虑一个流行的例子。投入学习的时间和考试获得的分数。在这里,获得的分数取决于学生投入学习的时间,因此获得的分数是因变量y,投入的时间是自变量x。目标是开发一个模型,帮助预测给定新的时间投入后获得的分数。将使用线性回归来实现它。

为了更清楚地理解这个概念,让考虑另一个例子。在包含消耗的卡路里和增加的体重的数据集中,增加的体重取决于个人消耗的卡路里。因此,增加的体重是因变量y,消耗的卡路里是自变量x。

y = mx + c是最佳拟合数据的回归线方程,有时也用y = b0 + b1x表示。在这里,y是因变量,在这个例子中是获得的分数。x是自变量,在这个例子中是学习的时间。m或b1是回归线的斜率和自变量的系数。c或b0是回归线的截距。

逻辑是使用现有数据计算斜率(m)和截距(c),然后就能够为任何x值计算y的值。

Python中实现线性回归所需的包和代码

如何在Python中执行线性回归?需要导入几个包,分别是NumPy用于处理数组,Sklearn用于执行线性回归,以及Matplotlib用于绘制回归线和图表。请记住,对于初学者来说,几乎不可能了解Python中的每一个包和库。因此,建议在需要时搜索合适的包。通过实际经验使用包比仅仅理论上阅读文档更容易记住包的用法。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485