机器学习是一门解读数据并自动化数据分析功能的科学,通过训练现有的数据来实现,以便在传递类似类型的数据时做出决策。机器学习属于人工智能(AI)的范畴,而人工智能还包括创建智能系统的其他领域。以下是制作的一个小图表,用于表示AI、ML和数据科学的关系。
如今,机器学习的例子无处不在。数字助手(如Siri、Alexa、Google)响应语音命令。网站根据之前的购买、观看或收听习惯推荐产品、电影和歌曲,这就是推荐系统的起源。机器人在在做其他事情时为吸尘。认为人们可以在电子商务商店找到这些机器人作为家庭助手。技术是如何为服务而演变的?
是的!垃圾邮件检测使用自然语言处理(NLP)来阻止不需要的电子邮件。医学影像分析系统帮助医生发现他们可能错过的肿瘤,这有助于在医学诊断中检测疾病。第一辆自动驾驶汽车正在先进国家上路,很快也会在国家出现。这就是技术如何使生活变得轻松和无烦恼。
机器学习分为四种类型:监督学习、无监督学习、半监督学习和强化学习。监督学习涉及用标记数据训练模型并对其做出预测。由于真实值(正确值)已经知道,因此可以轻松评估这些模型。无监督学习涉及未标记的数据集,其中没有给出标签或无法给出标签。这些模型识别其中未识别的模式以进行预测。半监督学习是监督学习和无监督学习的结合,其中一些数据包含标签,而其他数据则没有。在训练期间,它使用较小的标记数据集来指导分类和从较大的未标记数据集中提取特征。强化学习类似于试错方法,其中正确的预测会得到奖励,而错误的预测模型会受到惩罚并重新训练以采取行动。
机器学习通常用于数据集,其中监督学习和无监督学习是获取信息的常用技术。其他类型也会被使用,但首先了解前两种分类有助于更好地理解后者。监督学习进一步分为回归和分类任务。回归用于预测连续值,分类用于预测离散值。更清楚地说,回归用于数值预测,分类用于分类数据预测。例如:回归用于预测房价、股票价格、票价等。分类用于预测医学诊断(疾病是否存在)、欺诈检测(欺诈或无欺诈)、雨天预测(下雨或不下雨)等。
有许多模型可以解决回归问题,如线性回归、KNN、SVR、决策树、随机森林、提升方法等。
预测分析和其他类型的分析:有四种类型的分析。它们是描述性、诊断性、预测性和规范性分析。ML算法属于预测建模技术。以下是一个制作的图表,用于理解分析的类型。
回归分析用于了解机器学习中的回归问题以及数据中的各种其他发现:回归分析用于了解独立(预测变量)和依赖(预测)变量之间的关系。这种技术用于预测、时间序列建模和发现变量之间的因果关系。
用于分析的一些回归技术包括线性回归、多项式回归、岭回归、套索回归、弹性网回归和逐步回归。
1. 线性回归
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
model = LinearRegression()
model.fit(x_train, y_train)
pred = model.predict(x_test)
r2_score(y_test, pred) # 用于查找预测值和真实值的R2分数
可以在sklearn库中探索线性回归参数。
2. 套索回归
这也被称为L1回归。套索是最小绝对收缩和选择算子的缩写。套索惩罚回归系数的绝对大小。正则化线性回归模型与线性回归中的最小二乘非常相似,只是系数是通过最小化一个略有不同的目标函数来估计的。最小化RSS和“惩罚项”的总和,该惩罚项惩罚系数大小。应用的惩罚越大,估计值或值就越接近绝对零。这导致在给定变量中进行变量选择。
3. 岭回归
这也被称为L2回归。岭回归作为一种补救措施,用于缓解模型预测变量之间的共线性,因为模型包括相关特征变量,所以最终模型在其最大方法中受到限制和僵硬。L2消除了数据面临的变量之间的共线性问题。
4. 弹性网回归或正则化
这是L1和L2正则化的结合,以获得两种方法的好处。现在使用这个错误比使用其中之一要少得多。它同时使用Lasso和Ridge回归正则化来移除所有不必要的系数,但不是信息性的系数。
5. 多项式回归
线性回归仅在线性数据上表现良好,而多项式回归用于非线性或当数据点以曲线形式存在时。当执行一个模型以管理非线性分离的数据时,使用多项式回归技术。在它中,最佳拟合线不是直的,而是最适合数据点的曲线。
多项式方程的方程以基于可用变量或要拟合到多项式回归中的特征数量的度数形式出现。方程为y = b0 + b1x1 + b2x2^2 + b3x3^3 + …… + bnxn^n,其中b0 = 截距,b1,b2,b3..bn = 多项式回归曲线的截距,x1,x2^2…..xn^n = n平方的xn变量代表独立变量。
6. 逐步回归
在这种方法中,回归是构建的,直到所有变量都在所需的p值或t统计量或测试统计量中。在每一步向前,变量从一组描述性变量中添加或减去。