机器学习基础:监督学习与无监督学习

机器学习领域,初学者和新入门者常常会遇到一个普遍的问题:如何区分监督学习与无监督学习?理解这两种学习方式的本质是深入机器学习算法核心的关键。如果不能清晰地区分它们,学习之旅将无法顺利进行。实际上,这是在开始机器学习之旅时应该首先学习的内容之一。如果不理解线性回归、逻辑回归、聚类、神经网络等算法属于哪种学习方式,就不能简单地跳入模型构建阶段。如果不知道机器学习算法的目标是什么,将无法构建准确的模型。这就是监督学习与无监督学习的概念所在。

监督学习简介

监督学习是一种通过示例教导计算机的学习方式。它从过去的数据中学习,并应用这些学习来预测未来事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。为了进行准确的预测,输入数据被标记或标记为正确答案。

所有监督学习算法本质上都是复杂的算法,被归类为分类或回归模型。

  1. 分类模型:分类模型用于输出变量可以被分类的问题,例如“是”或“否”,或“通过”或“失败”。分类模型用于预测数据的类别。现实生活中的例子包括垃圾邮件检测、情感分析、考试分数卡预测等。
  2. 回归模型:回归模型用于输出变量是实数值的问题,例如一个独特的数字、美元、工资、体重或压力等。它通常用于基于之前的数据观察来预测数值。一些更熟悉的回归算法包括线性回归、逻辑回归、多项式回归和岭回归。

监督学习算法在现实生活中有一些非常实际的应用,包括:

  • 文本分类
  • 面部检测
  • 签名识别
  • 客户发现
  • 垃圾邮件检测
  • 天气预报
  • 根据当前市场价格预测房价
  • 股价预测等

无监督学习简介

另一方面,无监督学习是一种训练机器使用未经分类或标记的数据的方法。这意味着没有提供训练数据,机器必须自己学习。机器必须能够在没有任何关于数据的先验信息的情况下对数据进行分类。

这个想法是让机器接触大量不同的数据,并允许它从这些数据中学习,以提供以前未知的洞察,并识别数据集中隐藏的模式。因此,无监督学习算法并不一定有明确定义的结果。相反,它确定数据集中什么是不同或有趣的。

机器需要被编程为自学。计算机需要理解并从结构化和非结构化数据中提供洞察。这里是一个无监督学习的准确示例:

  1. 聚类:聚类是最常见的无监督学习方法之一。聚类方法涉及将未标记的数据组织成相似的组,称为簇。因此,一个簇是一组相似的数据项。这里的主要目标是找到数据点之间的相似性,并将相似的数据点分组到一个簇中。
  2. 异常检测:异常检测是识别与大多数数据显著不同的罕见项目、事件或观察的方法。通常寻找数据中的异常或离群值,因为它们是可疑的。异常检测通常用于银行欺诈和医疗错误检测。

无监督学习算法的一些实际应用包括:

  • 欺诈检测
  • 恶意软件检测
  • 识别数据输入过程中的人为错误
  • 进行准确的购物篮分析等

选择监督学习还是无监督学习

在制造业中,许多因素影响哪种机器学习方法最适合任何给定的任务。而且,由于每个机器学习问题都是不同的,决定使用哪种技术是一个复杂的过程。

一般来说,确定正确的机器学习方法的一个好策略是:

  1. 评估数据。它是标记/未标记的吗?是否有可用的专家知识来支持额外的标记?这将有助于确定是否应该使用监督、无监督、半监督或强化学习方法。
  2. 定义目标。问题是经常发生的、定义明确的吗?或者,算法是否被期望预测新问题?
  3. 审查可用算法。这些算法可能适合问题的维度(特征、属性或特征的数量)。候选算法应该适合数据的总体体积和结构。
  4. 研究算法类型的成功应用。在类似问题上研究算法类型的成功应用。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485