在机器学习领域,项目的成功实施依赖于一系列标准化的步骤。以下是完成数据科学项目所需遵循的步骤。首先,需要根据业务需求收集数据。接下来是数据清洗,包括去除无效值、处理异常值、处理不平衡数据集、将分类变量转换为数值等。
在数据收集阶段,需要回答几个关键问题:试图解决的问题是什么?已经存在哪些数据源?是否存在隐私问题?数据是否公开?文件应该存储在哪里?数据类型包括结构化数据和非结构化数据。结构化数据以表格格式出现,例如Excel电子表格中的行和列样式。它包含不同类型的数据,例如数值、分类、时间序列。
非结构化数据没有严格的结构,例如图像、视频、语音和自然语言文本。在这个阶段,需要确定数据的类型,例如名义/分类、数值、序数和时间序列数据。
数据准备阶段包括探索性数据分析(EDA),了解正在使用的数据。需要识别特征变量(输入)和目标变量(输出)。例如,在预测心脏病的情况下,特征变量可能是一个人的年龄、体重、平均心率和体力活动水平。目标变量将是他们是否患有疾病。
数据预处理是准备数据以进行建模的过程。这包括特征插补,填充缺失值(机器学习模型无法学习不存在的数据)。特征编码是将值转换为数字,因为机器学习模型需要所有值都是数值的。特征归一化(缩放)或标准化有助于解决数值变量在不同尺度上的问题。特征工程是通过添加领域知识将数据转换为(可能)更有意义的表示。
模型训练阶段包括选择算法、模型过拟合和使用正则化减少过拟合。选择算法时,可以考虑监督算法和非监督算法。学习类型包括批量学习、在线学习、迁移学习、主动学习和集成学习。过拟合发生在模型在训练集上的表现比在测试集上更好时。正则化是一系列防止或减少过拟合的技术。