数据标注:人工智能发展中的英雄

在人工智能(AI)的浪潮中,经常听到关于算法、模型和机器学习的讨论,但很少有人提及这些技术背后的一个关键环节——数据标注。正是这些默默无闻的工,通过他们枯燥而重复的劳动,才使得AI算法得以发展。本文将向这些人工智能发展中的“超级英雄”——数据标注员致敬。

人工智能技术与数据标注

随着人工智能技术逐渐渗透到日常生活中,数据及其智慧的使用对当代社会产生了巨大影响。数据标注或标注在机器学习中是将未标记的数据(如图片、音频、视频等)分类,并添加一个或多个有洞察力的标签,以赋予数据上下文,使机器学习模型能够从中学习。标签可能会说明,例如,一张照片是否显示了一只鸟或一辆汽车,音频记录中说了哪些词,或者X光片上是否可见肿瘤。数据标注对于许多用例都是必要的,比如计算机视觉、自然语言处理和语音识别。

如果没有人类标注图片中的内容、如何识别音乐或如何阅读不同语言的文本,即使是最先进的人工智能算法也是无用的。为了让机器成功地与人类环境互动,人类数据标注员付出了大量的努力。

数据标注的功能

如今,大多数实际的机器学习模型都使用有监督的学习,使用算法将一个输入映射到一个输出。对于有监督学习来说,需要一个标记的数据集合,模型可以从中学习并用于做出明智的判断。数据标注的一个常见起点是征求人们对一组未标记数据的意见。例如,标注员可能需要标记一个图片集合中的所有图片,对于“图片是否包含一只鸟”这个问题,标记为“真”。这种标记可能像一个简单的是/否问题,或者详细到识别鸟的图像中的确切像素。在所谓的“模型训练”过程中,机器学习模型使用人类提供的标签来发现潜在的模式。

例如,假设想创建一个算法来识别图片中的猫。听起来简单,对吧?描述它为一个有两只眼睛的毛茸茸的动物。描述它的大小、颜色以及脸颊的样子。但计算机根本不理解腿、眼睛或什么是毛。这就是标注员的用武之地。需要数百万张照片,其中包含猫的照片被适当地标记为有猫。这样,通过有监督的学习,神经网络可以被训练来识别包含猫的图片。所以不会告诉算法猫是什么,而是用数百万的例子来帮助它自己弄清楚。

数据标注的常见格式

根据目前所看到的,数据标注主要涉及希望机器学习系统使用数据来执行的任务。这些流行的人工智能领域包括适当的数据标注类型。

自然语言处理:要创建自然语言处理的训练数据集,首先需要手动挑选关键的文本段落或用特定标签对文本进行分类。例如,可能想要对专有名词(如地点和人物)进行分类,识别词性,确定文本片段的情感或含义,并识别照片中、PDF或其他媒体中的文本。为了实现这一点,可以在训练数据集中的文本周围绘制边界框后手动转录文本。情感分析、实体名称识别和光学字符识别都使用自然语言处理模型。

计算机视觉:要开发计算机视觉系统的训练数据集,首先需要标记图像、像素或关键点或在数字图像周围绘制边界框。图像可以以多种方式进行分类,如按内容(图像中实际有什么)、质量(如产品与生活方式图像)甚至到像素级别。然后,使用这些训练数据,可以创建一个计算机视觉模型,用于自动分割图像、定位图像中的对象、识别图像中的关键点和对图像进行分类。

音频处理:在音频处理中,所有类型的声音,包括语音、动物噪音(吠叫、哨声或鸣叫声)和建筑噪音(碎玻璃、扫描仪或警报声),都被转换为结构化格式,以便在机器学习中使用。通常需要手动将音频文件转换为文本后再进行处理。然后,音频可以被标记和分类以揭示更多细节。训练数据集就是这些被分类的音频。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485