在人工智能(AI)的现代发展中,理解人类社会的复杂性是其核心能力之一。OpenAI通过强调创建能够深刻理解各种主题、行业、文化和语言的AI模型的重要性,认识到了这一点。实现这一目标的关键在于训练数据集的广度和深度。
为了构建能够深入理解人类社会的AI模型,需要多样化的训练数据集。这些数据集不仅要覆盖广泛的领域,还要深入到特定的行业和文化中。OpenAI正在寻求能够反映人类社会、并且在网上不易获得的大规模数据集。这些数据集可以是文本、图像、音频或视频等多种形式,特别关注那些能够传达不同语言、主题和格式下人类意图的数据集。
OpenAI已经与多个合作伙伴携手合作,他们渴望贡献特定于自己国家或行业的数据。最近与冰岛政府和Miðeind ehf的合作专注于通过整合精选数据集来提高GPT-4在冰岛语方面的熟练度。此外,OpenAI还与Free Law Project合作,将大量法律文件纳入AI训练中,以民主化法律理解的获取。