Google最近推出了一款名为Minerva的神经网络模型,它专为解决计算问题和定量推理等复杂领域而设计。这款自然语言处理模型不仅能够重构教科书内容,还能撰写文章。尽管如此,Google认为这些神经网络在处理类似计算问题的“定量逻辑任务”上并没有展现出显著的能力。
虽然基础语言模型在类似问答、逻辑和摘要等多种自然语言任务中表现良好,但在处理涉及数值逻辑的任务,如计算和工程问题时,这些模型往往力不从心。Minerva是一款新型的语言模型,它运用顺序逻辑来解答科学问题,提供包含数值计算和符号操作的结果。Google的研究团队引入Minerva,旨在通过数值计算和符号操作来解答类似问题。这一模型基于Google最新的研究探索。
语言模型在众多自然语言任务中表现出色。在无监督的情况下,经过大量不同数据训练的神经网络能够在PaLM、BERT、GPT-3和Gopher等多种任务中表现良好。然而,这些模型在定量思维方面仍然远远不如人类,解决计算和智慧问题需要多种能力,包括阅读和理解自然语言及详细备忘录中的问题,回忆材料公式和常数,以及开发涉及数值计算和符号操作的逐步结果。
实验者对Minerva进行了训练,使用了来自arXiv预印本服务和网络跑步者的118GB科学论文数据集,这些论文中包含了LaTeX、MathJax或其他格式的精美表达。模型在训练数据中保留了符号和格式信息,因为这对于良好方程的语义意义至关重要。Minerva还采用了现代的孵化和评分程序来有效回答科学问题。
Minerva使用超现代的孵化和评分程序来回答问题。它通过随机评估所有隐含问题来生成多个答案,并通过成熟投票和研究或笔记本的链条选择最常见的结果作为最终答案。
Minerva在STEM基准测试中的表现如何?实验者对Minerva进行了测试,测试范围包括从高中水平的挑战到研究生水平的课程,评估其数值逻辑能力。这些测试包括技术、工程和计算等领域的问题。
Minerva的逻辑定量策略并非基于形式数学。它解析查询并使用自然语言和LaTeX精美表达的组合来产生回复。实验结果表明,Minerva能够持续产生创新问题,有时显著,有时则在显著范围内。
当Minerva出现问题时,它会犯很多算术错误,其中大部分错误都能流畅地解释。大约一半的错误是计算错误,另一半是逻辑错误,即结果的路径不遵循逻辑链。模型需要改进。
模型还可以因为错误的原因而纠正确切的答案。将类似情况称为“假阳性”,因为它们在模型性能的整体评估中被错误地计算在内。在分析中,设定假阳性率很低(Minerva 62B产生的假阳性结果少于8个)。
机器识字模型是许多科学学科中的有用工具,但它们通常不是为了解决特定问题而设计的。希望这些通用模型能够解决定量逻辑问题,帮助推动科学和教育的前沿。Minerva是朝这个方向迈出的一小步。