可以在流行的平台如Spotify、Google Podcasts和Apple上收听Leading with Data的这一集。选择最喜欢的平台来享受有见地的内容!
与Ines Montani对话的关键洞见:
spaCy和Prodigy的演变一直以使开发者能够构建自定义NLP解决方案为中心,这些解决方案可以在内部运行。Explosion的独特结构结合了开源库、咨询和像spaCy LLM这样的专业工具,以解决行业特定的NLP挑战。生成性AI带来了令人印象深刻的进步,但也突显了在行业应用中结构化数据和定制工具的必要性。NLP行业可能会看到向更小、更高效的模型转变,以及对数据隐私和AI伦理的讨论增加。对于组织来说,选择开源模型还是大型科技公司的API,应基于其应用程序的具体需求以及控制和理解其AI系统的能力。进入NLP领域的年轻专业人士应该专注于基础技能和专业知识,以适应AI和机器学习不断变化的格局。
加入即将到来的Leading with Data会议,与AI和数据科学领导者进行有见地的讨论!让深入了解与Ines Montani的对话细节:
自2017年以来,spaCy和Prodigy的旅程如何演变?
自2017年以来,重点一直是让用户不仅使用现成的模型,而且更容易地训练自己的模型。看到spaCy随着更多的组件和用例演变,特别是在从文本中提取结构方面。目标是使开发者能够构建他们可以在内部运行的自定义解决方案,就像开发代码一样。还在解决与黑盒模型和API相关的挑战,赋予开发者对他们的NLP堆栈的控制权。
Explosion的独特结构是什么,不同的组件如何协同工作?
Explosion围绕开源库spaCy构建,并包括咨询和spaCy LLM。目标是在spaCy的基础上建立业务,提供不仅仅是库的更多服务,同时保持其开源。不想锁定功能或只提供支持,因为这会损害易用性。相反,开发了Prodigy,这是一个作为开发者工具设计的标注工具,参与咨询,将工具应用于现实世界的用例。这有助于确保正在构建的东西确实有用。
个人如何体验生成性AI浪潮?
生成性AI浪潮令人印象深刻,特别是看到扩大模型规模可以产生如此好的结果。这是惊喜和期待的混合,因为一直在密切关注它如何适应NLP工作流程以及它解决的特定问题。虽然人们对少样本和零样本学习感到兴奋,但认为结构化数据仍然至关重要,并且仍然需要围绕生成性AI的定制工具。
在行业应用中实施生成性AI有哪些常见痛点?
一个主要的痛点是提示工程,它仍然更多的是艺术而不是科学。另一个是业务应用所需的特异性,因为通用模型通常无法为专业术语提供好的结果。此外,对大型模型和API的依赖在经济和操作上可能具有挑战性,存在数据隐私和确定性输出等问题。正在通过spaCy LLM来解决这些问题,它提供了结构化预测任务和开发者熟悉的输出。
预见未来几年NLP行业的哪些趋势?
预计会向更小的模型发展,因为它们在特定任务上同样有效有很多潜力。可能会有更多的讨论围绕数据隐私和可解释性,以及对大型科技公司垄断AI的抵制。开源模型将继续发挥重要作用,将看到回归支持运营和产品问题的流程和工具。
对未来NLP应用的哪些方面感到兴奋,哪些方面感到担忧?
对在结构化非结构化文本方面显著更好的系统以及多模态数据的进步感到兴奋。然而,担心对AI能力的高估以及对AI的误导性认知对社会的影响。技术的滥用和错误传播比AI主导的反乌托邦场景更直接的威胁。
组织应该如何在开源模型和依赖大型科技公司API之间做出决定?
组织应该考虑他们是否需要在运行时具备生成模型的能力,或者是否可以将这种依赖转移到开发中。如果实时生成不是关键,开源模型可以更经济且提供更大的控制权。投资时间创建高质量的数据可以导致在特定任务上胜过大型生成模型的模型,使开源成为许多公司的可行选择。
会给进入NLP领域的年轻人什么建议?
专注于发展核心技能,如编程和解决问题,而不是追逐最新技术。理解语言的基础知识并拥有专业知识是非常宝贵的。从第一原则思考,并优先考虑无论技术趋势如何都将保持相关的技能。