在人工智能领域,尤其是大型语言模型(LLMs)的快速发展中,如何跟上这些新进展的步伐?答案就是LMSYS Chatbot Arena。这个平台由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生和教师组成的大型模型系统组织创建,它通过让用户测试和评价不同的LLMs,使得比较和评估LLMs变得简单。这是一个对这些模型感兴趣的人可以来了解最新发布情况以及它们如何相互比较的地方。
LMSYS排行榜使用Bradley-Terry模型对各种LLMs进行排名,排名显示在Elo尺度上。LMSYS排行榜收集人类成对比较以确定排名。截至2024年4月26日,排行榜包括91种不同模型,并收集了超过80万个人类成对比较。模型根据它们在不同类别中的表现进行排名,如编码和长用户查询。排名显示在Elo尺度上,排行榜会持续更新。
点击开始实时测试LLMs。
根据Arena Elo评分,以下是排名前十且趋势化的模型:
GPT-4-Turbo
by Open AIGPT-4-1106-preview
by Open AIClaude 3 Opus
by AnthropicGemini 1.5 Pro API-0409-Preview
by GoogleGPT-4-0125-preview
by Open AIBard (Gemini Pro)
by GoogleLlama 3 70b Instruct
by MetaClaude 3 Sonnet
by AnthropicCommand R+
by CohereGPT-4-0314
by Open AI显然,Open AI在最佳LLMs的竞争中暂时领先。
如果像一样好奇为什么一些模型前面有“preview”这个词,那么答案在这里——“preview”通常指的是在官方发布之前可供测试、反馈或实验使用的大语言模型(LLM)的版本。这个“preview”阶段允许开发者和用户探索模型的能力,识别任何问题,并提供反馈,这些反馈可以纳入模型的进一步改进或完善中。本质上,它就像软件的测试版,它大部分功能正常,并展示了新功能或改进,但可能仍然有一些需要在完整、稳定发布之前解决的错误或限制。
排名考虑了95%的置信区间,并且在确定模型排名时,少于500票的模型将从排名中移除。
可能听说过Llama 3是目前最好的开源大型语言模型(LLM)。然而,如果查看总体排名,GPT-4 Turbo位居榜首。为什么会这样?这是因为排名包括了开源和闭源LLMs。
查看排行榜的最后一列——它显示了每个LLM的许可证类型。这很重要,因为它将模型分为两组:开源和闭源。
开源LLMs背后的代码是公开可用的。这允许任何人检查、理解甚至改进模型。这促进了协作开发环境。
自由可用:
Mixtral-8x22b-Instruct
Zephyr-ORPO
Starling-LM-7B-beta
OpenChat-3.5
Zephyr-7b-beta
有限使用:
一些开源模型可能附有许可证限制。这些限制可能限制商业使用(例如,Creative Commons许可证)或限制修改(例如,Copyleft许可证)。
Command R+
Llama 3
LLMs不公开可用,需要许可或授权才能使用。这些通常由商业实体开发。
简而言之,开源LLMs提供透明度并促进合作,而闭源LLMs优先控制并可能提供更完善的用户体验。
LMSYS平台通过收集用户对话数据来评估大型语言模型(LLMs)。用户可以在给定任务上并排比较两个不同的LLMs,然后投票决定哪个LLM提供了更好的回答。LMSYS平台使用这些投票来排名不同的LLMs。
以下是LMSYS工作的逐步分解:
LMSYS排行榜使用两种主要方式来评价大型语言模型(LLMs):Elo评分系统和Bradley-Terry模型。
这个系统也用于国际象棋,根据其表现给每个LLM一个分数。如果一个LLM赢了一场比赛,它就会获得分数,但如果输了就会失去分数。两个LLMs之间的分数差异显示了哪一个可能更强,更有可能在未来的比赛中获胜。
这种方法比Elo系统更详细。它考虑了LLMs处理的任务的难度,更详细地展示了每个LLM的表现。
在LMSYS Chatbot Arena中,LLMs就像游戏中的玩家,它们与用户互动并相互竞争。每个LLM都从一个基本分数开始,这个分数会根据它们赢得或输掉比赛而变化。赢得对一个更强LLM的比赛会获得更多分数,输给一个更弱的LLM会失去更多分数。这样,评分总是准确地反映LLMs的当前实力。
Elo系统非常适合跟踪LLMs随时间的表现,帮助理解哪些模型做得好,并预测它们未来可能的表现。这是一个非常有用的工具,用于查看新旧模型在不断变化的AI开发世界中如何相互比较。