在2024年3月,Anthropic公司推出了其Claude 3系列模型,为性能和成本效益树立了新的标准。然而,GPT-4o和Gemini 1.5 Pro在几个月内就在这两个领域超越了Claude 3。现在,Anthropic公司凭借其Claude 3.5 Sonnet模型回归,该模型在性能和成本效益方面都是最佳选择。
Claude 3.5 Sonnet在推理、阅读理解、数学、科学和编程等多个行业标准指标上树立了新的基准。在GPQA(研究生水平问答)中,Claude 3.5 Sonnet以59.4%(无样本)和67.2%(5样本)领先,超越了其他模型。在MMLU(通用推理)中,它以90.4%(5样本)的得分最高,显示出卓越的推理能力。
Claude 3.5 Sonnet是标准视觉基准测试中最强大的视觉模型。它在视觉推理任务中表现出色,例如解释图表和图形,并能从不完美的图像中准确转录文本。
根据手头的任务,它可以使用外部工具,并执行各种任务,如返回API调用的自然语言请求、提取结构化数据、通过搜索数据库回答问题等。甚至可以从GitHub上的Anthropic课程中学习如何集成工具。
Anthropic推出了一个新功能,彻底改变了用户与Claude的互动。当用户请求代码片段、文本文档或网站设计等内容时,这些工件现在会出现在一个专门的窗口中,与他们的对话并排。这一增强不仅提高了可用性,也为交互式AI功能树立了新的标准。
Claude 3.5 Sonnet是Claude.ai聊天中的默认模型。在免费版本中,每天的消息数量有限制,这可能会根据流量而变化。如果升级到Pro版本,还可以访问Claude 3 Haiku和Opus模型。也可以通过Anthropic API访问该模型。输入和输出的成本分别为每百万个token 3美元和15美元。
所有模型都经过了广泛的测试,以最小化滥用。尽管Claude 3.5 Sonnet在智能上的飞跃,但它仍然保持着ASL-2的安全水平,并通过严格的红队评估进行了验证。所有当前的LLMs似乎都是ASL-2。