大型语言模型(LLMs),如OpenAI的ChatGPT,因其复杂的内部机制而常被比作“黑箱”。即使是数据科学家也难以解释模型为何以特定方式响应,有时甚至会导致凭空捏造事实。这种模型的不透明性促使OpenAI开发了一种新工具,旨在自动识别LLM中哪些部分负责其行为。尽管该工具仍处于早期阶段,但其开源代码已在GitHub上可用。OpenAI的可解释性团队经理William Saunders表示:“正试图预测AI系统可能遇到的问题。希望了解可以信任模型正在做的事情以及它产生的结果。”