当人类说话时,我们通常会进行内心对话,这种对话会影响我们最终说出的话。我们在说话前思考得越多,说话的质量就越好。
研究人员在论文中描述了他们如何训练 LM(Mistral-7B)学习如何以通用的方式模仿这一过程。Quiet-STaR 是另一种名为 STaR(自学推理)的技术的进步。
STaR 是一种训练模型的方法,其中包含一些带有答案解释(理由)的问题示例。模型利用这些思维链示例尝试自己回答问题,自己找出答案的理由。
STaR 会评估自己提出的理由是否能得出正确答案,并改进自己的理由。
尽管 STaR 令人印象深刻,但它的推理能力仅限于训练期间的问题解答(QA)环境。Quiet-STaR 的目标是为 LM 提供一种通用能力,使其能够在更广泛的文本(而不仅仅是 QA 数据集)中学习如何推理或提出理由。
Quiet-STaR 结果
研究人员在 GSM8K 数学和 CommonsenseQA 常识推理基准上测试了经过 Quiet-STaR 训练的 Mistral-7B 模型。他们发现,Quiet-STaR 提高了 CommonsenseQA(36.3% 到 47.2%)和 GSM8K(5.9% 到 10.9%)基准的困惑度和零点直接推理能力。
虽然Mistral-7B的数学推理能力仍然不强,但Quiet-STaR比基础模型提高了近85%,而这是在没有任何特定数据集微调的情况下实现的。"
测试结果还显示,性能的提高与分配给模型内部思考的代币数量直接相关。回答前思考得越多,答案就越好。
这些改进是以巨大的计算开销为代价的。模型在思考过程中的内心独白会产生大量Token。
硬件的改进最终会降低这些技术带来的额外开销。
研究人员总结说,未来优化 Quiet-STaR 的工作也会有所帮助。动态预测是否需要思考过程,或者思考过程应该有多长,可以减少不必要的思考标记。
使用 Quiet-STaR 训练 Mistral-7B 这样的小型模型所取得的成果令人欣喜。研究人员认为,"将同样的技术应用于更好的模型,很可能会产生好得多的结果"。
伦理问题
让语言模型更像人类进行推理会带来一些有趣的问题和伦理问题。
研究人员指出,"不可能知道模型用语言表达的推理是否准确地代表了模型的内部处理过程"。模型生成的推理是其内部推理的自然语言表述。它们是准确的反映吗?
他们进一步指出,"如果模型发现有害或有偏见的推理模式是有用的,那么就没有防范措施"。
我们可能会对人工智能模型的答案感到满意,但我们可能并不喜欢,甚至不理解得出答案的思维过程。