Common 7B Language Models Already Possess Strong Math Capabilities
相关链接:arxiv
关键字:Language Models、Math Capabilities、LLaMA-2 7B、Synthetic Data、SFT Data Scaling
摘要
以前人们认为,通用语言模型展现出的数学能力只有在非常大的规模上或需要大量与数学相关的预训练才能出现。本文表明,经过常规预训练的LLaMA-2 7B模型已经具备了强大的数学能力,从256次随机生成中选择最佳答案的准确性可达97.7%和72.0%,分别在GSM8K和MATH基准测试中。当前基模型的主要问题是难以一贯地激发其固有的数学能力。显著地,GSM8K和MATH基准测试的第一答案准确率分别下降到49.5%和7.9%。我们发现简单地扩大SFT数据规模可以显著增强生成正确答案的可靠性。然而,由于公共数学题的数量有限,扩展潜力受到限制。为了克服这个限制,我们采用了生成合成数据的方法,这些合成数据几乎与真实数据一样有效,当规模扩大到约一百万个样本时,没有明显的饱和迹象。这种简单的方法使用LLaMA-2 7B模型在GSM8K上达到了82.6%的准确性,在MATH上达到了40.6%的准确性,分别超过了以前的模型14.2%和20.8%。我们还提供了不同推理复杂性和错误类型的规模扩张行为的洞见。
核心方法
- LLaMA-2 7B模型验证:在不具备与数学相关的特定预训练的情况下,LLaMA-2 7B模型已能解决数学问题。
- 随机生成多样性增强:通过加温度控制,提高多次尝试中生成正确答案的多样性。
- 不稳定性问题:虽然256次生成中通常包含正确答案,但从中提取正确答案无保证,这被称作"不稳定性问题"。
- 使用真实数学问题进行规模扩张:通过扩大真实数学问题的SFT数据,可在一定程度上解决不稳定性问题。
- 采用合成数据:通过GPT-4 Turbo API生成的合成数学问题,以实现SFT数据的进一步规模扩张。
- 简单的数据生成方法:通过三步简单的方法,使用GPT-4 Turbo API生成全新的数学问题和解决方案,提升合成问题的有效性。
实验说明
模型 | GSM8K | MATH |
---|---|---|
LLaMA-2 7B (真实数据) | 26.7% - 50.2% | 4.2% - 8.4% |
LLaMA-2 7B (合成数据) | 25.9% - 49.5% | 3.9% - 7.9% |
LLaMA-2 7B (256次生成) | 97.7% | 72.0% |
LLaMA-2 7B (优选答案) | 49.5% | 7.9% |
LLaMA-2 13B | 88.1% | 44.9% |
LLaMA-2 70B | 90.6% | 52.8% |
通过上述方法,研究团队有效扩大了SFT数据的规模,并在GSM8K和MATH问题上取得了较高的准确性,与以往使用相同预训练基模型的方法相比,我们的方法表现出显著的性能提升。
结论
本研究表明,7B规模的通用语言模型,如LLaMA-2 7B,已经表现出了强大的数学能力,挑战了先前的看法,即先进的数学推理是更大、经过更深入预训练的模型所特有的。通过显著扩大SFT数据规模,我们极大地提高了模型解决数学问题的稳定性。我们的方法使Xwin-Math模型的性能达到了与其较大对等模型相当,甚至在某些情况下超过了它们的水平。我们的分析表明,性能的提升主要归因于在单步推理准确性的提高,同时额外的训练数据重采样可以提高较难问题的准确性。此外,我们观察到与逻辑推理错误相比,计算错误的减少更为显著。我们的研究为大型语言模型的数学能力提供了宝贵的洞见。