标签:Hessian

【 ICLR 2025 】Adam 有了 mini 版:内存减半,吞吐量可提升 50%

在大语言模型训练中,内存开销是一个关键挑战,尤其是Adam优化器的高内存需求。为了解决这一问题,研究团队提出了一种轻量化优化器Adam-mini,通过分析Transf...