ai policy - 搜索 News

资讯

23 小时

作为Mistral推出的首个基于纯强化学习（RL）训练的推理大模型，Magistral采用改进的Group Relative Policy Optimization（GRPO）算法。通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算，在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

反馈

资讯

今日热点