pangu - 搜索 News

资讯

18 小时

回顾华为 Pangu 套壳事件，套没套壳？

1 天

华为盘古到底有没有抄袭阿里Qwen？看完这篇技术分析你就知道了

除此之外，HonestAGI还发现盘古大模型官方在GitCode中发布的代码中，还异常地包含了Qwen ...

1 天

华为大模型到底抄袭没有？

有网友认为，这可能意味着Pangu Pro MoE存在抄袭。盘古大模型团队在GitHub中进行了回应，否认抄袭指控，并且认为该作者的评估方法不科学，并按其方法做了多组不同大模型的对比，“注意力参数分布上的平均相关性”也都是很高的水平。此外，盘古Pro ...

1 天

华为盘古大模型被质疑“抄袭”阿里Qwen：官方回应

3 天on MSN

华为盘古大模型被指抄袭？开发团队正式回应：遵循开源规范

近期，网络上流传着一则消息，引起了人工智能领域的广泛关注。传闻指出，华为推出的盘古大模型（Pangu Pro MoE）与阿里巴巴达摩院公布的通义千问 Qwen-2.5 14B 模型在参数结构上存在高度相似性。这一说法伴随着一些疑似证据一同出现，迅速在业界引发了热议。

微信公众平台 on MSN3 天

网传华为盘古大模型疑似抄袭通义千问，盘古团队否认

来源：新浪科技新浪科技讯 7月4日晚间消息，近日，一项发布于GitHub的研究引发业界热议，该研究的作者认为，华为推出的盘古大模型（Pangu Pro MoE）与阿里巴巴发布的通义千问Qwen-2.5 14B模型在参数结构上存在“惊人一致 ...

电子工程专辑1月

华为爆改MoE训练：昇腾超大规模Pangu MoE模型训练实践

最终，在 Pangu Ultra MoE 718B 模型训练实践中，我们实现了 MFU 41% @ 800T A2万卡集群的预训练性能，以及 35K Tokens/s 吞吐 @ CloudMatrix 384 超节点的 RL 后训练性能，同时，后训练支持 > 4K 卡超节点集群高效扩展。本文所有资料都已上传至“智能计算芯知识”星球。

新浪网1月

中信建投 | 华为发布Pangu Ultra MoE 模型中文技术报告 - 新浪财经

文｜于芳博辛侠平华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，披露了模型的细节，其核心突破在于实现了“全栈国产化 ...

证券时报官方网站1月

华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节

人民财讯5月30日电，近日，华为在MoE模型训练领域再进一步，推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告，披露众多技术细节，充分体现了昇腾在超大规模MoE训练性能上的 ...

快科技1月

2秒吃透一道高数大题！华为揭秘7180亿参数昇腾大模型 - 快科技

Pangu Ultra MoE模型拥有7180亿参数量，具有大稀疏比和高综合性能的显著特点。其架构包含61层Transformer，前3层为稠密层，后58层为MoE层。

51CTO1月

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE ...

在 Pangu Ultra 稠密模型 [2] 的训练中，Depth-Scaled Sandwich-Norm 和 TinyInit 方法在保障训练稳定性上起到了关键性的作用，所以 Pangu Ultra MoE 依旧采用这个方案来控制训练稳定性。经过实验证明，此设计在 Pangu Ultra MoE 的训练中同样能起到增强稳定性、加快收敛速度的作用。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果