近日,一项发布于 GitHub 与 arXiv 的研究引发业界热议:推出的盘古大模型(Pangu Pro MoE)被发现与阿里巴巴达摩院发布的通义千问 Qwen-2.5 14B 模型在参数结构上“惊人一致”。

盘古模型的官方仓库异常地包含了 Qwen 2024的许可证文件:Copyright 2024 The Qwen team, Alibaba Group and the HuggingFace Team. All rights reserved.

该研究使用最新的“LLM 指纹”技术,指出两者之间在注意力权重输出空间的相似性高达0.927,远高于其他主流模型组合。

这一发现引发了有关“模型继承”“换皮式训练”甚至“抄袭”的广泛讨论。

模型“指纹”技术揭示潜在继承关系:

这项研究来自上海大学的研究人员 Zhiguang Yang 和 Hanzhou Wu,论文题为《A Fingerprint for Large Language Models》,已公开在 arXiv 平台。

作者提出了一种黑盒大模型技术,即便无法访问模型权重,也能通过 API 输出(如 logits 或 top-k 概率)判断模型之间是否存在归属或继承关系。

研究团队在 GitHub 项目 HonestAGI/LLM-Fingerprint 中对多个主流模型进行了比对,发现:

“盘古 Pangu Pro MoE 与 Qwen-2.5 14B 模型在注意力模块中呈现 极高相似性 ,而这在其他模型对比中从未出现。”

该结果意味着,Pangu 很可能在 Qwen 的基础上进行训练或修改,而非“从零自主研发”。

QKV 偏差分析结果:

QKV 偏差分析显示,盘古模型和 Qwen2.5-14B 在三种投影类型(Q、K、V)上均表现出惊人的相似性。

这两个模型都表现出几乎相同的模式,尤其是在早期层的特征峰值以及随后的收敛行为方面。

鉴于 QKV 偏差是 Qwen 1代至2.5代的一个显著设计特征,而大多数开源模型(包括 Qwen3)放弃了这种方法,这一点尤为重要。

详细分析:

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com