在富岳超算上训练大模型，日本联合研究团队发布 Fugaku-LLM

IT之家 5 月 11 日消息，由多方企业和机构组成的日本联合研究团队昨日发布了 Fugaku-LLM 大模型。该模型的最大特色就是其是在 Arm 架构超算“富岳”上训练的。

Fugaku-LLM 模型的开发于 2023 年 5 月启动，初期参与方包括富岳超算所有者富士通、东京工业大学、日本东北大学和日本理化学研究所（理研）。

而在 2023 年 8 月，另外三家合作方 —— 名古屋大学、CyberAgent（也是游戏企业 Cygames 的母公司）和 HPC-AI 领域创企 Kotoba Technologies 也加入了该模型研发计划。

▲ 富岳超算。图源富士通新闻稿

在昨日发布的新闻稿中，研究团队表示其充分挖掘了富岳超算的性能，将矩阵乘法的计算速度提高了 6 倍，通信速度也提升了 3 倍，证明大型纯 CPU 超算也可用于大模型训练。

Fugaku-LLM 模型参数规模为 13B，是日本国内最大的大型语言模型。

其使用了 13824 个富岳超算节点在 3800 亿个 Token 上进行训练，其训练资料中 60% 为日语，其他 40% 包括英语、数学、代码等部分。

该模型的研究团队宣称 Fugaku-LLM 模型可在交流中自然使用日语敬语等特殊表达。

具体到测试成绩上，该模型在日语 MT-Bench 模型基准测试上的平均得分为 5.5，排在基于日本语料资源的开放模型首位，并在人文社科类别中得到了 9.18 的高分。

目前 Fugaku-LLM 模型已在 GitHub 和 Hugging Face 平台公开，外部研究人员和工程师可在遵守许可协议的前提下将该模型用于学术和商业目的。

IT之家在此附上 Fugaku-LLM 模型在 Hugging Face 平台的地址，有兴趣的小伙伴可点击进一步了解：相关链接

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

在富岳超算上训练大模型，日本联合研究团队发布 Fugaku-LLM

友情提示

追星、逛展、看演唱会无国界，年轻人现在的跨国搭子是？

日本三份材料，揭开日本“语言危机”：日本人为何看不懂日语？

除甲醛空气净化器排名科学除甲醛最快最有效

日本造出首个6G设备，比5G手机快100倍，这是要硬刚中国通信吗？

网友自称1995年注销上海户口定居日本，如今想回上海，问咋办流程

9.3分王炸，今年日本的剧王！

珠海驾车冲撞市民重大恶性案件造成35人死亡43人受伤

年仅24岁的女孩去世后居然在八宝山举行追悼会。

北京大姐，在农村买了一千平米的大院子，赶上拆迁为何高兴不起来

浙江青田：网友制造要人命的微型武器，吓坏警方#大案纪实

国务院关于修改《全国年节及纪念日放假办法》的决定

六哥郑耀先反复试探北京领导的身份

成都一区花12亿建对外交流中心被通报当地回应：严肃查处

雷军真去工厂拧螺丝了

特朗普宣布马斯克将领导政府效率部

胡塞武装称袭击美军航母

以检方拒绝以总理推迟提交证词请求

杨紫发32岁生日照，媒体痛批整容太过，网友表示越来越像刘晓庆

在富岳超算上训练大模型，日本联合研究团队发布 Fugaku-LLM

友情提示

追星、逛展、看演唱会无国界，年轻人现在的跨国搭子是？

日本三份材料，揭开日本“语言危机”：日本人为何看不懂日语？

除甲醛空气净化器排名 科学除甲醛最快最有效

日本造出首个6G设备，比5G手机快100倍，这是要硬刚中国通信吗？

网友自称1995年注销上海户口定居日本，如今想回上海，问咋办流程

9.3分王炸，今年日本的剧王！

珠海驾车冲撞市民重大恶性案件造成35人死亡43人受伤

年仅24岁的女孩去世后居然在八宝山举行追悼会。

北京大姐，在农村买了一千平米的大院子，赶上拆迁为何高兴不起来

浙江青田：网友制造要人命的微型武器，吓坏警方#大案纪实

国务院关于修改《全国年节及纪念日放假办法》的决定

六哥郑耀先反复试探北京领导的身份

成都一区花12亿建对外交流中心被通报当地回应：严肃查处

雷军真去工厂拧螺丝了

特朗普宣布马斯克将领导政府效率部

胡塞武装称袭击美军航母

以检方拒绝以总理推迟提交证词请求

杨紫发32岁生日照，媒体痛批整容太过，网友表示越来越像刘晓庆

除甲醛空气净化器排名科学除甲醛最快最有效