中国电信发布单体稠密万亿参数语义模型用了普通训练方案9%的算力资源

news/2024/11/1 3:31:50/文章来源:中华网

6月19日，中国电信人工智能研究院（TeleAI）与北京智源人工智能研究院合作，推出了全球首个单体稠密万亿参数的语义模型——Tele-FLM-1T。这一成就使TeleAI成为国内率先进入稠密万亿参数大模型领域的机构之一。

针对大模型训练过程中高算力消耗的问题，TeleAI与智源的研究团队采用了模型生长和损失预测等创新技术，共同研发Tele-FLM系列模型。与业界常规训练方案相比，这一方法显著降低了算力需求，仅使用了9%的算力资源。通过112台A800服务器，在四个月的时间内，团队成功完成了3个模型总计2.3万亿tokens的训练任务。

中国电信表示，Tele-FLM-1T模型即将开放源代码，旨在为行业提供万亿稠密模型训练的技术参考案例，助力解决模型训练中可能出现的收敛难题。

中国电信发布单体稠密万亿参数语义模型用了普通训练方案9%的算力资源

作为率先布局并开放大模型的央企研究机构，TeleAI在过去一年中展现了其在该领域的持续进步。继去年推出千亿参数级别的“星辰”语义大模型之后，今年2月，“星辰”大模型通过了“境内深度合成服务算法备案”。5月15日，根据相关公告，“星辰”大模型再度完成产品备案，这意味着它已具备正式对外提供生成式人工智能服务的资格。

在开源领域，TeleAI持续发力，相继公布了7B、12B、52B参数规模的大模型。随着TeleChat系列模型的问世，TeleAI还对其多个大模型应用项目实施了性能升级，例如，在某城市民服务项目中，集成TeleChat-52B模型后，整体服务效能提高了40%。

责任编辑：卢其龙 CN070

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rllx.cn/DKlT/55621.gov.cn

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈邮箱:809451989@qq.com，一经查实，立即删除！