中国电信发布单体稠密万亿参数语义模型 用了普通训练方案9%的算力资源
6月19日,中国电信人工智能研究院(TeleAI)与北京智源人工智能研究院合作,推出了全球首个单体稠密万亿参数的语义模型——Tele-FLM-1T。这一成就使TeleAI成为国内率先进入稠密万亿参数大模型领域的机构之一。
针对大模型训练过程中高算力消耗的问题,TeleAI与智源的研究团队采用了模型生长和损失预测等创新技术,共同研发Tele-FLM系列模型。与业界常规训练方案相比,这一方法显著降低了算力需求,仅使用了9%的算力资源。通过112台A800服务器,在四个月的时间内,团队成功完成了3个模型总计2.3万亿tokens的训练任务。
中国电信表示,Tele-FLM-1T模型即将开放源代码,旨在为行业提供万亿稠密模型训练的技术参考案例,助力解决模型训练中可能出现的收敛难题。
作为率先布局并开放大模型的央企研究机构,TeleAI在过去一年中展现了其在该领域的持续进步。继去年推出千亿参数级别的“星辰”语义大模型之后,今年2月,“星辰”大模型通过了“境内深度合成服务算法备案”。5月15日,根据相关公告,“星辰”大模型再度完成产品备案,这意味着它已具备正式对外提供生成式人工智能服务的资格。
在开源领域,TeleAI持续发力,相继公布了7B、12B、52B参数规模的大模型。随着TeleChat系列模型的问世,TeleAI还对其多个大模型应用项目实施了性能升级,例如,在某城市民服务项目中,集成TeleChat-52B模型后,整体服务效能提高了40%。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rllx.cn/DKlT/55621.gov.cn
如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈邮箱:809451989@qq.com,一经查实,立即删除!