阿里云发布开源模型Qwen2,宣称性能超美国最强开源模型Llama3-70B
6月7日,阿里云在技术博客上宣布了一个重要进展:他们发布了名为Qwen2-72B的开源模型,这款模型在全球范围内以其卓越的性能脱颖而出。Qwen2-72B不仅超越了美国目前最强的开源模型Llama3-70B,还优于众多国内的闭源大型模型,如文心4.0、豆包pro、混元pro等。对于有兴趣探索这一新成果的公众,阿里云提供了在魔搭社区和Hugging Face平台上免费获取通义千问最新开源模型的途径。
此次发布的Qwen2系列是对今年2月推出的通义千问Qwen1.5的一次显著升级,整体性能和多项具体能力均有提升,涉及代码处理、数学运算、逻辑推理、指令执行以及多语言理解等方面。Qwen2-72B在一系列国际公认的测评中,包括MMLU、GPQA、HumanEval等,赢得了多项世界第一,继续拉大与美国Llama3模型之间的距离。阿里云发布开源模型Qwen2,宣称性能超美国最强开源模型Llama3-70B。
Qwen2系列相当全面,涵盖了从Qwen2-0.5B至Qwen2-72B等多个不同规模的预训练和指令微调模型,其中特别引入了Qwen2-57B-A14B这一混合专家模型(MoE),采用了创新的GQA(分组查询注意力)机制。这种机制使得模型运行时能更高效地利用资源,用户将体验到更快的推理速度和更低的显存需求。
自推出以来,通义千问Qwen系列在全球范围内迅速走红,其总下载量在短短一个月内实现翻番,目前已超过1600万次。开源社区的积极响应进一步证明了Qwen系列的成功,已有超过1500款基于Qwen的二次开发模型面世。值得注意的是,Qwen系列中的72B及110B模型多次在HuggingFace的Open LLM Leaderboard开源模型排行榜上夺得首位,彰显了其在全球AI领域的影响力。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rllx.cn/Pcgl/46808.gov.cn
如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈邮箱:809451989@qq.com,一经查实,立即删除!