为缓解大模型行业“算力荒”首个千卡异构GPU芯片混训平台发布

admin2年前 (2024-09-30)上海注册公司71

全国标准厂房租售全国上百园区招商中 4000123021

　　随着国产GPU（图形处理器）芯片的兴起，如何将进口和国产GPU有效结合在一起，打造异构芯片算力集群，成为发展大会上，上海企业无问芯穹发布了业内首个千卡规模异构芯片混训平台，其算力利用率蕞高达到97.6%。这家源于清华大学电子工程系的企业与清华大学、上海交通大学科研团队合作，实现了、天数智芯、沐曦、摩尔线程、AMD、等6种品牌芯片的交叉混合训练，为大模型训练提供了算力解决方案。

　　“打开水龙头时，我们不需要知道水是从哪条河里来的。同样道理，今后我们用各种AI应用时，也不需要知道它调用了哪些基座模型，用到了哪种加速卡的算力。”无问芯穹联合创始人兼CEO夏立雪说。

　　为了实现算力基础设施的“自然供应”，他带领团队开发出“Infini-AI大模型开发与服务云平台”。4个月前，这个云平台首次公测，目前已有智谱AI、月之暗面、生数科技等大模型企业在Infini-AI上稳定使用异构算力，还有20余家大模型应用创业公司在云平台上持续调用各种预置模型API（应用程序编程接口），使用无问芯穹提供的工具链开发模型应用产品。

　　据介绍，Infini-AI云平台集成了大模型异构千卡混训能力，是业内首个可进行单任务千卡规模异构芯片混合训练的平台，并具备万卡扩展性，支持采用、AMD、等6种异构芯片的大模型混合训练。从本月起，通过试训申请的用户，可在这个云平台上一键发起700亿参数规模的大模型训练。

　　夏立雪说，与国际上模型层与芯片层“相对集中”的格局相比，国内模型层与芯片层更加“百花齐放”。这是市场竞争充分的一种表现，但大量的异构芯片也造成了“生态隔离”，给算力的使用方带来一系列技术挑战。据不完全统计，宣布拥有千卡规模的国内算力集群不少于100个，但存在难以有效整合与利用的问题，这是当前大模型行业面临“算力荒”的一个重要原因。

　　针对这个问题，无问芯穹提出的解决方案是：开发高效整合异构算力资源的算力平台，以及支持软硬件联合优化与加速的中间件，让异构芯片真正转化为大算力。

　　近日，这家企业与清华大学、上海交通大学联合研究团队发布了HETHUB。这是一个用于大模型的异构分布式混合训练系统，在业内首次实现了6种不同品牌芯片间的交叉混合训练，而且工程化完成度高。作为在异构计算优化与集群系统设计方面的科技成果，它有助于构建“M种模型”与“N种芯片”中间层的“M×N”生态格局，实现多种大模型算法在多元芯片上的高效、统一部署，为更多企业提供充足的算力资源。

　　17项举措六部门惩防资本市场财务造假

　　17项具体举措惩防资本市场财务造假

　　17项举措！六部门惩防财务造假

　　腾讯上半年累计回购523亿港元

　　第十一届Choice蕞佳分析师

　　周末要闻汇总：国常会重磅！事关创新药、数字经济、西部开发、天津滨海新区