매우 중요 반도체 财联社

상하이 쑹장, 99.99% 고가용성 달성, 초당 수십조 연산 능력

전문가 해설

《과창판일보》 4월 6일 보도 (기자 황신이) 상하이 쑹장의 전자 지능 계산 센터 기계실에는 수만 장의 GPU 장비가 가지런히 배열되어 있으며, 초당 수십조 번의 연산을 수행하고 있습니다. 현재 이 팀은 클러스터의 99.99% 초고가용성을 성공적으로 달성했으며, 이는 연간 총 고장 시간이 1시간 이내로 단축된 것과 같습니다. 2023년에 설립된 지능형 컴퓨팅 기술은 '만카드 클러스터'를 주도적으로 배치하고, 지능형 컴퓨팅 클라우드 플랫폼과 공공 서비스 체계를 구축하여 다양한 국산 컴퓨팅 파워 카드에 적합하며, 다양한 이기종 컴퓨팅 파워의 융합 및 최적화 조정 능력을 갖추고 있습니다. 팀은 79일 연속으로 기계실에 상주하며 코드를 반복적으로 다듬는 등의 방법으로 만 장의 GPU 카드가 효율적으로 협력하여 작동하도록 보장하고, 0.1%의 성능 향상을 달성했습니다. 어떤 신형 연구 기관 프로젝트에서 단 일주일 만에 약 천 개의 카드 클러스터 건설과 인도를 완료하여 업계 선도 속도를 높였습니다. 지능형 컴퓨팅 기술은 또한 '동적 인식 스케줄링 솔루션'을 처음으로 개발하여 훈련 효율을 91% 높이고 매년 많은 계산 능력 비용을 절감했습니다. 또한, 팀은 녹색 전력 사용 비율을 더욱 확대하고, 액체 냉각 클러스터를 통해 에너지 사용 효율을 높이며, PUE 값을 낮추고, 풍력 발전이 직접 구동하는 해저 데이터 센터를 탐색하여 비용을 절감하고 있습니다.

💡 GPU 클러스터는 수많은 그래픽 처리 유닛을 연결하여 엄청난 양의 데이터를 빠르게 처리할 수 있는 시스템으로, AI 모델 훈련에 필수적입니다.

요약

《科创板日报》4月6日讯（记者黄心怡）上海松江仪电智算中心机房内，上万张GPU设备整齐排列，每秒执行数十万亿次运算。目前，该团队已成功实现集群99.99%的超高可用性，相当于全年总故障时间缩短至1小时内。2023年成立的智算科技牵头布局“万卡集群”，搭建智算云平台和公共服务体系，适配多种国产算力卡，具备多元异构算力融合与优化调度能力。团队通过连续79天驻守机房、反复打磨代码等方式，确保万张GPU卡高效协同运转，并实现0.1%的性能提升。在某新型科研机构项目中，仅用一周便完成近千卡集群建设与交付，跑出行业领先速度。智算科技还首创“动态感知调度方案”，使训练效率飙升91%，每年节省大量算力成本。此外，团队进一步扩大绿电使用比例，并通过液冷集群提高能源使用效率，降低PUE值，探索风电直接驱动的海底数据中心以降低成本。

《科创板日报》4月6日讯（记者黄心怡）
走进位于上海松江的仪电智算中心，机房内风扇轰鸣不止，上万张GPU设备整齐排列，与纵横交错的高速网络线缆共同编织出一张庞大的算力网络。每张芯片每秒可执行数十万亿次运算，它们两天汇聚的计算能量，相当于三峡水电站一台机组一小时的发电量。
算力是AI发展的根基，而要让上万张GPU卡高效协同为一个集群运转，绝非易事。《科创板日报》记者了解到，目前上海仪电旗下智算科技团队已成功实现集群99.99%的超高可用性，相当于全年总故障时间缩短至1小时内。
《科创板日报》记者获悉，
该万卡集群已适配多种国产算力卡，具备多元异构算力的融合与优化调度能力。
▍万卡级GPU集群稳定运行
2023年，上海仪电成立智算科技，牵头布局“万卡集群”，搭建智算云平台和公共服务体系。
算力集群不仅是加速卡的堆叠，还需要复杂的高速网络和强大的调度软件，它与AI大模型的关系好比“电与发电机”。“要让接近万卡算力的芯片配上高效的通讯网络，再结合相应的存储设备，能够像一台电脑这样，成为一个集群整体高效运转，难度相当大。”智算科技董事长、总经理孙跃坦言，“而更难的是，这1万张卡组成的集群，还要7×24小时不间断地提供算力服务。”
据了解，AI算力底座中算力芯片的故障率远超传统的IT设备。而在大模型训练时，哪怕仅仅1分钟的算力中断，都可能会造成几十个小时的训练结果损失。调度万卡，就像是让上万架无人机在密集的空中高速穿梭，每张芯片都容不得一毫米的误差。
面对万卡级GPU集群稳定运行难的痛点，智算科技这支平均年龄仅32岁的“梦之队”爆发出极强的战斗力。团队曾连续79天吃住在机房驻守，为了0.1%的性能提升每天熬红双眼反复打磨代码，开展算法攻坚。面对紧急任务，他们打破常规，将线性流程优化为“并行施工+边测边调”，抢占每一秒进度。
据悉，团队成功实现了集群99.99%的超高可用性，相当于全年总故障时间缩短至1小时内，这有力支撑了某大模型公司等多模态大模型领先全球的训练，成功避免了算力中断可能造成的巨大损失。
▍融合异构芯片把国产算力用起来
据了解，智算科技万卡集群已成功适配多种国产算力卡，实现了多元异构算力的融合与优化调度。孙跃介绍，在很多任务中，国产设备发挥了至关重要的作用。
“不同业务、不同行业对芯片的需求各不相同，而各类国产算力芯片在细分领域也各具优势。通过异构算力的融合，我们把国产算力真正用了起来，可以在同一底座、同一云平台的基础上，更好地满足不同垂类客户对算力基础设施的差异化需求，进一步发挥国产软硬件基础设施的潜力。”
目前，
智算科技万卡集群的使用率已接近100%，基本实现建成即满负荷运转。
在某新型科研机构项目中，团队仅用一周便完成近千卡集群的建设与交付，跑出行业领先速度，随后又成功部署万卡集群算力，有力保障国家重点科研任务的推进。截至目前，已具备万卡规模高性能算力集群的部署与交付能力。
智算科技还首创“动态感知调度方案”，使训练效率飙升91%，每年为国家节省的算力成本相当于新建3个数据中心，实现了混合架构万卡集群调度技术的自主可控。
今年全国两会上，“算电协同”首次被写入政府工作报告，成为国家级战略性新基建工程。智算科技也在这一领域积极开展探索。
孙跃透露，
“在基础设施和机房建设过程中间，我们进一步扩大对绿电的使用比例，并通过液冷集群，提高整个能源的使用效率，降低PUE值。另一方面，我们也在和上下游的合作伙伴进行探索。比如，
结合淞沪地区海上风电资源，实现风电直接驱动的海底数据中心，从而来降低算力成本，也是当前开展的算电协同的重要尝试
。”
▍推动国产算力生态协同
当前，新一代人工智能快速发展，算力需求持续激增。“越来越多的算力不仅渗透到千行百业，甚至开始走进千家万户。从近期备受关注的AI Agent、智能体工作流到OpenClow等，发展速度往往超出想象。这不是一个线性的过程，而是阶跃式演进，未来虽难以准确描述其具体目标，但发展的节奏只会越来越快。”孙跃称。
谈及未来规划，孙跃表示，一方面要提高算力基础设施的建设效率，以及万卡集群的使用效率，这是在基础设施侧需要重点攻关的方向。
另一方面，上海仪电将
打造开放、灵活、弹性的智算云服务平台
。“去年在世界人工智能大会上，我们发布了智算平台YI CLOUD，旨在面向各类不同领域的用户，提供更普惠、更便捷的算力服务。这种算力服务依托于智算云，提供的不仅是算力，还包括行业所需的语料、模型、智能体等能力的适配，帮助用户在单一垂直领域更高效地使用算力。”孙跃称。
此外，上海仪电还在生态建设上发力。
“作为一家平台型的链主企业，上海仪电希望发挥生态链接的作用，
牵引产业链上下游软硬件厂商，包括GPU企业、网络通讯、模型企业、智能体企业等，带动合作伙伴实现国产算力生态协同的创新方案
，以赋能国产大模型以及相关AI+应用，这是我们未来发展的另一重点。”孙跃表示。