매우 중요 반도체 财联社

상하이 쑹장, 99.99% 고가용성 달성, 초당 수십조 연산 능력

전문가 해설

《과창판일보》 4월 6일 보도 (기자 황신이) 상하이 쑹장의 전자 지능 계산 센터 기계실에는 수만 장의 GPU 장비가 가지런히 배열되어 있으며, 초당 수십조 번의 연산을 수행하고 있습니다. 현재 이 팀은 클러스터의 99.99% 초고가용성을 성공적으로 달성했으며, 이는 연간 총 고장 시간이 1시간 이내로 단축된 것과 같습니다. 2023년에 설립된 지능형 컴퓨팅 기술은 '만카드 클러스터'를 주도적으로 배치하고, 지능형 컴퓨팅 클라우드 플랫폼과 공공 서비스 체계를 구축하여 다양한 국산 컴퓨팅 파워 카드에 적합하며, 다양한 이기종 컴퓨팅 파워의 융합 및 최적화 조정 능력을 갖추고 있습니다. 팀은 79일 연속으로 기계실에 상주하며 코드를 반복적으로 다듬는 등의 방법으로 만 장의 GPU 카드가 효율적으로 협력하여 작동하도록 보장하고, 0.1%의 성능 향상을 달성했습니다. 어떤 신형 연구 기관 프로젝트에서 단 일주일 만에 약 천 개의 카드 클러스터 건설과 인도를 완료하여 업계 선도 속도를 높였습니다. 지능형 컴퓨팅 기술은 또한 '동적 인식 스케줄링 솔루션'을 처음으로 개발하여 훈련 효율을 91% 높이고 매년 많은 계산 능력 비용을 절감했습니다. 또한, 팀은 녹색 전력 사용 비율을 더욱 확대하고, 액체 냉각 클러스터를 통해 에너지 사용 효율을 높이며, PUE 값을 낮추고, 풍력 발전이 직접 구동하는 해저 데이터 센터를 탐색하여 비용을 절감하고 있습니다.

💡 GPU 클러스터는 수많은 그래픽 처리 유닛을 연결하여 엄청난 양의 데이터를 빠르게 처리할 수 있는 시스템으로, AI 모델 훈련에 필수적입니다.

요약

《科创板日报》4月6日讯(记者 黄心怡)上海松江仪电智算中心机房内,上万张GPU设备整齐排列,每秒执行数十万亿次运算。目前,该团队已成功实现集群99.99%的超高可用性,相当于全年总故障时间缩短至1小时内。2023年成立的智算科技牵头布局“万卡集群”,搭建智算云平台和公共服务体系,适配多种国产算力卡,具备多元异构算力融合与优化调度能力。团队通过连续79天驻守机房、反复打磨代码等方式,确保万张GPU卡高效协同运转,并实现0.1%的性能提升。在某新型科研机构项目中,仅用一周便完成近千卡集群建设与交付,跑出行业领先速度。智算科技还首创“动态感知调度方案”,使训练效率飙升91%,每年节省大量算力成本。此外,团队进一步扩大绿电使用比例,并通过液冷集群提高能源使用效率,降低PUE值,探索风电直接驱动的海底数据中心以降低成本。