머스크, 테슬라 모델 Composer 2 우승
전문가 해설
테슬라와 xAI의 창업자인 엘론 머스크가 중국 국산 대형 언어 모델들을 지속적으로 공개적으로 칭찬하며 글로벌 AI 업계의 큰 주목을 받고 있습니다. 최근 가장 화제가 된 사례는 글로벌 프로그래밍 도구 Cursor가 3월 21일 새벽 자체 개발했다고 발표한 최첨단 코딩 모델 Composer 2인데요, 이 모델이 벤치마크에서 Claude Opus 4.6을 넘어섰고 가격 대비 성능이 뛰어나다는 평가를 받으며 업계의 관심을 끌었습니다. 그런데 개발자들이 곧바로 Composer 2가 Kimi K2.5를 기반으로 미세 조정된 모델이라는 사실을 발견했고, 엘론 머스크 본인이 X(구 트위터)에서 “Yes, that's Kimi K2.5.”라고 직접 확인해주면서 논란이 커졌습니다. Kimi 팀(Moonshot AI)은 이를 보고 “들었어요, 감사해요, 당신이 있어서 가능했어요”라는 중국 인터넷 유행어를 인용해 유머러스하게 화답하며 기술적 자신감을 드러냈고, 이 ‘젠틀하면서도 강한’ 응답이 오히려 더 큰 호응을 얻었습니다.
이보다 앞선 3월 16일, 월지암면(Moonshot AI)의 Kimi 팀은 《Attention Residuals》라는 기술 보고서를 arXiv에 공개했습니다. 이 논문은 기존 대형 모델의 잔차 연결(residual connection) 메커니즘을 근본적으로 재구성한 ‘Attention Residuals(AttnRes)’라는 새로운 방법을 제안하는데요, 이전 층들의 출력을 softmax 어텐션으로 동적으로 가중 합산하는 방식으로, 단순한 고정 덧셈 대신 깊이 방향 정보 흐름을 최적화합니다. 실제 48B 파라미터(활성화 3B) Kimi Linear 아키텍처에 적용해 1.4T 토큰으로 사전 훈련한 결과, 훈련 효율이 1.25배 향상됐고 과학적 추론 성능은 7.5%, 수학 성능은 3.6% 각각 올라갔습니다. 업계에서는 이를 “딥러닝 2.0의 신호”로 평가할 만큼 획기적인 접근으로 보고 있습니다. 머스크는 이 논문을 바로 리트윗하며 “Impressive work from Kimi”라고 극찬했고, Kimi 공식 계정은 “당신의 로켓도 꽤 멋지네요!”라고 재치 있게 답하며 글로벌 화제를 모았습니다.
또 다른 사례로, 3월 2일 알리바바의 Qwen 팀이 Qwen 3.5 시리즈 중 0.8B, 2B, 4B, 9B 네 가지 소형 모델을 오픈소스로 공개했는데, 머스크는 Qwen 공식 X 포스트 아래에 “Impressive intelligence density(인상적인 지능 밀도)”라고 직접 댓글을 달았습니다. 이는 소형 모델임에도 높은 성능을 유지하는 ‘지능 밀도’를 높이 평가한 것입니다. 이어 2월 12일 바이트댄스(ByteDance)의 차세대 비디오 생성 모델 Seedance 2.0이 내측 테스트를 시작하면서 텍스트·이미지·오디오·비디오 네 가지 모달을 통합 지원하고, 최대 60초 2K 방송급 화질 영상을 만들어내며 AI 비디오 생성의 고질적 문제(사용 가능성 낮음, 캐릭터 디테일 붕괴 등)를 크게 개선했다고 평가받았습니다. 머스크는 관련 포스트를 리트윗하며 “It's happening fast(이거 너무 빠르네)”라고 감탄했습니다.
이보다 앞선 3월 16일, 월지암면(Moonshot AI)의 Kimi 팀은 《Attention Residuals》라는 기술 보고서를 arXiv에 공개했습니다. 이 논문은 기존 대형 모델의 잔차 연결(residual connection) 메커니즘을 근본적으로 재구성한 ‘Attention Residuals(AttnRes)’라는 새로운 방법을 제안하는데요, 이전 층들의 출력을 softmax 어텐션으로 동적으로 가중 합산하는 방식으로, 단순한 고정 덧셈 대신 깊이 방향 정보 흐름을 최적화합니다. 실제 48B 파라미터(활성화 3B) Kimi Linear 아키텍처에 적용해 1.4T 토큰으로 사전 훈련한 결과, 훈련 효율이 1.25배 향상됐고 과학적 추론 성능은 7.5%, 수학 성능은 3.6% 각각 올라갔습니다. 업계에서는 이를 “딥러닝 2.0의 신호”로 평가할 만큼 획기적인 접근으로 보고 있습니다. 머스크는 이 논문을 바로 리트윗하며 “Impressive work from Kimi”라고 극찬했고, Kimi 공식 계정은 “당신의 로켓도 꽤 멋지네요!”라고 재치 있게 답하며 글로벌 화제를 모았습니다.
또 다른 사례로, 3월 2일 알리바바의 Qwen 팀이 Qwen 3.5 시리즈 중 0.8B, 2B, 4B, 9B 네 가지 소형 모델을 오픈소스로 공개했는데, 머스크는 Qwen 공식 X 포스트 아래에 “Impressive intelligence density(인상적인 지능 밀도)”라고 직접 댓글을 달았습니다. 이는 소형 모델임에도 높은 성능을 유지하는 ‘지능 밀도’를 높이 평가한 것입니다. 이어 2월 12일 바이트댄스(ByteDance)의 차세대 비디오 생성 모델 Seedance 2.0이 내측 테스트를 시작하면서 텍스트·이미지·오디오·비디오 네 가지 모달을 통합 지원하고, 최대 60초 2K 방송급 화질 영상을 만들어내며 AI 비디오 생성의 고질적 문제(사용 가능성 낮음, 캐릭터 디테일 붕괴 등)를 크게 개선했다고 평가받았습니다. 머스크는 관련 포스트를 리트윗하며 “It's happening fast(이거 너무 빠르네)”라고 감탄했습니다.
요약
테슬라의 창업자 엘론 마스크가 중국의 AI 기업 'Kimi'를 찬찬히 평가해 주목을 모으게 되었다. 김이는 recently released Composer 2 AI model이Claude Opus 4.6을 초과하는 성능을 발휘해 눈에 띄는 결과를 냈다.
特斯拉与xAI创始人埃隆·马斯克持续点赞中国国产大模型引发关注。
据媒体报道,全球知名编程工具Cursor今天21日凌晨发布自研前沿编码模型Composer 2,因在测评中超过Claude Opus 4.6并主打性价比引发行业广泛关注。但很快有开发者发现,Composer 2是基于Kimi K2.5微调而来,马斯克也在社交媒体发文表示,“是的,这就是Kimi K2.5。”
Kimi团队随后以中文热梗“听说我,谢谢你,因为有你”致谢,被赞“温柔中展现技术自信”。
3月16日,月之暗面Kimi发布《Attention Residuals》技术报告,重构大模型残差连接机制,以“注意力残差”新方法实现训练效率与核心性能双提升——在48B参数模型上训练效率提升1.25倍,科学推理与数学成绩分别提高7.5%、3.6%,被业界称为“深度学习2.0”的重要信号。
对此,马斯克第一时间在社交平台X转发并评论:“Impressive work from Kimi”(Kimi的作品令人印象深刻),Kimi官方随即以幽默口吻回应:“你的火箭造得也不错!”。
此前,马斯克也多次在社交平台及公开场合点赞中国国产模型。
3月2日,阿里千问正式开源Qwen3.5-0.8B、2B、4B、9B四款小尺寸模型。马斯克在Qwen官方X帖子下直接留言:“Impressive intelligence density(令人印象深刻的智能密度)”。
此外,字节跳动旗下新一代视频生成大模型Seedance 2.0于2月12日开启内测,凭借统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,解决了AI视频生成可用率低、角色细节漂移等行业痛点,最长可生成60秒2K广播级画质视频。马斯克随后转发相关推文并感慨:“It's happening fast(这也太快了)”。
据媒体报道,全球知名编程工具Cursor今天21日凌晨发布自研前沿编码模型Composer 2,因在测评中超过Claude Opus 4.6并主打性价比引发行业广泛关注。但很快有开发者发现,Composer 2是基于Kimi K2.5微调而来,马斯克也在社交媒体发文表示,“是的,这就是Kimi K2.5。”
Kimi团队随后以中文热梗“听说我,谢谢你,因为有你”致谢,被赞“温柔中展现技术自信”。
3月16日,月之暗面Kimi发布《Attention Residuals》技术报告,重构大模型残差连接机制,以“注意力残差”新方法实现训练效率与核心性能双提升——在48B参数模型上训练效率提升1.25倍,科学推理与数学成绩分别提高7.5%、3.6%,被业界称为“深度学习2.0”的重要信号。
对此,马斯克第一时间在社交平台X转发并评论:“Impressive work from Kimi”(Kimi的作品令人印象深刻),Kimi官方随即以幽默口吻回应:“你的火箭造得也不错!”。
此前,马斯克也多次在社交平台及公开场合点赞中国国产模型。
3月2日,阿里千问正式开源Qwen3.5-0.8B、2B、4B、9B四款小尺寸模型。马斯克在Qwen官方X帖子下直接留言:“Impressive intelligence density(令人印象深刻的智能密度)”。
此外,字节跳动旗下新一代视频生成大模型Seedance 2.0于2月12日开启内测,凭借统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,解决了AI视频生成可用率低、角色细节漂移等行业痛点,最长可生成60秒2K广播级画质视频。马斯克随后转发相关推文并感慨:“It's happening fast(这也太快了)”。