全面叫停Dojo超级计算机项目,特斯拉自研芯片计划折戟
近日,据彭博社报道,特斯拉已全面叫停Dojo超级计算机项目,团队负责人彼得・班农(Peter Bannon)即将离职。这一重大决策由特斯拉CEO埃隆・马斯克亲自下达,标志着特斯拉开发自动驾驶所需自研芯片的计划正式宣告放弃。
随着项目的叫停,Dojo团队也迎来了人员变动。近期已有约20名员工跳槽至新成立的DensityAI公司,剩余成员将被重新分配至特斯拉内部其他数据中心和计算项目,曾经承载着特斯拉AI算力野心的团队就此面临重组。
Dojo作为特斯拉自主设计的超级计算机系统,其定位至关重要,主要用于训练支撑其Autopilot自动辅助驾驶、全自动驾驶(FSD)系统以及Optimus人形机器人的机器学习模型。2019年,马斯克首次披露Dojo计划,定位为超强大训练计算机,旨在通过无监督大规模视频训练,推动FSD神经网络从辅助阶段迈向完全自动驾驶。
2021年8月,Dojo在特斯拉首个AI Day正式发布,同步推出定制D1芯片——采用7nm工艺,单芯片浮点运算能力达22万亿次,多芯片封装成的训练单元算力高达55万亿次,与英伟达GPU协同为Dojo供能,其 AI 集群可容纳3000个D1芯片。同年10月发布的技术白皮书显示,Dojo支持可配置浮点格式,通过新型二进制浮点算法实现多元控制组合。
硬件上,Dojo采用“三明治式”架构,整合计算、存储、供电与通信模块,搭配专用接口处理器连接主机与训练单元。V1配置含150个D1芯片和4个主机CPU,总算力超 exaflops,适配大规模机器学习模型的海量数据训练需求。软件层面以 PyTorch 为框架,经编译器优化保障灵活性。2022 年第二个AI Day 上,特斯拉宣布完成首个 Dojo机柜安装及 2.2 兆瓦负载测试,每个机柜由25个D1芯片组成,并演示了其AI生成图像能力,计划2023年一季度建成Dojo Exapod集群。
2023年,马斯克多次提及Dojo进展:4月称其可能将培训成本提升十倍以上,有望成为商业化服务;6月确认Dojo上线运行;7月宣布2024年投入超10亿美元;四季度强调其“高风险高回报”属性,推行“英伟达+Dojo”双路线,并规划Dojo 1.5至3.0版本。按2023年6月规划,Dojo预计2024年一季度跻身全球前五算力设施,10月达100 EFlops算力。其ExaPod集成120个训练模块、3000个D1芯片,含超100万个训练节点,算力达1.1EFLOP。
2024年Hot Chips会议上,特斯拉展示了Dojo的Tesla传输协议以太网(TTPoE)架构:通过硬件级点对点传输、有损机制及硅片集成协议,提升百亿亿级AI网络效率,降低硬件成本;配套100Gbps网络接口卡(Mojo),功率低于20W,适配 TTPoE 需求。此外,下一代训练模块D2已投产,将模块集成于单硅晶圆;2025年7月,台积电量产的Dojo 2芯片专注训练FSD视觉神经网络,凭借专属架构提升数据处理效率。
此前,Dojo一度被视作特斯拉在AI竞赛中争夺算力优势的关键棋子,也是其数十亿美元技术路线中的核心一环。摩根士丹利在2023年甚至预计,Dojo项目可能会让特斯拉市值增加5000亿美元,足见外界对其寄予的厚望。
事实上,马斯克在特斯拉7月23日的季度财报电话会议中就已暗示了这一战略转变。他当时表示,对于Dojo 3和AI6推理芯片,希望实现它们与合作伙伴技术的融合。而早在去年,马斯克也曾承认,公司可能不会把Dojo项目推进下去,而是会更多依赖外部合作伙伴。如今,项目的全面叫停,正是这一战略思路的最终落地。
受此消息影响,特斯拉股价盘后转跌,跌幅一度近1%,市场对这一战略调整的反应初现。
按照新的规划,特斯拉计划加大对外部技术合作伙伴的依赖,将采用英伟达和AMD的计算技术,以及三星电子的芯片制造服务,在自动驾驶芯片及相关算力支撑方面转向外部合作模式。