TPU 超级集群的真实规模是什么? 超级计算机的真实规模并不是由你能在一个房间里放多少处理器来定义的;而是由多少处理器能够有效地作为一个整体进行思考来定义的。这一区别是 Ironwood 的驱动力,我们的第七代张量处理单元(TPU)及 TPU 超级集群的架构。 在纸面上,Ironwood 超级集群的规模令人印象深刻:它在一个互联域中可扩展到 9,216 个芯片。但真实的规模在于将它们连接在一起的结构。 在 Ironwood 超级集群中,我们使用了一种突破性的芯片间互连(ICI)网络技术,运行速度达到每秒 9.6 太比特。这使得这 9,216 个芯片能够以近乎瞬时的延迟进行通信,访问高达 1.77 PB 的共享高带宽内存(HBM)。 那么,如何在不造成电缆噩梦的情况下连接近 10,000 个芯片呢?答案在于光电路交换机(OCS)。 ◾ Ironwood 集群由称为“立方体”的构建块(每个 64 个芯片)构成。 ◾ 为了超越单个立方体,多个立方体通过光电路交换机(OCS)网络连接。这是一个动态、可重配置的光网络,连接整个立方体,使系统能够从一个小的“集群”(例如,一个包含四个立方体的 256 芯片 Ironwood 集群)扩展到一个巨大的“超级集群”(例如,一个包含 144 个立方体的 9,216 芯片系统)。 ◾ 这种基于 OCS 的拓扑结构是容错的关键。如果一个立方体或链接失败,OCS 结构管理器会指示 OCS 光学绕过该单元,并建立新的完整光路,替换为指定的备用。 → 硬件只是方程的一半。TPU 超级集群的真实规模是通过共同设计的软件堆栈来解锁的,以实现更快、更高效的结果。 得益于整个堆栈的深度集成——从数据中心范围的硬件优化到开放软件和托管服务——Ironwood TPU 是迄今为止我们最强大和最节能的 TPU。