ManBetX万博体育官网在线登录晶圆级计较是一个意旨甚而不可幸免的观点-万博体育APP入口

发布日期：2024-06-26 06:40 点击次数：172

（原标题：晶圆级芯片ManBetX万博体育官网在线登录，后劲无穷）

淌若您但愿可以庸碌碰头，迎接标星保藏哦~

起原：实质由半导体行业不雅察（ID：icbank）编译自nextplatform，谢谢。

咱们觉得，关于某些类型的计较和内存而言，晶圆级计较是一个意旨甚而不可幸免的观点。但不可幸免的是，你需要作念的职责会超出单个晶圆中枢所能提供的范围，然后你就会碰到一样的网罗问题。

但也不要太过分。科学和数据分析仍然需要完成，在某些地方，这些由内核和 SRAM 存储器构成的方形圆圈，比如由东说念主工智能初创公司和 HPC 业界著名企业 Cerebras Systems 推出的三代晶圆规模引擎设立，可以激动大型 GPU 加快机器的发展。

正因如斯，劳伦斯-利弗莫尔国度本质室利弗莫尔计较中心的首席时刻官布罗尼斯-德-苏平斯基（Bronis de Supinski）早在 2023 年 7 月就告诉咱们，该本质室正在与东说念主工智能新贵 Cerebras Systems 和 SambaNova Systems 联结，磋议它们的架构在好意思国核火器储备经管和好意思国舟师核能源舰艇舰队经管中的用途。这亦然所谓的三本质室（Tri-Labs）的任务之一，三本质室包括劳伦斯-利弗莫尔国度本质室、桑迪亚国度本质室和洛斯阿拉莫斯国度本质室，它们皆附庸于好意思国能源部。

原本，Cerebras 正在与 TriLabs 联结处理六个不同的问题。行为本周 ISC24 庆祝步履的一部分，Cerebras 和 TriLabs 的磋议东说念主员发表了一篇论文，先容了与核储备经管相干的分子能源学诳骗怎样比在橡树岭国度本质室的 "前沿 "超等计较机上运转的肃清诳骗加快了 179 倍。(TriLabs公司的克己分子能源学模拟也在劳伦斯-利弗莫尔的 "石英 "CPU集群上运转。

问题的要道在于，当代大规模并行超等计较机的彭胀材干较弱，而单个计较引擎的彭胀材干较强。关于像 Frontier 和 Quartz 这么的大规模并行系统来说，这些系统的弱彭胀性使得可以模拟的原子过头相互作用的数目达到了宏大的规模。

正如论文所指出的，这些 MD 诳骗能以飞秒级的期间步长剖释原子振动，并能模拟数十亿到数万亿个原子。但淌若把整个期间加起来，模拟最多只可显露几微秒的原子相互作用，而关于 TriLabs 和其他公司想要模拟的物理和化学征象，意旨的行动只会发生在 100 微秒或更长的期间程序上。论文中列举的例子包括核响应堆中辐照毁伤的退火、热激活催化响应、接近均衡的相核化以及卵白质折叠。

晶圆级计较引擎顾名想义是一种彭胀材干很强的设立，因此 TriLabs 与 Cerebras 联结，将其镶嵌式原子法（EAM）模拟移植到 CS-2 系统中的第二代 WSE-2 处理器上，该模拟运转在大型原子/分子大规模并行模拟器（LAMMPS）器具之上，该器具领先由 Sandia 和坦普尔大学于 1995 年创建。具体的模拟是将辐照射入由钨、铜和钽制成的三种不同晶格。在这些特定的模拟中，每个晶格中皆有 801,792 个原子，模拟的所在是用辐照轰击晶格，望望会发生什么。在 "前沿 "和 "石英 "机器上，模拟只可看到纳秒级的模拟，期间不够长，无法看到晶格在辐照轰击下发生了什么。

然而，WSE 每个内核可以模拟一个原子（何况仍有一些内核剩余），并将所罕有据存储在腹地 SRAM 中进行处理。与 GPU 比较，EAM/LAMMPS 模拟每秒可处理的期间步数对铜来说特出 109 倍，对钨来说特出 96 倍，对钽来说特出 179 倍。

淌若你想测试一下我方对色盲的明锐度，这里的图表显露了测试的节点数、每焦耳电力使用的期间步数，以及 WSE-2 相干于 Frontier 和 Quartz 机器的能效悉数：

上图的意旨之处在于，使用 GPU 的 Frontier 系统在每秒模拟的期间步数方面过期于 GPU，而基于 CPU 的集群可以比 GPU 彭胀得更远，驱动的期间步数也更多，但 WSE-2 仍然胜过 GPU，如上图和上表所示。

看完这些后果，咱们再来谈谈硬件。

WSE-2 引擎于 2021 年 4 月发布，罗致台湾积体电路制造股份有限公司的 7 纳米工艺蚀刻而成。WSE-2 芯片领有 2.6 万亿个晶体管和 85 万个内核，40 GB SRAM 内存，SRAM 总带宽为 20 PB/秒。你可能想知说念为什么 TriLabs 莫得在本年 3 月推出的更新 WSE-3 设立上测试 EAM/LAMMPS 基准。WSE-3放松到5纳米后，内核数只增多到900,000个，SRAM也只增多到44GB，SRAM带宽只增多到21PB/秒。使用 WSE-3 只可模拟稍大的原子聚合，尽管每个内核的性能提高了 2 倍，模拟运转速率也会提高 2 倍，能够每秒模拟的期间步数提高 2 倍。咱们揣测后者将相等有用--举例，将钽晶格的模拟窗口从 WSE-2 的 40 毫秒提高到 WSE-3 的 80 毫秒。这的确是东说念主的期间。(自互联网商用以来，咱们眨眼的平均期间约为 200 毫秒）。

橡树岭的 "前沿 "超等计较机由配备定制的 64 核 "Trento "Epyc 处理器和四个 "Aldebaran "Instinct MI250X GPU 加快器的节点构成；其中 9408 个节点通过惠普公司的 Slingshot 11 以太网变体聚积在全部。但从这个测试中可以看出，增多 GPU 或 CPU 到一定进度后，并不可增多更多的模拟期间步数。一个 Frontier 节点在强彭胀的情况下，每个 GPU 可以模拟约 100,000 个原子，而彭胀在 32 个 GPU 傍边就会停滞。因此，Frontier 中的其他 37856 个 GPU 在本测试中绝不必处。

劳伦斯-利弗莫尔的 Quartz 机器有 3,018 个节点，每个节点皆有一双英特尔的 18 核 "Broadwell "至强 E5-2695 v4 处理器和一个 100 Gb/秒的全旅途网罗。这并不是什么速率恶魔，但也不忘形。TriLabs 的磋议东说念主员说，他们可以在每个 CPU 插槽上模拟约 1000 个原子，而在 400 个节点（800 个插槽）时，其规模也会冉冉放松。

整个这些皆给咱们带来了下一个问题，亦然咱们在简报中向 Cerebras 和洽首创东说念主兼首席实施官提议的一个问题：淌若将多个晶圆级引擎聚积在全部，并尝试运转疏通的仿真，会发生什么？费尔德曼说，当今还没东说念主知说念。

WSE-2 系统中的特有互连可彭胀到 192 个设立，而 WSE-3 则将这一数字提高了一个数目级，达到了 2048 个设立。固然，这是格外可以的弱彭胀，但咱们热烈觉得，WSE 的彭胀旨趣与 GPU 和 CPU 疏通。你可以作念更大的原子团员，但仍然只可看到几十毫秒的往时。

固然，除非有某种顺序可以将 WSE 实体绑在全部。你可以假想一下，一堆方形的 WSE 边际榫接在全部。你可以把相互聚积的正方形 WSE 作念成一个炉管，它们在边际处相互聚积，在炉管内侧供电，在炉管外侧制冷。强彭胀的有用性将受限于 WSE 边际的互连以及从管说念顶部到管说念底部的导线长度。但有少量咱们可以详情：这种确立不会比使用 InfiniBand 或以太网聚积 CPU 或 GPU 差。

https://www.nextplatform.com/2024/05/15/one-cerebras-wafer-beats-an-exascale-super-at-molecular-dynamics/

点这里加暖热，锁定更多原创实质

*免责声明：本文由作家原创。著述实质系作家个东说念主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或复古，淌若有任何异议，迎接说合半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3769期实质，迎接暖热。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

心爱咱们的实质就点“在看”共享给小伙伴哦ManBetX万博体育官网在线登录