美国世界最快超算是摆设?消息称可靠性糟糕


(资料图片仅供参考)

建造一台超级计算机总是具有挑战性的,但是创建业界第一个外挂级系统是遇到了完全意想不到的事情,需要在硬件和软件方面做大量的工作。不幸的是,这种情况可能发生在橡树岭国家实验室的Frontier超级计算机上,它几乎不能在没有众多硬件故障的情况下持续一天。

ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统,使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连,功率为21兆瓦。HPE构建了该系统,并使用了为扩展应用设计的Cray EX(在新标签中打开)架构,主要用于超高速超级计算机。

虽然从纸面上看,Frontier超级计算机看起来特别好,而且机器系统的硬件部分已经交付,但似乎硬件方面的问题一直追着机器上线,并提供给需要大约1 FP64 ExaFLOPS性能的研究人员。

"橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHPC(在新标签中打开)采访时说:"我们正在解决硬件方面的问题,确保我们了解(它们是什么)。"在这种规模的情况下,你将会出现故障。这种规模的系统的平均故障间隔时间是几小时,而不是几天。"

关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC(在新标签中打开)的另一篇报道,一些人说该系统的Slingshot互连出现了问题。此外,其他人表示,AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住,拥有更多流处理器和高时钟的X版本只向特定客户提供。

Whitt先生没有证实系统在Instinct或Slingshot方面遇到任何特别的问题,但他压根儿就没有说过机器遭受到众多的硬件问题。

"很多挑战都集中在这些[GPU]上,但这并不是我们看到的大多数挑战,"OLCF的负责人说。"在零部件故障的常见罪魁祸首中,这是一个相当好的分布,它是一个很大的组成部分。我不认为在这一点上,我们对AMD的产品有很多担忧。"

橡树岭国家实验室的Frontier超级计算机到目前为止还不是唯一使用HPE的Cray EX架构与Slingshot互连、AMD的EPYC CPU和AMD的Instinct计算GPU的系统。例如,芬兰的Lumi超级计算机(Cray EX、EPYC Milan、Instinct MI250X计算GPU)提供550 PetaFLOPS的峰值性能,被官方列为世界上第三大最强大的超级计算机。也许,问题是有效的,该机器的规模总共使用了6000万个零件。

鉴于仍未正式部署,最初承诺在2022年上线的 "前沿 "超级计算机是否能在2023年开始供研究人员使用,只有时间才能证明。

推荐DIY文章
2022款iPadPro将可使用视频编辑软件达芬奇 使用软件更专业
苹果全新推出AppleTV 4K产品:流式传输可以千兆以太网进行
智己L7SnakePerformance高性能版:新车瞄准数秒级圈速提升
闪迪大师PRO-G40SSD外置固态硬盘:兼具极速传输与耐用优点
i9版ThinkBook14+/16+新品有望下月上市 首发约4999元起
512G M.2固态只要219元!沃存杀疯了-环球快消息
精彩新闻

超前放送