首页 资讯频道 互联频道 智能频道 网络 数据频道 安全频道 服务器频道 存储频道

IBM发布推理服务器IC922 具有多达六个Nvidia T4 GPU

2020-09-10 13:40:30 来源 : 电子发烧友

IBM今天发布了基于Power9的推理服务器IC922,该服务器具有多达六个Nvidia T4 GPU,PCIe Gen 4和OpenCAPI连接,并且可以以2U尺寸容纳多达24个SFF驱动器。IBM说,与使用Nvidia V100 GPU的IBM AC922搭配使用,IBM表示,它现在为AI工作负载提供了一个完整的解决方案,包括数据管理,培训和推理。IBM还表示,新的IC922的价格为同等价格,或者比基于x86的同类产品更高。

T4 GPU 的使用 充分利用了Turing Tensor内核的多种混合精度功能(FP32,FP16,INT8,INT4),最适合推理和T4的较低成本。两者合计,这将有助于IBM攻击分析师认为是增长最快的AI市场细分市场,并且有可能成为销量最大的细分市场。相比之下,AC922利用Nvidia V100 GPU,它们更适合于传统的HPC和AI培训工作负载,并且成本更高。AC922采用与Summit超级计算机相同的体系结构进行建造,该超级计算机目前在世界500强排行榜(2019年11月)中名列世界上最快的超级计算机。

IBM提供管理,认知和横向扩展系统的总监Dylan Boday在与HPCwire进行了简要介绍后说:“ IC922专注于数据,推理和云 。” “我们将能够驱动多达24个小型驱动器,并在不久的将来包括24个NVMe驱动器。当您将24个NVMe驱动器和PCIe Gen 4组合到您的网络中时,从平衡的角度来看,您将拥有一个非常强大的故事。

“在机架级别,您可以获得非常高的吞吐量。对于AI而言,这很有趣,因为许多人开始关注存储部署及其层级层次结构。您需要对某些存储功能的“热”或低延迟访问。其次,最多可搭载六个T4 Nvidia GPU来启动它,从而为客户提供灵活性[并且]在不久的将来,我们将采用八个[T4],这将使您的GPU密度比HP或Dell高33%服务器将能够在2U服务器中运行。”

IBM还认为,它能够在总体上以及在容器性能方面利用其每核线程数的优势。

新系统将于2月7日上市。IBM报告称,它仍“正在研究将IC922扩展到IBM公共云中。” Linux Infrastructure首席产品经理Grace Liu今天在博客中 (通过推理完成您的AI难题)正式宣布了IC922 。

IBM一直承诺将重新推出AI产品,而IC922可能只是第一款产品。Boday说:“我们的Linux重点市场是为AI时代提供(一个)投资组合的市场。” 他认为,许多AI项目都失败了,原因之一是难以从受控的训练环境过渡到计算需求和技能不同的更加混乱的数据摄取和推断环境。他说,IC922已针对推理和数据管理进行了优化,并将使过渡更加容易。它的模块化设计使组织可以扩展基础架构,以满足内部或私有云环境中的需求。

当然,软件是另一个关键。在SC19上,IBM推广了其贝叶斯软件专业知识作为AI支持者。Boday在发布IC922的同时表示:“我们将推出一个推理软件,它基本上可以使您进行推理操作。” 简报中讨论的细节很少,在回答有关这些计划的电子邮件问题时,IBM回答说:“ IBM相信,就像训练需要专门的软件一样,AI推理也是如此。我们的Watson Machine Learning Accelerator产品系列将继续发展,以利用IBM Power Systems的AI最新功能,并且我们希望这种推理将继续下去。”

这听起来像是一个敬请期待的消息。下面显示的是官方公告的重点项目符号:

尽管IC922的重点是使用T4,但IBM指出了支持其他加速器类型的计划。

Boday说:“我不会讨论所有细节。” “随着Xilinx和其他ASIC功能向FPGAe的发展,已经有一些关于FPGA方向的陈述,如果这些设备希望开始利用FPGA作为推论,那么这就是一个面向未来的盒子。甚至是训练器材 市场上有数百种不同的加速功能迅速进入市场。该系统应该能够捕获它们。随着客户需求的增加,我们能够以敏捷的方法进行响应,将其添加到我们的服务器中,并为这些类型的加速功能提供同类最佳的解决方案。”

与提供用于CPU-GPU通讯的NVLink的AC922不同,LC922使用PCIe4。“在AC922中,我们具有NVLink –这是因为外形和Nvidia Volta内置的功能。这些类型的[培训系统]对整体吞吐量的需求较少,” Boday说。IBM选择利用IC922的PCIe密度优势,并为未来的设备提供OpenCAPI功能。在最近几个月中,围绕OpenCAPI 和 由英特尔牵头的最新CXL标准进行了大量讨论, 并 猜测如何在两者之间实现兼容性。

Boday说:“目前,CXL并非商业可行的技术。我要说的是CXL绝对在我们的雷达范围内。我们在CXL基金会中有一个董事会席位。因此,随着这种吸引力越来越大,我们将在那里产生重大影响力。我认为,几年前IBM与CAPI和OpenCAPI一起促进了加速发展。说到此框,它将具有OpenCAPI功能。实际上,这是第一个具有OpenCAPI功能的商用产品,我们将看到开发人员能够开始为所有新设备利用一致的,高吞吐量,低延迟的接口。”

IBM报告称它将很快有一个开发者委员会。“我们要做的第一件事就是使用基于Bittware FPGA的卡为市场提供 支持。它也将在不久的将来可用。这样一来,开发人员就可以利用低延迟/高吞吐量的优势,然后我们甚至将拥有一张卡,供他们在不久的将来也开始对此进行探索。”

IBM首席执行官Dave Turek在SC19提出的新产品如何适应更广泛的AI进入市场策略尚不清楚。他提出了一种战略,其中IBM将提供较小的AI系统,这些系统能够利用客户的现有基础架构来改善系统和应用程序性能。(有关更多信息,请参阅 HPCwire 文章 SC19:IBM更改其HPC-AI游戏计划)。

Liu在她的博客中写道:“为了展示IC922如何适合AI难题,美国国防部高性能计算现代化计划(HPCMP)最近展示了如何将IC922和AC922组合到模块化计算平台中,从而创建了IBM POWER9集装箱中的基于超级计算机的超级计算机。这种模块化计算功能最初安装在美国陆军作战能力发展司令部的陆军研究实验室DoD超级计算资源中心,它将使DoD重新定义“边缘”一词,以包括在世界任何地方(包括战场)部署AI超级计算能力。”

从某种意义上说,对边缘的使用可以涵盖类似于Turek所建议的部署,在该部署中,IBM引入了一个AI集群(最小到单个节点),以增强已经存在的基础架构的性能。他还暗示IBM将提供围绕特定功能(例如安全性和系统管理)专门化的AI系统。下一步可能是下一步,提供AC922-IC922组合以“增强”现有基础设施。

关键词:服务器 IBM Nvidia

最近更新