服务器

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 服务器

企业自主创新完成国家战略使命

作者:科技日报刘燕出处:博客2014-05-14 12:50

  浪潮集团高级副总裁王恩东

  主机是国家发展的战略必争产业,也是计算机行业的高精尖领域,各类前沿和关键的计算机技术集中于此。

  编者按:

  中国的天河系列超级计算机不断刷新全球TOP500排行榜最高记录,而同属高精尖领域的主机却又为何长期无所建树?

  主机比超级计算机技术复杂度更大,产业门槛更高。全球50多个国家拥有了超级计算机,但仅有四个国家掌握了主机技术,这其中包括中国。

  2008年,国家“十一五”期间863重大专项“高端容错计算机”交由浪潮承担。2013年1月,专项成果——中国第一台自主主机天梭K1系统正式对外发布,中国自此成为继美日之后第三个掌握最新主机技术的国家。浪潮亦成为在全球化激烈竞争环境下,企业以自主创新完成国家战略使命的成功范例。

  863重大专项“高端容错计算机”项目总设计师、高效能服务器和存储技术国家重点实验室主任王恩东带领数百位工程师,经过四年多艰苦的技术攻关,克服了资金短缺、人才和经验缺乏、国外技术封锁等难以想象的困难,征服了主机这座高峰。

  突破国际技术挑战

  主机要解决的核心问题是将多颗(通常是8-64颗)处理器进行互联和协同,它所涉及的两个技术“体系结构”和“缓存一致性”最终体现为一个关键部件“处理器协同芯片组”。

  体系结构设计是主机系统设计关键的第一步,要完成计算系统处理器、内存、I/O模块之间的互联、调度,对服务器的性能、兼容性、稳定性、散热等问题有着决定性影响。这个计算机系统最高层次的概念,大体等同于计算机的逻辑模型,类似于组建一支部队,确定不同人员的从属和协作关系。

  而缓存一致性技术好比是一支部队内部的通讯机制,保证主机各模块之间数据的一致性,由于所有的数据都存储于各种缓存中,这套通讯技术被称为缓存一致性技术。

  那么技术挑战在哪里?

  一台主机最快每秒可以处理几千万事务,需要处理器彼此协同完成,唯一不同的是,处理器在工作过程中需要频繁大量的通讯,这是主机最为致命的环节,因为通讯问题没有处理好,将导致性能降低,部队战斗力大大降低。

  通讯是主机技术的阿喀琉斯之踵,这不仅取决于缓存一致性技术,也取决于体系结构,这两项技术只有更好的结合才能让各类模块协同通讯效率最高。

  如果按照通行的方法,当处理器数量超过4颗以后,由于通讯消耗的资源过多,会出现“处理器增加,而性能不变”的现象。天梭主机支持32颗处理器,有256个内存插槽,96个I/O插槽,规模和复杂度都数十倍于普通计算机。

  所以,将如此规模的单元互联起来,既要保证数据一致,又要将协同开销降到最低,是计算机领域的世界性难题,也是主机技术的核心所在。

  浪潮集团设计完成了“双翼可扩展多处理器紧耦合共享存储器体系结构”,成为国际上唯一一个只需要一级跳步的64路互联系统。目前该技术已成功申请全球专利,成为中国在主机核心技术领域的第一项全球专利。

  但是,完成体系结构与缓存一致性技术的研发设计,仅是画出了天梭K1的逻辑蓝图,这张蓝图最终需要变成现实部件——处理器协同芯片组。处理器协同芯片组是计算机的躯干和灵魂,决定了计算机系统整体扩展性和I/O等关键技术表现。

  浪潮研发出了中国第一款大规模处理器协同芯片组,以小于200ns的传输延迟、高达8.5GB/S数据传输速度、4重链路冗余等性能指标,为天梭K1系统强大的性能表现奠定了基础。

  目前具有芯片组技术实现能力的企业,全球不超过4家。

  突破国内工艺极限

  王恩东不止一次谈到,除了人才问题,他们遇到的最大困难是产业配套的空白。

  主机的复杂度远超出通用服务器。一般多处理器的计算机板卡不超过5块,系统布线在5000—7000条。天梭K1系统板卡数量超过110块,布线90000条以上。特别是计算板,尺寸只有50cm×60cm,如此狭小的面积上有40000个管脚,20层布线。这种规格直接超出了国内计算机板卡制作技术的上限。

  浪潮花了一年多时间才找到PCB(Printed Circuit Board,印制线路板,简称印制板)加工合作伙伴,合作伙伴虽然专门从国外引入一台主机PCB生产设备,但是,却难以找到配套的技术员。

  于是,浪潮的工程师和合作伙伴的技术人员一起研究工艺制程,在PCB材料、化学、金属表面处理等进行了大量实验,对信号的扰动效应进行了深入研究,最终成为继IBM之后,全球第二个实现了600×500超大尺寸、20层高叠层、0.5%高阻抗控制精度的电路板的加工并稳定量产的企业。

  这件事情还有一个令人意外的惊喜,该合作伙伴在和浪潮合作以后,进入了高端PCB制作领域,业务快速向高端转移,并得到了资本市场的认可,成功上市。

  2013年1月,天梭K1在新疆建设银行生产系统稳定运行两年多后,浪潮集团将该产品正式对外发布。

  至此,460名工程师的四年技术攻关告一段落,中国成为全球第三个掌握最新主机核心技术的国家。期间,浪潮获得软件著作权18项,授权发明专利102项,发表论文27篇。

  验收专家团经过严密评定,一致认为浪潮天梭K1系统技术水平达到国际先进行列,该产品基于自主设计的经典CC-NUMA架构,支持64路扩展,并完成64路原型系统的开发。最大可扩展256个计算核心,4TB全局共享内存,系统峰值浮点计算能力达到2560GFLOPS,内存总带宽1177.6GB/s,系统互连总带宽1088GB/s,系统I/O总带宽675GB/s。

  超级计算机研制成功就可以举杯庆功,但对于主机来说,研制成功仅仅是开始,王恩东说:“作为一类支撑社会经济运行的基础装备,天梭K1主机必须实现规模化应用,才能真正解决国家战略和产业发展所面临的问题。”

  在随后的一年里,浪潮从产业链、技术生态、行业突破等多个维度同时布局,打开了国产主机产业化新局面。

  ■延伸阅读

  超级计算机与主机的区别

  超级计算机是众多服务器通过网络进行互联,构成一个集群,协同完成同一计算任务,不同服务器之间通讯频率低,延迟要求不大,通常在毫秒级别。而主机是专做在线交易数据处理的单台大型服务器,通讯频率极高,延迟要求苛刻,至少在纳秒级别。

  此外,主机在容错、可靠性方面的要求也远超过超级计算机,因而主机技术复杂度高,远超过超级计算机,例如IBM入门级主机互联架构X5,耗资8亿美元,历时五年方研制成功。另外,超级计算机是科技攻关项目,而主机则是一个产业,即使完成了技术突破,后续的产业配套会更为复杂和艰难,是典型高投入、高风险的现代高科技产业。

  从“我们能吗”到“我们能”

  处理器协同芯片组研制成功,是天梭K1四年多研制过程中最激动人心的事件,项目组除了要克服人才缺乏、经验不足等困难外,还面临着技术上的孤立无援,甚至是美国等发达国家的阻碍。

  针对中国的技术禁运清单《瓦森纳协议》有一个明确的条目:“Control units which directly interconnect the buses or channels of central processing units”,也就是芯片组技术。浪潮在研发过程中不仅很难获得国外的技术资源,就连正常的商业技术沟通也会受到限制。

  商用处理器接口芯片是主机芯片组的一个很小的模块,开发时需要参考美国处理器产品的通讯协议等公开技术文档。但当2010年11月,天河1A登上全球超级计算机TOP500榜首时,引发了奥巴马的“中国计算机威胁论”。不久,美国厂商收回全部技术文档。

  王恩东讲述的这个研发过程中的小插曲,真实地反映了研发境况。没有基本的技术支持,走在一条前人没有走过的路上,“我们能吗”这种疑问一直在每个项目成员心中萦绕。

  当按照芯片组理论搭建的原型机点亮的时候,每个项目组成员都沸腾了,王恩东表示,那时候,我们知道路走对了,剩下的仅是距离问题。

  随着32路主机天梭K1的研制成功,项目组成员都成为了主机领域的技术专家,在几年前,他们几乎没有做过4颗以上处理器的服务器。在完成中国主机产业跨越的同时,他们也完成了技术生涯和职业生涯的跨越。

相关文章

关键词:浪潮,国产主机,天梭K1,主机系统

责任编辑:周钜翔

网警备案