如何制造超级计算机
人类面临许多顽症和极为复杂的问题,只有比现代计算机快速得多的超级计算机才能模拟和最终解决它们。
Tomas Sterling
目前速度最快的计算机都远远不能满足解决未来科学问题的需求。虽然通信和信息处理领域的发展日新月异,但即使是速度最快的计算机也不能解决和未来人类安康幸福、繁荣昌盛息息相关的诸多计算难题。如气候学、医学、生物科学、受控核聚变、国防学、纳米技术、先进工程技术及商业等关键性领域的重要进展,无一不依赖于发展其运算速度比目前最大的超级计算机至少快1000倍的计算机(参见25页附文《超级计算机的关键任务》)。要解决这些复杂得令人难以置信的问题,取决于计算机以高精度和高可靠度对其特性进行模拟和建模的能力,而发展这种能力是一项长期性的任务。现在的超级计算机的能力简直不能望其项背,它们每秒最多只能执行几万亿次浮点运算(太拉级,1012次)。例如进行一次完整的蛋白质折叠计算(这种计算能力是人们长期渴求的),现有的最大计算机要花100年的时间。为了完成这样的计算任务,研究人员需要的超级计算系统至少应达到拍它级的运算速度,也就是说,每秒进行超过1015次的浮点运算(算术运算)。
当前的高端计算机不仅运行太慢,而且花费过高。专用于管理美国核武器储备的ASCI(高速战略计算机计划)Blue计算机系统每秒最多可进行3太拉次浮点运算,每台大约价值1.2亿美元,其性价比相当于每进行1百万次浮点运算需花费40美元,超过一台特佳性能PC的性价比不止10倍。高端计算机还有一些间接的花费。每年这类系统运作所耗的电费轻轻松松就超过了100万美元,为这些庞然大物提供容身之地也增加了大量花销,另一项开支则是聘请最好的程序员给它们编写程序。
尽管高端系统的高运算速度让人印象深刻,可它们并没有很好地利用自身的计算资源,这导致其效率其低。25%的效率水平很常见,甚至在进行某些处理时效率到了1%。
混合工艺多线程(HTMT)系统是新一类计算机,它的处理能力是当前高端计算机的100倍,所花费用和占用空间却相差无几。如对它做进一步开发,其浮点运算速度可能超过拍它级——是目前最好的计算机系统性能的1000倍甚至更多。为了达到上述目标,一个由来自各部门的各学科专家组成的小组创建了一个计算机体系,它能够支持各种先进的处理、存储和通信技术,并调节它们的能力,弥补其缺陷。在美国国家航空航天局(NASA)美国国家安全局、美国国家科学基金会和美国国防高级研究计划局(DARPA)的资助下,HTMT的基本部件已经才发出来,但实质性的建设还有待政府的进一步支持。
具有讽刺意义的是,正式计算技术的成功解释了其缺陷。回溯到10世纪70年代末,个人计算机几乎不能玩Pong游戏。当时能以每秒几千万次浮点运算饿的性能水平计算大型科学问题的系统价值4000万美元甚至更高,相比之下,现在售价不到2000美元的PC就能胜过它。
用历史的眼光来看,超级计算机行业把先进技术和专用于解决特殊问题的体系结构结合起来,推进了性能处理这一领域,但其副作用是造就了高昂的价格。过高的成本和过长的研发时间使超级计算机的市场相对平缓,而计算机行业的其它细分市场却火爆增长。由于成本抬升了价格,整个超级计算机市场十分有限,各公司对此技术的投资也受到了限制,这就形成了一个典型的商业怪圈。
即使已使用了种种替代方案——包括量身定做的向量计算机体系(它利用流水线内存访问和算术功能单元对一列数字进行有效的单次操作)和集成了协微处理器大型阵列的大规模并行系统,这类系统的成本仍然居高不下,而许多应用程序的操作效率降低了。过去两三年内,一些研究组织研制了高度并行化的通用计算机,最高性能超过每秒1太拉次浮点运算,但较低的效率水平意味着能够负担实际应用程序运行的处理能力所剩无几。因此,商品级的计算集群(即标准的计算子系统的网络化阵列)被视为唯——种在经济上可行的解决方案:它们几乎不需要进行什么额外的开发工作,尽管使用集群计算系统必不可免地存在着变编程困难和通信延迟等问题。
对新型拍它级计算系统的研究自20世纪90年代中期以来一直在进行。工程师们在所有各条战线向速度问题发起猛攻,通过不同的技术途径来实现拍它级计算机。在强有力的研究开发活动的支持下,所有这些途径有可能在2l世纪头十年内变成现实(参看28页附文《实现超快处理的5条途径》)。每种方法都各有其优缺点,但可能获得最广泛应用的方法之一是HTMT方案。
HTMT方案将多种多样的先进技术融合在一个柔性优化系统内。该项目的宗旨是把超快处理器高容量通信线路、高密度存储器以及其它各种即将成熟的技术纳入一个动态的自适应体系结构中从而实现高效的跨拍它级计算性能。
无论走哪条路线,跨拍它级系统的设计人员全都面临3项挑战。首先,他们必须找到一种有效的方法把足够的处理、存储及通信资源整合在一起,以克服规模、成本及功率等方面的实际限制而达到预定的峰值计算能力,其次他们必须克服各种常见的性能退化因素,尽力保持合理的运行效率。这些因素包括跨越系统的等待时间(时间延迟)、争夺共用资源(如共用存储器及通信信道)、与系统开销有关的资源缩减(这是因为系统需要使用一部分开销来管理并协调同时执行的任务及并行资源),以及任务的并行程度不够或负荷的分配不够平衡而造成的计算资源浪费(吃不饱)等等。第3个目标则是寻找适当的方法来改进系统的可用性(可用性是一个多少有点随意的衡量指标包括系统的通用性、可编程性以及使用的便利程度等。)
超导处理器
过去10年间,CMOS(互补金属氧化物半导体)处理器一直在数字逻辑器件中占据着主导地位。CMOS技术的功耗不断下降,性能日益提高,而系统密度则以指数速率增长。但最快的数字逻辑技术并不是CMOS。可以当之无愧地荣获“最快”头衔的是一种完全不同的技术——超导逻辑。它依据的另一类物理学现象,也就是超导性。
超导性是在20世纪初发现的,具有超导性的材料能够无阻碍地传导电流某些材料在冷却到极低温度时就展现出这种性质。原则上由超导导线构成的回路能够使电流在其中永远维持下去。更重要的是超导器件使宏现尺度的电子元件和电路显示量子力学特性。在20世纪60年代初研究人员开发出一种基于超导性的非线性开关器件,称为约瑟夫森结,并发现它的速度异常地快。
HTMT超级计算机的设计方案将采用以约瑟夫森结技术为基础的高速超导逻辑处理器。借助所谓“快速单通量量子”(RSFQ)技术,超导环以微小的磁通量子的形式把信息存储起来(借助离散电流)。这些被称为“超导量子干涉器件”(SQUID)的环是一类最初被用作传感元件的简单装置,由两个约瑟夫森结构成,这两个结通过一个起着螺线管作用的电感器连接起来。两个约瑟夫森结都工作时,一股注入环内的电流可无限期保持下去。SQUID器件具有一种引入注目的特性,即它町处于多个不同的工作状态:环内可以不存在电流,可以保持基本电流,也可以保持相当于基本电流的某一整数倍的电流(但不能取任何中间值)。这种奇异的特性来自量子力学效应。为了表示数字代码的0与l,RSFQ逻辑门使用离散电流值(或通量)而不用离散电压值。在冷却到4开氏度时,这些器件的工作频率可以达到770千兆赫以上。这是单门处理速度的最高纪录,大约相当于常规CMOS逻辑的100倍左右。
借助RSFQ技术,混合计算系统的额定运行速度可以达到每个处理器每秒100至200千兆次浮点运算,而标准的CMOS处理器只能达到每秒几千兆次浮点运算。此外,RSFQ器件中的磁通量子非常微小,而且呈数据包的形式,从而使相互干扰和耗电量降低了几个数量级。这一正在迅速成熟的技术具有一系列优点,例如它降低了对并行性的要求,成本低,功耗小,占地少,等等。
提高效率
有了超快处理器在手,HTMT面临的问题就是设法有效利用这些处理器的强大能力。这些处理器的工作时间应当基本上只用在计算上。常规的方法(例如商品级计算集群)要求大规模的任务在差不多同样大规模的计算结点上进行。常规系统上的一个计算结点在系统忙于处理对另一个结点的远程请求期间,常常必须处于等待状态除非操作人员把工作量完全均衡地分配给各结点,否则某些结点便会连续不停地运行而疲于奔命,同时另一些结点却早早完成了其任务而闲着无事可干。即使工程师采用了负荷平衡软件,完成这项功能所需的系统开销仍会使效率降低。
HTMT与其它任何计算机体系结构均不相同,它彻底改变了处理系统与存储系统之间的关系。在通常的多处理器系统中,执行计算任务的处理器管理并操纵“哑的”存储系统:而在HTMT中却是由“灵巧”存储系统来管理处理器HTMT与其它紧耦合并行计算机考虑各处理元件承担的工作量,并迅速定应当由哪些硬件来执行哪一部分任务。这样,处理器在工作时就只是利用其局部寄存器和某些高速缓冲存储器,而用不着跑到系统里而很远的地方。其结果是大大减轻了等待问题。处理器的时间用在管理存储资源上,这类工作只是白白浪费了处理周期使系统开销增加。这类内务管理方面的决定由存储器中的廉价小处理器负责。
HTMT的设计通过两条途径来解决等待问题。首先,HTMT系统采用一种动态的,自适应的资源管理方式,它以多线程体系结构为基础,使HTMT能够在单个周期之内就从一条信息流转到另一条信息流上。HTMT将有多条指令流采用重迭通信,处理器可以同时处理许多正在等待的请求。假定一个超导处理器需要从高速缓冲存储器中取出信息而这一过程需要经历多个10皮秒周期(1皮秒为10^12秒即微微秒)。由于这一请求是由存储系统来执行的,处理器就可以转到另一条信息流上去寻找可以立即完成的操作任务。
HTMT对付等待问题的第二种方法是采用“存储器带处理器”技术(PIM)也就是在它的存储器件中设置一些小的次级附属逻辑处理器。几年前,制造技术的进展使CMOS逻辑器件与动态随机存取存储(DRAM)单元能够做在同一块硅芯片上,从而把这两种元件紧密地集成在一起。这类廉价的器件负责系统开销,也就是说,它们处理存储器中的信息这样又使超导处理器能够腾出手来全力对付计算问题。PIM处理技术还能执行一些存储密集型的功能,倒如数据收集(把需要的信息从多个不同的地点收集起来并将其置于一个密集的对象中),并且也能执行相反的数据分散操作,即把信息分配到若干正确的地点。
HTMT系统所采用的上述技术与体系结构或许算得上新颖,但真正全新的东西却是HTMT使用的管理这些资源的手段以及计算原理。HTMT系统将使用新的渗透技术,即由PIM处理器来决定何时执行一件新的工作PIM处理器将决定何时把所有需要执行的信息送到高速超导处理器附近的高速存取缓冲存储器中。例如,当需要某个例行子程序时,这个子程序以及它在执行其功能时所需要的特殊信息就会被送到处理器中。这种预先安排必需信息的前瞻性策略是避免与主存储器连接导致等待时间过长的手段之一。这一方法也使高速处理器得以从内务管理操作中脱身出来,因为把信息送到处理地点不需要动用处理器。
改进可用性
跨拍它级计算面临的第3个重大挑战是改进系统的可用性。研究人员必须提高系统的通用性(也就是确保它能处理多种不同的问题),使系统的编程更加简便,增加系统应用的便利程度(或延长可用时间)。HTMT系统通过几条逮径来解决这些问题。
将全局各空间用于一种共用存储器计算结构中,就可以使每个处理器都能“看到”整个存储器与典型的分布式(或分段式)存储器计算方法相比,这种方法的通用性更强,因为它使任何处理器都能高效地访问所有数据,而无须动用某一远程处理器上的软件倒行程序来协助数据传送。这样就可以同时进行多项操作,加快执行速度。此外,这种方法还使系统能进行动态重调度(即对运行时间信息作出响应),从而可以更有效地执行某些计算,进一步提高了系统的通用性。而且由于此种布局更接近于计算科学家思考问题的方式,系统的编程也更加直观了。通常编程人员必须事先确定某一问题应当如何由一个系统来处理,而这是一项既复杂又费时费力的任务。但是HTMT系统可以自行作出许多决定,从而减轻使用大型计算机时所遇到的最棘手问题之一——为这些计算机编写程序。
混合型计算系统使用性能更好的部件,这样只需要较少的部件就能达到同样的整机性能水平,为用户提供了更大的便利。部件数量的减少延长了整机的故障问平均间隔时间,从而增加了系统的可用运行时间。
全息存储器
HTMT系统的另一个新颖之处在于它使用高密度容量的全息存储器件。目前大学和工业界的研究实验室都在大力开发这种可替代半导体型动态随机存取存储器的新型存储装置,它不但有超群的存储密度,而且耗电量小,成本也低。
全息存储系统利用光敏材料来存储大块数据。全息存储有两种不同的方法,即光折射法与光谱烧孔法(Spectral hole-burning technique)。光折射存储法是用排列在平面上的一组数据来调制一束激光(信号光束),该光束与另一束激光(参考光速)在一小块矩形的存储材料(如铌酸锂)内产生相互干涉。相互干涉的光束所激发的空间分布载荷子被捕获后产生局部电场,此时发生的电-光学效应就形成了全息图。许多数据块可以存储在同一目标材料中。改变激光光束入射的角度或激光的波长,就可以把不同的数据块区别开来。光谱烧孔法利用的是存储材料对光学刺激的非线性响应。数据用光敏介质的吸收光谱的改变来表示。许多位数据可以同时存储在某一给定的空间位置上。
光折射法要先进的多。但从长远来看,光谱烧孔法所获得的存储密度要高得多。目前,典型的全息存储器件的存取速度为几毫秒,与常规的二级存储装置(如硬盘驱动器与光盘驱动器)差不多。但是可调谐激光器或激光二极管阵列——在这种阵列中各激光二极管彼此所成的角度略有差异——等技术可望使全息存储器的存取时间缩短到几十微秒。这样的存取速度与动态随机存取存储器的存取速度相比高出了大约两个数量级,但其数据带宽则与后者差不多或更大一些,而且这类全息系统比常规的磁盘驱动器快了约100倍。今后10年内全息系统的存储容量可望提高到在几立方厘米的体积内存储10千兆比特或更多的数据。
光通信
为了把高速超导处理器和大容量垒息存储系统连接成一个网络,HTMT将使用大容量光数据传送线路。HTMT将用光纤中的光子来代替金属导线中的电子以加快通信速度。导线每秒可轻轻松松地传送几百兆比特的信息,而使用成对的差分输入/输出插头(一个向上而另一个向下),数据传送速率可提高到每秒几千兆比特(gbps)。但是,为了获得运算速度在拍它级范围内(每秒1015次浮点运算)的系统所需的所有全局通信带宽,可能必须使用数千万条导线。在常规光通信系统中,使用经调制的激光,数字光信号的传输速度可达每信道10gbps或更高。
采用多个波长(或多种颜色)的光来传送数字信息可以大大提高光纤的带宽或信道容量。HTMT将使用一种名为“波分复用”(WDM)的高级光学传辅技术。此技术提供的每信道带宽相当于性能最佳的传统金属导线通信系统的100倍WDM使不同的数字信号(每个信号有其自己专用的光波长)能够在同一信道中一起传送。近年来,可以穿过单个信道同时传送的不同波长的数目已经增加到100左右,而且这一数字还可能进一步增大性能更好的接收器、发送器及开关技术目前正在开发中.很快就将达到50兆赫或更高的开关速率。某些仍处于试验阶段的器件将来可能使开关速率达到J000兆赫的量级。这一通信容量足以应付拍它级计算系统的庞大信息流。
这些下一代超级计算机将为探索全世界面临的最紧迫问题(包括全球变暖、疾病流行以及洁净能源等提供一项强有力的重要工具。1999年,总统信息技术咨询委员会极力主张为这类研究项目提供更多的资金。各研究小组已经证明,HTMT技术可能就是实现跨拍它级运算性能的最佳途径。而落实这些技术可以说是万事俱备,只欠东风——所差的正是足够的资金。
本文是关于下一代超级计算机的两集系列报导的第一部分。第二部分题为《自己动手组装超级计算机》,将发表在本刊今年11月号上。
【魏鹏/译 郭凯声,向俊/校】
请 登录 发表评论