Xeon 5500:北桥姓M时代的终结者
【eNet硅谷动力专稿】Pentium Pro以来最大革命:Xeon 5500
2006年,Intel发布了革命性的酷睿2处理器,一举奠定桌面领域王者地位;然而在服务器领域,酷睿2核心的Xeon5100/5400表现与桌面大相径庭,拿单CPU性能远不如自己的对手没有办法,这一尴尬,需要新的平台来终结,这就是堪称Pentium Pro以来最大革命的Xeon 5500系统。
5500系列诞生的背景
有三个问题一直困扰着酷睿2核心的Xeon:
1、内存瓶颈问题
带宽瓶颈:Xeon5400通常搭配5400芯片组,支持4通道FB-DIMM 667/800内存,内存带宽为21.2GB/s~25.6GB/s,而对应的桌面平台搭配P45/X48芯片组,支持双通道DDR2-800或者 DDR2-1333内存,内存带宽为12.8GB/s~21.2GB/s,由此可见,目前服务器平台的内存带宽仅比桌面平台高20%!当初引入FB-DIMM为的是解决内存带宽和容量瓶颈问题,结果反而因为无法升级到DDR3而造成了系统内存带宽的瓶颈,严重影响了性能!这一点在SPEC CPU2006的成绩上一览无遗:

数据来自www.spec.org,全部采用CPU2006的BASE成绩,解释一下CPU2006,INT(整型)和FP(浮点)的成绩体现了单线程的实力,而RATE则体现了多线程的性能,加速比则是体现系统互联差异的最直观手段,通常CINT受内存带宽影响较小,而CFP(即浮点)则受内存带宽影响极大
从表中可以发现,对于四核心或者是两个双核的3.0G 酷睿2而言,双通道DDR3-1333是必须的(整型提升13.8%,浮点性能提升9%),对于2路系统而言,四核3.0G已经严重受到内存带宽限制,单线程浮点性能甚至弱于采用DDR2-800的QX9650。
性能瓶颈:除了无法升级DDR3,内存总线瓶颈也日益严重,前端总线在XEON5400系统中同时作为系统互联的总线、I/O总线以及内存总线存在,而两条前端带宽仅相当于四通道DDR2-800!没有任何多余带宽可以留给I/O与互联,高负荷运转的时候,内存总线效率会大大下降,这就带来了严重的内存总线延迟问题,本已带宽不济的内存雪上加霜!

总线瓶颈示意图2、系统总线瓶颈问题
如果说内存性能影响浮点性能,那么系统总线影响的就是加速比这一对多核多路系统最重要的指标。正如在内存性能瓶颈部分所述,目前Xeon5400的系统总线是一条汇集了各种数据的单线通道,2路双核系统可以获得2.5X的浮点加速比,但是2路四核值提高到3.5X不到,目前主要竞争对手的2路四核系统的浮点加速比都已经提高到5X这个级别;这个差距在高性能计算领域是致命的。
在企业服务器领域,I/O性能往往比浮点能力来得更重要,Xeon5400系统由于I/O无法实现全双工,再加上与内存争夺带宽造成I/O系统延迟大大增加,效能相对低下,竞争力受到不小的影响。
3、功耗问题
为了在2路平台充分发挥酷睿2核心的强大性能,Intel开发出了X86世界最复杂的2路服务器系统——5400系列芯片组:内置24MB snoop filter作系统调度,Pcie连接多达40lanes,双前端总线,代价就是高达38瓦的TDP,几乎赶上低频Xeon CPU!
此外,FB-DIMM第二个副作用显现:功耗提升过大!每条FB-DIMM上都有一颗AMB芯片,最大功耗为5瓦,远远超过一条普通内存的功耗,通常插8条内存的情况下,足足比其他系统多出40瓦的功耗。
大功率北桥和高功耗内存,完全抵消掉了Intel在cpu节能上的努力,同时还带来服务器散热设计上的巨大麻烦,因为需要散热的面积太大了。

三代Xeon的差异对照表
幸亏采用了90nm工艺,才控制住了5400系统的功耗,不过38瓦的TDP也已经创纪录了。另外值得注意的是采用新工艺缩小核心面积后导致功率密度继续提升,所以5400的Tcase温度骤降到83.8摄氏度,这对散热设计提出了非常高的要求。
三大问题的解决刻不容缓,这才有了强大的Xeon5500系统。Xeon5500横空出世
Xeon 5500即Nehalem-EP,与Core i7的一脉相承,内置三通道DDR3内存控制器、超线程、Turbo Boost动态加速、Integrated Power Gate电源管理、新一代虚拟化等技术;另外,比桌面多开放一对QPI总线,取代了单端的前端总线,这使得Intel在服务器领域终于实现了点对点全双工通信,彻底摘掉了i/o弱、浮点加速比过低的帽子。
该系列处理器绝大部分型号为原生的四核心,集成7.31亿个晶体管,主频1.86-3.20GHz,三级缓存4/8MB,热设计功耗60/80/95/130W,最大内存容量144GB(18×8GB)或192GB(12×16GB)。内存带宽高达62GB/s,为前代Xeon的2.5倍;采用速度高达6.4GT/s的QPI总线作为系统互联,总带宽为前代Xeon系统的3.5倍,加上Nehalem核心本身的提升以及超线程技术的重新引入,系统性能将达到前代系统的2.25倍!可以称得上一次里程碑式的飞跃。
企业服务器领域,Xeon5500的标准配置是两个5500系列CPU、5520芯片组,最大可支持18条DDR3内存, 42条Pcie通道;相比5400系列,由于I/O实现了全双工且不再与内存共享总线,延迟大大减小,扩展能力也得到大幅提高,在企业级应用(邮件服务器、Web服务器、文件服务器以及商业应用)方面提供2.25倍的性能提升,同时待机功耗下降50%之多。

高性能运算领域的配置与企业服务器相同,由于系统互联总带宽达到了前代Xeon的3.5倍,加上超线程的引入,性能高达Xeon5400的4倍。另外全双工的I/O在HPC领域意味着更多的选择:10G以太网、Infiniband 甚至交换开关等,相信今年11月的Top500榜单中,Xeon5500将大放异彩。
工作站领域可以两个CPU各连接一个5520北桥,实现空前强大的78条Pcie(其中72条Pcie 2.0),轻松组建拥有四片Quadro显卡SLI的顶级系统:



Xeon5500平台(左)与Xeon 5400平台(右)
这两张图对比是两代Xeon的对比图,进一步说,是Xeon5500与Pentium Pro以来所有Xeon的直接对比。老Xeon平台,系统的神经中枢是北桥,同时负责内存、I/O和系统互联三大使命,而且I/O、内存以及系统总线均通过前端总线与CPU通信。新Xeon平台则完全不同,由于点对点通信与内置内存控制器的实现,CPU成为系统的核心,内存总线、系统总线以及I/O总线完全分开,这使北桥作用被大大弱化,仅仅为了连接I/O控制器和PCIE设备而存在,并且一个系统已经可以拥有多个北桥,所以北桥的名称也由MCH(Memory Controller Hub)转变为IOH(I/O Hub),从影响性能的重要因素变成只影响功能的因素。
两大技术的引入带来了革命性的变化
5500系列的两大法宝----QPI与IMC
QPI点对点通信,不再受共享总线的束缚
QPI(Quick Path Interface)是带时钟和缓存同步的全双工差分高速总线,结合了Pcie以及Hypertransport的优点,采用差分技术,抗干扰能力大幅增强,实现了高达6.4GT/s的工作频率以及非常低的延迟,并且由于无需实现等长,布线难度远远低于前代的FSB。单向带宽达到了惊人的12.8G/s,等同于前代的总带宽。 QPI的位宽是20bit设计,其中16bit用于数据传输,另外有2bit用于CRC校验,剩下的作为数据流控制等用途,正确的数据传输有助于提高系统的可靠性。


QPI的数据格式有了QPI,CPU与CPU的通信以及CPU与I/O通过两对独立的总线实现, 互不干扰,可以实现最大带宽;而XEON 5400的AGTL+前端总线就属于共享单端总线,上行下行的数据,包括了内存、I/O以及与其他核心通信的数据全部拥挤到一条单向线路上,延迟巨大,导致实际速度远远达不到理论速度,即便加入了多达24兆的snoop filter做调度。


内置三通道DDR3内存控制器,解放浮点能力的根本
内存带宽是影响浮点能力的重要因素,过去的P3、P4、包括Core2,主频提升到一定程度便需要将外频提升33Mhz甚至更多,从根本上说,这是为了加大内存带宽,以适应浮点的要求。

桌面平台的内存带宽发展表
从表中可以发现,2004年以后,内存带宽的提升一直比内存总线快,到2007年达到顶点,1333的FSB搭配双通道DDR3 1333,意味着内存带宽达到总线的两倍,总线又同时兼顾了I/O总线和系统互联,导致酷睿2的浮点能力以及多线程能力受到了极大的制约。造成这个问题的症结在于原有系统的前端总线:AGTL+单端总线并非差分设计,抗干扰比较差,而且64bit必须实现等长,所以在4层~6层PCB上实现800Mhz已属不易,如今达到1333Mhz,Intel的表现早已超出期望值!而这段时间内存则从DDR1-DDR2-DDR3一路稳步发展;于此同时,由于多核心的出现和CPU原本并行度的再度提升,系统对内存带宽的需求则也成倍增长,到了2007年,内存带宽需求已经达到2003年时候的4倍以上,总线带宽只提升到不足2倍,内存本身的速度接近4倍增长。至此只有内置三通道DDR3内存控制器的方案才能挽救浮点性能!所以在发展表中,2008年(即I7出现)内存、总线和CPU性能又一次回到了相对平衡。W5580系统实测内存带宽达到了27GB/s之多,而前一代的旗舰X5492只有可怜的7.5GB/s,难怪浮点差距这么大了。提升带宽的同时,由于省去了前端总线和北桥的延迟,内置内存控制器能够实现低得多的延迟,进一步提升内存性能。W5580系统实测的内存延迟仅有62ns,而X5492系统则高达107ns。

2路服务器领域,也是5500发布的2009年内存带宽才回到能够满足系统的水准
对于Xeon而言,内置内存控制器还可以解决功耗过大的问题,因为5500系列不再依赖FB-DIMM内存,FB-DIMM为了每通道支持3条以上内存槽而设计的,Xeon5400凭借FB-DIMM才在四通道上实现了128GB内存,而内置内存控制器的5500总共有六个内存通道,每个通道只需要3条内存即可实现144GB的高容量,同时无需付出巨大功耗的代价!
两大法宝的最终结果就是5500系列实现了浮点加速比的飞跃,一举达到业界最高的水准:

Xeon5500的其他法宝
Virtualization技术
新一代的虚拟技术在原有的基础上加入了VT FlexPriority和VT FlexPriority。VT FlexMigration技术可以使运行在现有的基于Intel系统的虚拟机服务器上运行的应用能够不受硬件升级换代影响,实现无缝升级。VT FlexPriority技术可以允许虚拟机操作系统绕过VMM(虚拟内存管理)读取和更改任务优先级,对于一个系统而言,只有优先级越高的中断请求,CPU的中断响应就越迅速,过去的系统无法由虚拟操作系统独立更改优先级,Xeon5500可以创建一个任务优先级寄存器(TPR)的拷贝,供虚拟机操作系统读取和修改,这样就可以更快捷的调配给虚拟机更多的资源运行程序,增强了虚拟的性能(Intel测试的结果是可以使一个运行在win server 2000操作系统虚拟机上的应用提速35%)。新的虚拟技术对I/O提出了更高的要求,不过对Xeon 5500而言,这不是问题。Intel的测试表明,Xeon5500的虚拟性能为上一代性能的2.1倍
Hyper-Threading超线程
超线程技术在P4时代就引入了,在工作站领域发挥了巨大的作用,相信在Xeon5500上也不会令人失望。Turbo Boost技术

这项技术非常实用,类似于动态升频,进行繁重多线程的时候系统会自动提升频率,提高工作效率;而对于那些四线程一下的程序则可以提升到更高的频率,同时关闭那些不工作的核心。
Intelligent Power技术
节能的重要环节,那些不工作的核心会自动进入接近10w功耗的状态,而Xeon5400则只能达到16~50W,这一项就为整个系统带来了50%的功耗节省。
5500系列的影响和前景
Xeon 5500是现有格局的破坏者,革命性的架构带来了成倍的性能提升,低端产品直接与前代高端平台平起平坐,并且在企业服务器、高性能计算与工作站领域全面开花。并且,Intel提供了非常平易近人的价格(虽然DDR3内存价格高于普通DDR2,但FB-DIMM不是):

数据来自ark.intel.com
在高端,同价位的5500完胜5400,包括功耗(还未计算FB-DIMM的功耗),在中低端,5530系统性能实际达到了3G以上5400的级别,远远超过5430,整体功耗两者相差无几(40W功耗相当于8条FB-DIMM内存的AMB芯片),因此5500也具有很大的优势。
如果说Pentium Pro意味着Intel进入企业服务器和高性能计算领域,那么Xeon5500就是Intel登上CPU领域的性能宝座的一个重要的里程碑,同时北桥主导的一个时代终于落幕了,系统架构崭新的一页已经翻开。(文/Dr BT)