根据可用性来选服务器
服务器虽然历经千变万化,但有一点一直是永恒不变的主题,那就是服务器的可用性。简单来说,服务器的可用性,其实就是要求服务器具有高可靠性、高稳定性,并且易于管理维护。为了实现服务器的高可用,像部件冗余、热插拔技术、RAID技术、内存纠错以及远程管理等技术和方法,纷纷被用到服务器的设计上。一个目的,就是大大减少服务器因故障等原因而停机的时间。
因为,服务器的重要性越来越高,其每一次停机,都会给企业带来巨大的损失,甚至会影响企业的长远发展。服务器作为信息化建设中硬件架构不可或缺的部分,一直以来都备受关注。同时,服务器的更新换代也在见证着科技的发展历程。不论是最初的16位处理器,还是红极一时的32位处理器,甚至包括如今同时支持32位、64位的处理器,以及即将到来的纯64位处理器年代,一台服务器如果连最基本的可用性都无法保障,那它将无法登上时代的大舞台。
可用性的涵义
服务器的可用性(Usability),其实就是要求服务器具有高的可靠性、高稳定性、易于管理维护,尽量不出现停机待修现象。如果是普通的PC死机了重启,最多会丢失一些本台电脑上的文档信息、少量的数据,不会造成巨大的经济损失。但是如果服务器出现死机的情况,后果将不堪设想。因为许多重要的数据、资料、信息、记录都保存在服务器上。一旦服务器发生故障,将会造成大量数据丢失、许多重要业务停顿,如代理上网、安全验证、电子邮件服务等,都将失效。易于管理和维护就不必说了,对于非专业的用户而言,能够用最简单的管理去维护网络内的所有设备,是他们很开心的事情。所以综上所述,高可靠性、高稳定性和易于管理维护,是服务器可用性的具体体现。
可用性的实现
在服务器硬件架构的设计上如何来保障可用性呢?关键是要做到硬件冗余和硬件在线诊断。其中常见的硬件冗余包括:磁盘冗余、电源冗余和风扇冗余。另外还有一些RAM冗余、PCI适配器冗余和网卡冗余等。硬件在线诊断技术则包括热插拔技术、内存保护技术、内存检查和纠错技术、内存镜像技术、内存热添加/交换技术、活动PCI技术、活动诊断技术等。下面就以航天联志服务器为例,来介绍这些技术的内容。硬件冗余比较容易理解,就是对硬件的组成部件,采用冗余备份的方式,来保障因部分部件损坏引起的硬件系统的瘫痪。但是出于成本考虑,不能做所有部件的冗余,一般都是对其中一些关键部件的冗余。比如磁盘冗余技术,就是人们常说的RAID(磁盘阵列)技术,即把多块独立的硬盘(物理硬盘)按不同方式组合起来,形成一个硬盘组(逻辑硬盘),从而提供比单个硬盘更高的存储性能和实现数据冗余。
在服务器产品中,基本上都采用了RAID技术,支持RAID0、RAID1,使服务器可以充分利用总线的带宽完成数据的操作,保证用户数据的可用性。同时,航天联志的服务器产品可以提供双电源和双风扇的冗余备份,部分机型还可以支持热插拔技术,这就给电源和风扇创造了一个减轻负荷的工作状态。当然,仅仅提供硬件冗余是远远不够的,还需要一些硬件在线诊断技术的配合,才能使服务器的可用性发挥最佳。比如热插拔技术,就是指有些部件可以在系统带电的情况下对部件进行插拔操作。在航天联志的服务器产品中,绝大多数都采用了支持热插拔功能的部件,比如电源、硬盘、风扇、内存、网卡等。
还有就是内存纠错技术―ChipKill内存技术,这是一种新的ECC内存保护标准。随着Intel CPU性能以几何级的倍数提高,而硬盘驱动器的性能同期只提高了5倍,因此为了获得足够的性能,服务器需要大量的内存来临时保存在CPU上读取的数据。这样大的数据访问量,就导致单一内存芯片上每次访问时通常要提供4(32位)或8(64位)比特以上的数据。一次性读取这么多数据,出现多位数据错误的可能性会大大地提高,而ECC又不能纠正双比特以上的错误,这样就很可能造成数据的丢失。ChipKill内存技术就解决了这个问题。现在一个服务器上安装的内存逐渐增多,在系统中发生与内存有关的错误的可能性也在增大。所以航天联志在保障服务器产品的可靠性上,不单单采用了Chipkill内存技术,还包括内存保护、内存镜像和热交换性能等一些纯硬件方法,以及内存热添加技术等一些软件方法,全方位地保障设备的可靠性,使整个系统的可用性得到了最大的体现。