除了Intel之外,x86架构还有另外一家重要的处理器供应商:AMD,虽然前段时间的Intel 45nm处理器来势汹汹,不过AMD的Barcelona的推出时间更为早一些,并且性能也不算弱,因此也能在市场上站住阵脚。在本次横评中,出现了两款采用AMD Barcelona双路四核处理器的产品,第一款就是我们本次文章的曙光天阔620R服务器。曙光是国内重要服务器厂商,不过对一般人而言,其x86服务器方面不如其大型机和超级计算机方面更闻名一些。

  曙光天阔620R服务器采用了AMD Opteron 2354处理器,这是一款双路、四核2.2GHz的Barcelona架构处理器,就Opteron的架构而言,2.2GHz的频率不算太低了。这台服务器同样基于2U架构——横评大多数服务器都是这样,搭配了nForce Professional 3600芯片组,并提供了6个热插拔3.5" SATA/SAS硬盘槽,在本次测试中,曙光天阔620R服务器最大的特色是AMD Opteron 2354、nForce Professional 3600芯片组和随机附带的16GB R-ECC DDR2内存。


曙光天阔620R服务器


曙光天阔620R服务器


曙光天阔620R也是一个2U高度的服务器


曙光天阔620R服务器提供了6个3.5" SATA/SAS热插拔槽,我们的样机中使用了4个Seagate的Cheetah T10硬盘


曙光天阔620R服务器正面提供了网卡指示灯,有时候会特别地觉得方便


曙光天阔620R作为一个2U服务器,少有地采用了单电源的设计


曙光天阔620R服务器

 


曙光天阔620R服务器


曙光天阔620R服务器


    曙光天阔620R服务器配置了4个热插拔风扇,不过没有为各个区域划分风道范围,因此Opteron 2354处理器的散热器上仍然具有风扇


    Opteron 2354处理器内置了内存控制器,每个处理器提供了8条DDR2内存插槽,是本次横评中内存插槽最多的服务器,我们收到的样机所有的插槽都插上了一条1GB R-ECC DDR2-533内存,因此其总容量达到了16GB


采用了一个600W的Emacs单电源


曙光天阔620R服务器采用的主板是Supermicro H8DM8-2,芯片组是nForce Pro 3600,也就是MCP55 Pro


    Supermicro H8DM8-2继承了Adaptec 7902B Ultra320 SCSI芯片,不过现下已经难以见到仍然使用并行SCSI的服务器产品,曙光天阔620R也不例外,它另外配置了一块LSI Logic MegaRAID SAS 8708ELP阵列卡,这块Low Profile板卡配备了相应的挡板,因为曙光天阔620R没有采用Riser架构


这块插在PCIe x8插槽上的LSI Logic MegaRAID SAS 8708ELP阵列卡是一块PCIe x4的阵列卡,提供了8个SAS 3Gbps接口

测试平台

  本次测试的曙光天阔620R服务器采用的是AMD Opteron 2354处理器,也就是早段时间推出的Barcelona处理器,推出后经过了数个月的调整,现在已经比较成熟稳定了。Opteron 2354频率为2.2GHz,每个核心具有64K+64K的L1和512K的L2,L1的容量要比Intel的Xeon多些,不过L2则要远小于Xeon,然而每个Opteron 2354还提供了2MB的所有核心共享的L3缓存,这可以弥补较小的L2缓存。曙光天阔620R服务器的nForce Pro 3600主板采用了自带的nForce网卡

曙光天阔620R平台

主板 Supermicro H8DM8-2
处理器 AMD Opteron 2354 x 2
主频 2.2GHz
总线 1000MT/s
L1容量 64K+64K
L2容量 4x 512K
L3容量 2M(共享)
芯片组 nVIDIA nForce Pro 3600
内存 1GB R-ECC DDR2 533 SDRAM x 16
磁盘控制器 LSI Logic MegaRAID SAS 8708ELP
硬盘 73GB 10KRPM SAS硬盘 x 4
硬盘设置 4块硬盘组建为RAID 10模式,条带大小为64KB,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区上进行
操作系统 Microsoft Windows Server2003,5.02.3790,SP2
网卡 NVIDIA nForce Networking Controller

 

对比双路平台:

 

双路Xeon X5365平台

主板 ASUS DSBF-D/SAS
处理器 Xeon X5365 x 2
主频 3.0GHz
FSB 1333MHz
L1容量 64K(Data容量为32K)
L2容量 8MB(共享)
芯片组 Intel 5000P
内存 1GB FBD ECC DDR2 667 SDRAM x 8
磁盘控制器 Adaptec 2130S RAID Controller
硬盘 73GB 1万转 Seagate SCSI x 3
硬盘设置 3块硬盘组建为RAID 0模式,条带大小为64KB,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区上进行
操作系统 Microsoft Windows Server2003,5.02.3790,SP2
网卡 集成双Intel(R) PRO/1000 EB 网卡

  我们进行了处理性能、内存缓存性能、数据库网络应用辅以基本测试环节进行。具体测试项目如下:

  • SPECCPU2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。  

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.011 Compiler、Intel Fortran 10.1.011 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化,虽然Opteron 2354处理器支持SSE3指令集,不过毕竟编译器不是AMD的,因此只能使用QxW编译参数。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译优化选项。

  我们根据被测系统选择实际可同时处理的线程数量:也就是8个。最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  SPEC CPU 2006的测试比较消耗时间,因此准确度也很高。

  • ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

  • SiSoftware.Sandra.SP1 v2007

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。今年该软件推出了2007版,该版本新增了4项基准测试,包括Power Management Efficiency、Memory Latency、Physical Disks和CD-ROM and DVD这四个项目。另外,它还对于原有的几个基准测试模块进行升级,比如在Arithmetic benchmarks中增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

  • IOMeter 2004.7.30

  IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。

  • Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量

  • Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力

  • Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量

  • Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力

  • WebBench v5.0

  WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。

  静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。

  动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。

  • NetBench v7.03

  NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。

  • Benchmarkfactory 4.6

  大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。

  我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。

处理性能测试

SPEC CPU 2006
fp_rate_base2006

厂商 曙光 双路 X5365
产品型号 天阔620R 双路 X5365
开启线程数 8 8
410.bwaves

45.4

32.6
416.gamess 104 142
433.milc 30.5 18.8
434.zeusmp 61.3 63.7
435.gromacs 84.6 133
436.cactusADM 57.8 70.2
437.leslie3d 34.7 24.3
444.namd 81.9 123
447.dealII 92.8 122
450.soplex 37 29
453.povray 126 170
454.calculix 37.3 98.2
459.GemsFDTD 22.2 21
465.tonto 51.4 61.5
470.lbm 33.9 24.5
481.wrf 42 46.1
482.sphinx3 55.7 45.5

SPECfp_rate_base2006

52.6 56.5

 

SPEC CPU 2006
int_rate_base2006

厂商 曙光 双路 X5365平台
产品型号 天阔620R 双路 X5365平台
开启线程数 8 8
400.perlbench 39.8 43.1
401.bzip2 56.4 79.9
403.gccc 48.5 39
429.mcf 44.4 56.9
445.gobmk 110 147
456.hmmer 33.4 122
458.sjeng 84.8 134
462.libquantum 51.8 43.5
464.h264ref 128 236
471.omnetpp 42.1 28.3
473.astar 50.8 47.4
483.xalancbmk 4.27 2.01

SPECint_rate_base2006

46 53.2

  两个平台的架构很不相同,因此SPEC的子项目各有上下,总体来看,Xeon X5365 + 5000P的性能更为强劲一些

  在内存缓存测试环节,我们选择了科学计算中的Membench项目:

ScienceMark Membench

厂商 曙光 双路 X5365平台
产品型号 天阔620R 双路 X5365平台
内存技术参数 1GB FBD ECC DDR2
533 SDRAM x 16
1GB FBD ECC DDR2
667 SDRAM x 8
L1带宽 40984.41 83902.59
L2带宽 12825.13 25120.09
内存带宽(MB/s) 5271.26 3933.06
L1 Cache Latency(ns)
32 Bytes Stride 1.36 1
L2 Cache Latency(ns)
4 Bytes Stride 1.36 1
16 Bytes Stride 1.36 1.34
64 Bytes Stride 4.07 3.68
256 Bytes Stride 6.78 3.68
512 Bytes Stride 6.78 4.01
Memory Latency(ns)
4 Bytes Stride 2.26 1
16 Bytes Stride 7.69 4.68
64 Bytes Stride 30.3 18.81
256 Bytes Stride 97.68 60.82
512 Bytes Stride 98.13 67.84
Algorithm Bandwidth(MB/s)
Compiler 1902.59 2824.44
REP MOVSD 1913.58 2841.6
ALU Reg Copy 1660.78 2747.44
MMX Reg Copy 1949.48 2794.63
MMX Reg 3dNow 5108.93 ---
MMX Reg SSE 5145.94 3933.06
SSE PAlign 4322.44 3875.5
SSE PAlign SSE 5271.22 3922.27
SSE2 PAlign 4322.06 3860.31
SSE2 PAlign SSE 5271.26 3920.55
MMX Block 4kb 3663.54 3250.86
MMX Block 16kb 3890.93 3528.15
SSE Block 4kb 3686.75 3183.58
SSE Block 16kb 3875.34 3539.32

  Opteron的主频比较低(2.2GHz,X5365为3GHz),因此L1/L2的带宽不及X5365,不过由于Opteron内置了内存控制器,因此内存带宽要高出X5365 + 5000P

  曙光天阔620R服务器采用了LSI Logic MegaRAID SAS 8708ELP阵列卡,并搭配了4个73GB Seagate Cheetah T10硬盘,我们将其设置为RAID 5方式。


IO读写



IO吞吐量

  Cheetah T10是一款10K RPM的硬盘,因此和其它采用15K RPM硬盘的服务器相比,曙光天阔620R的IOps值并不是很高,读取略高于85000,写入则略超出40000。吞吐量也不是很高。