| 英特尔下一代处理器:Nehalem(转it168) | |||||||||||||||||||||||||||||||||||||||||||||
| 作者:佚名 来源:本站原创 点击数: 更新时间:2008年06月12日 | |||||||||||||||||||||||||||||||||||||||||||||
英特尔下一代处理器Nehalem在本次IDF大会中算是一个非常重要的部分,因为它将会在今年第四季度发布,发布前的预热非常重要,因此,在本次IDF 中,关于Nehalem的介绍都是属于长时间的重要会议,并且都安排在大会议室举行,笔者参加了所有的这些Nehalem讲座。
Nehalem微架构和当前的Core 2架构有什么区别和改进呢?我们之前也有过不少报道,然而基本上很少涉及细节,而且不少都属于不太明朗的状态,现在,我们在IDF的Nehalem深入剖析讲座中获得了大量相关的细节,这个讲座由参加了Nehalem架构设计的Ronak Singhal来讲解,相信可以解答我们之前存在的大量疑问,下面我们就来看看Nehalem架构究竟有什么奥妙之处。
经过这些年Core架构的成功,我们都了解Intel的Tick-Tock战略了,通过每两年一次的制程更新和同样每两年一次的微架构更新交叉并行,形成每一年一次的处理器新品发布,Nehalem正好和现在的Penryn形成了一个Tick-Tock。
和Penryn相比,Nehalem的微架构是崭新的,因为Intel对其提出了动态可扩展的要求,满足了这个要求,所有分类的Nehalem处理器将共享单一的开发平台,不需要做特别的优化,同时,这个架构还要能满足笔记本/台式机一直到工作站/服务器的不同性能要求,而不需要对架构,以及开发平台作出改变。
Nehalem满足了这个要求,它的内核具有可扩展的高可伸缩架构,关于这一点,我们以前的报道中已经充分展示了,同时幸运的是,那些报道到现在仍然有效。
由于共处在一个Tick-Tock上,因此Nehalem和Penryn都同样属于45nm工艺,从65nm工艺转变到45nm工艺带来的巨大能耗降低已经无法再次重新,因此Nehalem就不再注重于能耗的降低,而是注重于性能的提升,这样的设计理念,带来了处理器架构的巨大变化,这些变化均面向性能的提高,也即是说,我们可以期望Nehalem具有着强大的性能。
成功取代NetBurst架构的Core微架构是一个强大的架构,Nehalem正式建立在这样的基础之上,犹如牛顿谦虚自己是站在巨人的肩膀上一样。
从大架构上看,Nehalem的内核架构逻辑图变化不大,基本执行顺序和Core和很相似的,只是 看起来在内核外面明显多了一层L3缓存,其实,在各个阶段,Nehalem和Core相比都有了改进。
环流监测器的英文是Loop Stream Detector,Loop循环是在编程中极为常见的设计,在执行中也是极频繁,Core通过在微架构中加入专门的逻辑来检测循环语句,关闭不需要的重复分支预测,达到提升性能的目的,Nehalem将其更近一步,将重复的预取和重复的解码都省去了,循环性能更强大 分支预测是现下处理器提升性能的重要架构,通过预先判断语句的执行方向,从而能先发制人,尽早得到计算结果。
Nehalem继续提升了自Pentium Pro一直延续到Core的分支预测,提供了更高的分支预测准确率
准对目前例如数据库应用这样的大量执行代码的软件不能适应现存的分支预测器地情况,Nehalem搭载了多级分支预测机制,提供了更高的性能表现
RSB(Rename Stack Buffer,重命名的返回堆栈缓冲器),编程人员应该对堆栈很熟悉了,包含中断/多进程的操作系统必然存在着堆栈结构,通过新增的RSB特性,函数返回现在可以具有相对独立的返回堆栈,没有RET错误,没有溢出问题
除了增强的并行执行单元之外,Nehalem还通过增加其他结构来提升并行处理性能,例如载入缓冲器(文档里被错误翻译为负载缓冲器)和存储缓冲器
这个内存子系统主要是指处理器内部的缓存架构,对比与Core2的SmartCache技术,Nehalem又作了三个改进:新的TLB层级、快速的16-Byte无排列通道、更快速的同步原语(文档中被翻译为起始同步)
除了传统的Instruction TLB和Data TLB之外,Nehalem还多出了一个L2 Unified TLB架构,所有的指令和数据都可以共享这个TLB架构,便于提升多线程运行的性能
快速无排列缓存存取现在可以解放编译器和变成人员,不在需要进行指令排列对齐,就可以享受到更高的载入吞吐量
指示灯,信号量,锁——貌似Intel喜欢将同步原语synchronization primitives翻译为起始同步,原语指的是一种在编程中使用到的指令格式,新加入的同步原语LOCK prefix, XCHG将会提升多线程应用的性能,Intel表示Nehalem的同步延迟比Pentium 4快300%以上,比Core 2快33%以上 早在NetBurst时代,Intel的Pentium 4处理器具有3个并行执行单元,为了提高这些执行单元的利用效率,Intel发明了一种技术,让系统认为处理器具有多个处理核心,从而同时将多个线程分配到这些执行单元当中,从而提高了整体性能,这个技术就是HyperThreading超线程技术。
在进入Core架构后,超线程技术被抛弃,然而,到了Nehalem,超线程技术又回归了,这时超线程技术使用的名字是SMT:Simulate Multi Threading同步多线程技术,事实上,SMT是超线程技术的学术名称,这两个东西是完全一样的。
实际上,Nehalem的SMT和Pentium 4的HTT就是一样的东西,然而,借助Nehalem增强的RSB和ITLB架构,Nehalem的超线程性能比起老前辈来要更为强大
为了让新的处理器使用于所有的产品线,Nehalem处理器采用了模块化的设计,它将处理器划分为两个部分:Core核心和Uncore非核心,所有产品线的Nehalem处理器,其Core核心部分都是一样的,只是Uncore部分可能不同。
在企业级运算上,数据处理任务非常繁重,这需求着更大缓存的,在以往的架构中,通常是为不同的型号制作不同容量的L2缓存,这提高了设计的复杂性。 Nehalem通过新的三级高级缓存架构解决了这个问题,Nehalem将第三级缓存放入Uncore非核心部分,从而可以方便地设计出不同容量的L3缓存版本,同时,通过将L3放入Uncore部分,保持了Core部分的完整性和独立性,设计上也跟方便了。将L2与Core划分开来,也有助于实现所有核心共享L3 Cache。
通常缓存具有两种设计:非独占和独占,Nehalem处理器的L3采用了非独占高速缓存设计,并采用了“内核有效”数据位的额外设计,避免了非独占缓存的短处。 关于Nehalem的扩展性我们已经报道过多次了,现在我们再来深入浅出地看:
当下的FSB前端总线,最初是4个处理器共享同一条总线,后来的DIB技术提升到两个处理器共享一条,在后来进化为每个处理器单独使用一条,处理器的带宽线形提升着,然而所有的处理器都要连接到北桥芯片,每个处理器之间的通信都要通过北桥,在大量处理器的环境,北桥芯片势必会成为瓶颈,对FSB结构而言,4路或者4路以上的处理器架构就必须额外设计芯片组,这也是目前服务器芯片组型号极多的原因之一
有了QuickPath和集成内存控制器,FSB可以安息了,通过每一个处理器都提供数个QuickPath总线和3个DDR3内存通道,Nehalem提供了一个可扩展的解决方案
QuickPath如何提升扩展性?在处理器增加的情况下,每个处理器都可以继续通过QuickPath和其他处理器互相、直接连接,在处理器数量持续提升的情况下,系统拥有的处理器带宽乃至内存带宽都会持续提升。每个QuickPath链路可以提供25.6GB/s的双向带宽。 还有值得一提的是:在Nehalem架构专家座谈会上,一个国外媒体问到CSI总线和QPI总线是什么关系的时候,Nehalem构架师Ronak Singhal回答:它们就是一样的东西。 Nehalem最突出的改变就是集成了内存控制器,这个内存控制器处于内核之外,因此并不是所有的Nehalem处理器都具有这个内存控制器,这样的灵活设计可以满足从笔记本到服务器的要求。
Nehalem集成的内存控制器支持DDR3-1333内存,并能支持3个通道没处理器,支持RDIMM和UDIMM(Registered DIMM是服务器上常用的设计)。
集成了内存控制器的Nehalem内存带宽可以达到32GB/s,而1600MHz FSB的Harpertown处理器(采用最新的支持4通道DDR2-800内存的5400 Seburg芯片组)只能提供25.6GB/s的带宽,更主流的配置内存带宽比Seburg更低。 集成内存控制器在多处理器系统中存在的问题就是:会形成一个和传统UMA(一致内存架构)不同的NUMA(不一致内存架构),或者理解为不均匀内存存取。这是由于不同处理器连接的内存之间的通信问题引起的。通过快速的DDR3三通道内存,Nehalem成功地将这些不均匀的影响降到了最低,在最后的一个图中表示,在最慢的远端读取中,Nehalem的存取延迟也要比Penryn要快,更别提快速的本地内存读取了。
Nehalem也不例外,改进的地方虽然不多,然而这些改动大大提高了虚拟化性能。这些改动包括了两个部分:EPT扩展页表和VPID虚拟处理器ID,其中前者消灭了当前存在的虚拟机内存操作中存在的大量内存地址转换,后者则减少了对TLB的无效操作,这些都明显提升了虚拟机的性能。
SSE4指令集是自SSE以来最大的一次指令集扩展,它实际上分成了三个阶段来更新:提前发布的SSSE3、Penryn中出现的SSE4.1和Nehalem中出现的SSE4.2,其中成熟的Penryn中集成的SSE4.1占据了大部分的指令,因此Nehalem中的SSE4指令集更新很少,只有7条指令。
Nehalem——英特尔下一代45nm微处理器,和同样45nm的Penryn相比,具有着全新的平台架构,设计提供了高性能、高扩展性和高能效比,是Inte处理器战略的一个重要阶段。
时至今日,Nehalem已经不仅仅是一个未完成的计划,本次IDF上,分别展出了实际运行的面向桌面平台的Nehalem系统和面向服务器市场的Nehalem系统,表明Nehalem距离我们已经不远了。
我们何时能够享受到强大的Nehalem?按照计划,2008年第四季度我们就可以在市场上见到首批Nehalem了。现在来看,桌面PC将会首先使用Nehalem,一些主板厂商目前已经推出了配合Nehalem处理器的桌面主板样品。 |
|||||||||||||||||||||||||||||||||||||||||||||
|
上一篇:索尼VAIO TZ33评测
下一篇:Vista DHCP 故障排除 |
| 网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!) |












































