解析英特尔酷睿微体系结构 提供高能效表现

时间:2006年08月23日20:27

 
解析英特尔酷睿微体系结构 提供高能效表现



解析英特尔酷睿微体系结构 提供高能效表现



  在微处理器世界,性能通常指的是执行给定应用或任务所用的时间,或者指在给定时间内运行多个应用或任务的能力。与常见的误解不同,它不单指等同于性能的时钟频率(GHz)或者每个时钟周期(IPC)执行的指令数。真正的性能需综合考虑时钟频率(GHz)和IPC1。因此,可以将性能作为一个频率和每时钟周期指令数的综合体来计算。

  性能=频率×每个时钟周期的指令

  该公式表明,性能可以通过单独或同时提高频率和IPC来进行增强。频率是制造工艺和微架构共同作用的结果。在给定时钟频率下,IPC由处理器微架构和具体应用决定。尽管同时提高频率和IPC不一定切实可行,但是提高一项,同时使另一项与前代保持不变,也可显著提高性能。

  除了上述两种方法之外,还可以通过减少被执行的指令数来提高性能。单指令多数据(SIMD)是一项可用来实现此成效的技术。英特尔于1996年首次在支持MMX.技术的英特尔奔腾处理器上采用了64位整数单指令多数据(SIMD)指令,随后在英特尔奔腾III处理器上推出了128位单指令多数据(SIMD)单精确浮点,或SIMD流指令扩展(SSE),后来又在随后几代处理器上相继亮相了SSE2和SSE3扩展。英特尔在其移动微架构中推出的另一项创新技术称作微融合(microfusion)。英特尔的微融合可将多个常用微操作(处理器内部指令)融合为单个微操作,以进而减少完成给定任务所需要处理的微操作数量。

  在英特尔继续有侧重地提供最适合客户需求的能力时,同样有必要注意在提供最佳性能的同时提供出色的能效 — 即充分考虑处理器完成具体任务将需消耗的功率。此处还可使用多个内核、多个线程和特殊硬件来提升性能。这些问题不在本文讨论范围之内。如欲了解详细信息,参阅英特尔白皮书:《平台2015:未来十年英特尔处理器和平台的演进》。

  1.功耗相当于维持IPC功效所需的动态电容(导体上的静电荷与维持电荷所需导体之间电位差的比率)乘以向晶体管和I/O缓冲区供应的电压平方,再乘以交换晶体管和信号的频率。

  这可以表示为:考虑到这一功耗等式与前文的性能等式,设计人员就可以在IPC功效与动态电容,及优化性能与功耗所需的电压与频率之间做出精确的权衡。本文将重点讨论英特尔的新微架构如何利用这一基础提供领先的性能和每瓦特性能。

  5解析英特尔酷睿微体系结构 白皮书英特尔酷睿微体系结构创新英特尔是长期推动降低笔记本电脑功耗方面的领导者。英特尔奔腾M处理器和英特尔迅驰移动计算技术中的移动微架构自始至终均提供了业界领先的笔记本电脑性能、每瓦特性能和电池使用时间。英特尔NetBurst微体系结构还提供了许多提高台式机和服务器性能的创新。

  功耗=动态电容×电压×电压×频率

  现在,英特尔的全新微架构不仅将具备每种现有微架构行业领先的特性,而且还将包含许多全新重要的性能与功耗创新技术,以进一步优化多核处理器的性能、能效和可扩展性。

  本文将重点讨论这些主要的英特尔酷睿微体系结构创新:

  英特尔宽区动态执行

  英特尔智能功率能力

  英特尔高级智能高速缓存

  英特尔智能内存访问

  英特尔高级数字媒体增强

  6白皮书 解析英特尔 酷睿 微体系结构

  英特尔宽区动态执行动态执行包含多项技术(数据流分析、预测执行、乱序执行与超标量),这些技术最先出现在英特尔奔腾Pro处理器、英特尔奔腾II处理器和英特尔奔腾III处理器的P6微架构中。在英特尔NetBurst微体系结构中,英特尔推出了高级动态执行引擎 —一个非常深、用以保持处理器执行单元不断执行指令的乱序预测执行引擎。该微体系结构还采用了增强的分支预测算法来减少分支出错的次数。

  现在对于英特尔酷睿微体系结构,英特尔通过英特尔宽区动态执行大幅增强了这一能力。它可以让每个时钟周期执行更多的指令,以缩短执行时间并改进能效。每个执行内核将变得更加宽阔,这样它们就可以同时获取、分配、执行和返回达4条完整的指令。(英特尔的移动和英特尔NetBurst微体系结构每次可处理3条指令)。进一步提高效率的特性包括可以进一步提高执行灵活性的更精确的分支预测、更深的指令缓冲区,以及可以缩短执行时间的其它特性。

  其中一项可以缩短执行时间的特性就是微融合。在前几代处理器中,每条进入的指令均会被单独地解码和执行。微融合可以在解码期间将常用的指令对(如条件分支(conditional jump)后的比较)融合为单个内部指令(微操作)。这样2条程序指令就可以作为1个微操作执行,以减少处理器必须执行的整体工作量。这增加了给定时间内可以运行的全部指令数量,或者减少了运行一定指令数量的时间。通过在更短的时间内完成更多的任务,微融合提高了整体性能和能效。

  英特尔酷睿微体系结构还包含增强的运算逻辑单元(ALU),以进一步支持微融合。

  它能够在单个周期内执行组合的指令对,从而使性能得到提升。

  英特尔酷睿微体系结构还改进了微操作融合 — 这是一种最先应用于英特尔奔腾M处理器的高能效技术。在现代主流处理器中,×86程序指令(微操作)在送往处理器管道接受处理之前,会被细分为多个组成部分,即微操作。微操作融合将“融合”源自相同宏操作中的微操作,以减少需要执行的微操作数量。微操作数量的减少可使时序安排工作更加高效,从而实现更低的功率和更高的性能。研究显示,微操做融合可使乱序逻辑处理的微操作数量减少10%以上。在英特尔酷睿微体系结构中,可以内部融合至处理器的微操作数量将进一步增多。

  7解析英特尔 酷睿 微体系结构 白皮书

  图2 通过英特尔酷睿微体系结构的英特尔宽区动态执行,多核处理器中的每个执行内核都更加宽阔。这样每个内核均可以同时获取、分配、执行和返回4条完整的指令。带有4个内核的单枚多核处理器就可以同时获取、分配、执行和返回16条指令。

  英特尔宽区动态执行每个内核高效的14阶管道;更深的缓冲区;4宽区-解码执行;4宽区-微操作执行

  微融合与宏融合

  增强的ALU

  内核1内核2

  指令获取与预解码

  执行

  调度程序

  回写单元

  (重新排序缓冲区)

  重命名/分配

  解码

  指令队列

  指令获取与预解码

  执行

  调度程序

  回写单元

  (重新排序缓冲区)

  重命名/分配

  解码

  指令队列

  性能

  能源

  优势

  更宽的执行

  全面提升

  每个内核均支持

  

(责任编辑:苏美玲)



共找到 35,941,202 个相关新闻.


 合作伙伴
NOKIA

Copyright © 2006 Sohu.com Inc. All rights reserved. 搜狐公司 版权所有