Intel 现代CPU 结构与技术.ppt

上传人:lawfemale396 文档编号:376472 上传时间:2018-10-08 格式:PPT 页数:70 大小:529.96KB
下载 相关 举报
Intel 现代CPU 结构与技术.ppt_第1页
第1页 / 共70页
Intel 现代CPU 结构与技术.ppt_第2页
第2页 / 共70页
Intel 现代CPU 结构与技术.ppt_第3页
第3页 / 共70页
Intel 现代CPU 结构与技术.ppt_第4页
第4页 / 共70页
Intel 现代CPU 结构与技术.ppt_第5页
第5页 / 共70页
亲,该文档总共70页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Intel 现代CPU 结构与技术,东南大学计算机学院 任国林 Email:,2,2018/10/8,讲座内容:, CPU结构与性能P CPU结构与技术P4 CPU结构与技术多核CPU结构与技术,3,2018/10/8,第一部分 CPU结构与性能,4,2018/10/8,一、冯诺依曼模型与8086 CPU,1、冯诺依曼模型与程序执行过程,冯诺依曼模型核心:存储程序原理、程序控制流思想,回下页,回22页,回29页,5,2018/10/8,2、8086 CPU结构,结构特征:通用寄存器结构,由EU及BIU组成;16位机器字长、20位地址、实地址存储管理,指令执行过程:由串行的IF、ID、OF、EX

2、、WB阶段组成,转上页,转9页,6,2018/10/8,二、计算机系统性能及影响因素,1、计算机系统性能指标,响应时间:指从任务输入结果输出的总时间即T响应=TCPU+TIO,TCPU=INCPITC=INT指令,其中IN为程序指令数,指令所需时钟周期数CPI=(CPIi)/IN,吞吐率:指单位时间内可处理的任务个数即吞吐率=n(T响应),其中n为任务个数,回下页,回12页,7,2018/10/8,软件因素:*编译程序源程序目标程序的翻译效率(如IN大小)*操作系统软硬件的管理效率(如多任务切换时间),2、影响计算机系统性能的因素,硬件因素:*指令系统指令系统指令的数量及功能*CPU结构指令/

3、程序的执行效率(如步骤、CPIi)*存储系统MEM访问的延迟与带宽*部件组成功能实现延迟(如主频1/TC),转上页,回下页,8,2018/10/8,3、提高计算机硬件系统性能的方法,提高性能的方法:更快的速度、并行工作方式,硬件方面的优化思路:*提高指令系统性能增加新功能指令等*提高主频改进器件、电路等技术*改进结构优化CPI(Cycles per Instruction)提高ILP(Instruction Level Parallel)*提高OS效率增加便于OS工作的相应硬件*提高访存速度选择快速器件、改进MEM结构*提高I/O速度采用I/O接口、改进I/O方式等,冯诺依曼模型的性能瓶颈:C

4、PU-MEM、指令串行执行!,结构与技术是硬件性能提高的基本保证!,转上页,9,2018/10/8,三、Intel CPU结构与技术的发展概述,(1)强化CPU部件优化部件性能:增加CPU字长、提高主频、多总线通路增加指令功能:扩展指令系统(需相应增加硬件),1、操作级结构与技术的发展,转5页(单总线),10,2018/10/8,(2)改进存储系统采用虚拟存储器:有效支持多任务OS(减轻程序员负担);增设快表提高地址变换速度,回下页,11,2018/10/8,增设Cache多级Cache:利用程序访存局部性规律,提高访存速度(弱化CPU-MEM瓶颈)及性能-价格比(容量Cache容量MEM),

5、改善系统总线性能:提高总线时钟频率、增加A/D宽度、多级总线等越靠近CPU速度越快,转上页,回17页,12,2018/10/8,(3)改进CPU结构开发操作级并行性:有流水线及超级流水线技术流水线技术:指令执行各步骤重叠,减少程序执行时间,需解决问题:结构相关(资源使用冲突)指令间的数据相关及控制相关提高执行部件EX利用率,转6页,回下页,回14页,回17页,13,2018/10/8,开发指令级并行性:有VLIW、超标量、SIMD等技术,2、指令级结构与技术的发展,VLIW技术:流水指令包含多种操作,提高EX的利用率,需解决问题(新增):目标代码效率(即编译程序效率)VLIW已基本不用,转上页

6、,回下页,14,2018/10/8,需解决问题(新增):数据存取宽度支持新数据类型,需解决问题(新增):多I、D并行存取更严重的数据相关,超标量流水技术:多条指令并行流水,SIMD流水技术:流水指令可处理多个数据,转上页,转12页(单流水线),15,2018/10/8,开发程序级并行性:有多线程(MT)、超线程(HT)等技术即同时多线程(SMT),回下页,3、程序级结构与技术的发展,回47页,回68页,16,2018/10/8,4、CPU级结构与技术的发展,开发CPU级并行性:有多CPU、多核CPU等技术,多核CPU与超线程CPU:*超线程CPU多个逻辑CPU(要求资源使用不冲突)*多核CPU

7、多个物理CPU(资源使用不会冲突),转上页,17,2018/10/8,1、流水线的结构相关处理,L1 Cache采用哈佛结构:即I-Cache、D-Cache分离,转12页(结构相关),转11页(L1),四、流水线实现时的相关处理,回下页,*效果避免了取指段与取数段/写回段间的操作冲突,减轻了L1 Cache与L2 Cache间的访问冲突概率,18,2018/10/8,增设指令预取缓冲器及数据存储缓冲器:*指令预取缓冲器进一步减少了取指段与数据段L1级Cache不命中时的访问冲突概率*数据存储缓冲器实现“零等待写”,避免了流水线中取数段与写回段的操作冲突零等待写写无延迟,无取Cache操作时再

8、写,转上页,L1 Cache冲突处理:I-Cache的访问优先级D-Cache,19,2018/10/8,处理方法:有后推法、相关专用通路法、异步流动法3种,回下页,2、流水线的数据相关处理,(1)先写后读(RAW)相关及处理,回32页,20,2018/10/8,转上页,(2)先读后写(WAR)及写-写(WAW)相关及处理WAR及WAW数据相关因采用异步流动法而产生(见上图),处理方法:动态调度方法即存在RAW、WAR、WAW相关的指令等待,无相关指令先执行,避免了WAR、WAW相关*结构需求用指令窗口暂存的是已译码指令串,取指/译码(IF/ID)速度执行(EX)速度,回32页,21,2018

9、/10/8,处理方法:后推法、优化延迟转移法、预测(猜测)法,预测测法:有静态预测法、动态预测法两种*静态预测按指令类型或寻址方式猜测转移方向*动态预测按分支指令执行历史猜测转移方向*应用有历史的分支指令用动态法,否则用静态法,3、流水线的控制相关处理,后推法:取指部件一直等待,直到相关消除(见上图),22,2018/10/8,(分支)预测法实现原理:*转移历史保存用转移目标缓冲器BTB保存,*猜测实现IF段或ID段预测方向,EX段更新转移历史,回28页,转4页(PC),23,2018/10/8,*预测算法静态预测(如下表),动态预测(如下图),*预测法的后续处理用后援寄存器保存可能被破坏的状

10、态(及数据)预测指令的执行只完成到执行段(EX)确认预测正确后才进行写回段(WB),24,2018/10/8,第二部分 P CPU结构与技术,25,2018/10/8,结构特征:*哈佛结构I-Cache、D-Cache分离(Pentium已有)*双独立总线(DIB)结构MEM总线与L2 Cache总线并行*动态执行技术由多路分支预测、数据流分析、推测执行3大技术组成*超标量流水结构3路超标量、12级流水结构,转下页,一、P CPU结构特征,回28页,回37页,26,2018/10/8,回上页,回37页,回39页,回44页,回下页,回36页,27,2018/10/8,Pentium的Cache结

11、构:贯通式Cache(不命中时再访问主存)TCPU访存命中Cache =TMEM地址Cache地址变换+TCache阵列TCPU访存不命中Cache=TMEM地址Cache地址变换+TMEM阵列+TCache阵列,P的Cache结构:DIB结构的Cache(BIU以2种频率同时访问)TCPU访存命中Cache =TMEM地址Cache地址变换+TCache阵列TCPU访存不命中Cache=TMEM阵列,二、P CPU的双独立总线(DIB)结构,转上页,28,2018/10/8,三、P CPU的动态执行技术,1、多路分支预测技术,基本原理(回顾):*指令预取时用指令地址查BTB命中时,采用动态预

12、测法预取后继指令*指令译码时对BTB不命中的转移指令,采用静态预测法预测,预测为转移时进行误预测处理*指令执行完成时更新转移指令的转移历史,误预测时需进行相应处理,即可以对分支指令(转移指令)的多个历史模式进行预测,是Pentium分支预测技术的发展,转25页(3点),转22页(预测过程),29,2018/10/8,2、数据流分析技术乱序执行技术,(1)乱序执行思想,乱序执行思想:用指令窗口按序保存多条指令;优先执行操作数就绪的指令(数据流技术),转4页(PC及指令格式),回下页,30,2018/10/8,(2)分布式动态调度技术(Tomasulo算法)核心是用寄存器重命名方法解决RAW、WA

13、R、WAW相关,转上页,回下页,回35页,31,2018/10/8,分布式动态调度CPU基本结构图:,转上页,回下页,回33页,回34页,32,2018/10/8,*指令数据关系部件关系的实现数据产生部件(RS/FLB):标有站号(指示数据所在位置)数据接收/存储部件(RS/SDB/FLR):设有站号项及忙位注:站号项指示所接收数据的对应数据产生部件忙 位=1时,数据项无效(尚未接收前趋指令未完成)=0时,数据项可用(已接收从站号项部件处),*当前指令译码时的控制器动作指令操作:在RS中占用一行(数据就绪时送ALU)源操作数:将相应部件的数据项放入RS如对应REG忙位=0时,指令所在RS行源1

14、值对应REG数据项对应REG忙位=1时,产生了RAW相关,转上页,目的操作数:设置相应接收部件的站号项及忙位如对应REG忙位=0时,站号项指令所在RS站号、忙位1对应REG忙位=1时,产生了WAW相关,转19页,转20页,回下页,33,2018/10/8,RAW、WAR、WAW相关的检测及调度准备:*RAW相关的检测及调度准备(当前指令)译码时相关存在条件指令源操作数对应的REG忙位=1时调度准备取REG的站号项到RS中 直接取源头数据(REG重命名)控制器的动作 同时接收CDB(相关专用通路法),*WAR相关的检测与消除(当前指令)译码时相关存在条件指令源操作数对应的REG忙位=0时调度准备

15、取REG的数据项到RS中乱序执行不影响当前指令(WAR相关消除),*WAW相关的检测与消除译码时相关存在条件指令目的操作数对应的REG忙位=1时调度准备REG的站号项指令对应RS站号(忙位已=1)REG只接收最后指令的数据(REG重命名),转上页,转31页(图),回下页,三角债中间者还借条,钱落袋为安,再借钱时作废旧借条,34,2018/10/8,动态调度的实现:-派遣次序即执行次序*乱序派遣实现RS使操作数已就绪的指令被派遣*RAW相关后推法实现RS使操作数未就绪的指令等待,F1站号项0001(等待接收访存有延迟FLB1的数据) F1忙位项1(操作未完成、数据不可用),M1源1站号项0001

16、(直接接收FLB1,REG重命名;用CDB同时接收,相关专用通路法) M1源2站号项0010(等待接收FLB2的数据),M2源1值项F2数据项、源2值项F3数据项 F4站号项1001(M2站号,接收M2结果)、F4忙位项1,F1站号项1000(M1站号,只接收M1结果,REG重命名) F1忙位项1(操作未完成、数据不可用),RS的调度结果:M2(I3)先于M1(I2)执行(乱序派遣数据流分析+后推法),转31页(图),转上页,35,2018/10/8,3、推测执行技术,目标:支持多路分支预测技术及数据流分析技术思想:允许用预测方法取指令、并允许乱序执行指令必须按序确认后再写结果,实现:用ROB

17、作指令窗口,实现动态调度及暂存结果;用“确认”段实现误预测处理或传递结果,转30页,回下页,回37页,36,2018/10/8,支持推测执行的CPU结构及“确认”段:,转上页,回下页,回44页,转26页(P总图),37,2018/10/8,四、P CPU的超标量流水技术,超标量流水线结构:3条独立的12级标量流水线,转25页,转上页,转35页,转26页,回41页,回43页,回67页,38,2018/10/8,第三部分 P4 CPU结构与技术,39,2018/10/8,一、P4 CPU结构特征,架构:Netbrust架构(P CPU为P6架构)核心:WillametteNorthwood(Gal

18、latin)Prescott,1、P4 CPU结构特点,转26页,回41页,回42页,回43页,40,2018/10/8,追踪Cache技术(Execution Trace Cache)超级流水线技术(Hyper Pipelined Technology)高级动态执行技术(Advanced Dynamic Execution)高级传输缓存(Advanced Transfer Cache)高速执行引擎(Rapid Execution Engine)高速前端总线(Faster System Bus)SSE2指令集(Streaming SIMD Extensions 2)EM64T技术(Extend

19、ed Memory 64 Technology)超线程技术(Hyper Threading Technology)虚拟化技术(Virtualization Technology),2、P4 CPU技术特点,41,2018/10/8,二、P4 CPU的追踪Cache技术,P流水线的弱点(P4的观点):分支预测失败时,需从L1 I-Cache(保存x86指令)取指/译码,取指/译码开销不可避免,P4流水线的方案:用追踪Cache(保存已译码的uop)取代L1 I-Cache,可部分避免分支预测失败时的取指、译码开销,追踪Cache结构:每行6个op、8路组相联,转37页(P流水图),转39页(P4

20、总图),42,2018/10/8,三、P4 CPU的超级流水技术,1、P4 CPU前端,P4前端组成:由x86指令的取指(含BTB)、译码、op存入追踪Cache组成(不作为流水线的段)P4流水线按追踪Cache地址访问并执行uop,P4前端工作流程:,转39页(P4总图),43,2018/10/8,2、P4 CPU流水线,流水线段数:20级(Prescott为31级)、3路超标量流水,特点:优点深流水线,利于提高主频及性能缺点段数越多,误预测后果越严重!,追踪Cache取:类似与P从I-Cache取,转37页,转39页,回下页,44,2018/10/8,REG分配与重命名:ROB有126行、

21、数据与指令状态分开,uop队列与调度:分布式,队列按序、端口乱序,转36页,转26页,转上页,回46页,回68页,45,2018/10/8,流水线CPU结构图:,回下页,回47页,46,2018/10/8,四、P4 CPU的其他技术,1、高级动态执行技术,多路分支预测技术方面:*优化增加BTB容量及历史位数,改进预测算法*革新两级BTB(IA/uop级,uop级可更精确),数据流分析技术方面:*优化增加ROB容量(42126行)*革新数据、指令状态分离(可减少Alloc段冲突及与REG/MEM间数据移动概率),推测执行技术方面:*革新分布式调度及快速ALU调度,MEM操作流水化,转上页,转44

22、页,47,2018/10/8,2、其他技术,高级传输缓存(ATC):L1 D-Cache与L2 Cache间总线宽度为256bit,TP4块传输=2Tc(TP块传输=8Tc),高速执行引擎:Fast ALU周期为1/2Tc,EX段6uop/Tc,高速前端总线(FSB):利用“四倍速”技术,100MHz的总线带宽=64bit/8*100MHz*4=3.2GB/s(需双通道+倍频支持),SSE2技术:包含SSE功能,新增144条128位多媒体指令,超线程(HT)技术:资源不冲突时,可同时运行2个线程,EM64T技术:将IA32的8个REG扩展为64位、新增8个64位REG,可兼容32位和64位操作

23、、允许使用更大的主存空间,虚拟化(VT)技术:通过硬件支持多个虚拟机实现,转45页,转15页(HT),48,2018/10/8,P及三种核心P4 CPU比较,回下页,回52页,49,2018/10/8,P及三种核心P4 CPU比较(续),转上页,50,2018/10/8,第四部分 多核CPU结构与技术,51,2018/10/8,一、多双核CPU的发展过程,1、Intel多核CPU种类,提高程序级并行性:MT CPUHT CPU双CPU双核CPU,多核CPU架构与核心:,52,2018/10/8,2、NetBrust架构双核CPU,产生原因:是应对AMD的Toledo双核CPU的临时产品存在问题

24、:功耗、散热、FSB冲突、L2 Cache共享消亡得比P4还要快!,是两个NetBrust架构Prescott核心的P4 CPU的松耦合,转48页(P4功耗),53,2018/10/8,3、Core架构双核CPU,Yonah核心:是P的Mobile架构核心的发展,完全摆脱了NetBrust架构(但用其优秀技术)*Mobile架构有Banias(迅弛)、Dothan等核心,功耗低、散热性好,Core Dual是Intel真正意义的第一个双核CPU!,Yonah核心结构与技术特征:(结构图见下页)*超标量流水线3路、有效12级*动态执行技术扩充P CPU相关部件容量*微指令融合(Micro-op

25、Fusion)技术可减少uop数量,转下页,54,2018/10/8,回上页,回56页,55,2018/10/8,二、Core 2 Dual CPU结构与技术,1、Core 2 Dual CPU结构与技术特征,结构及参数:结构图见下页,技术特征:有高级智能高速缓存、智能内存访问、宽位动态执行、高级数字媒体增强、智能功率能力5大技术,转下页,56,2018/10/8,回上页,转54页,回下页,回62页,回64页,57,2018/10/8,2、高级智能高速缓存技术(Advanced Smart Cache),特点:各Core可动态支配L2 Cache,可提高L2命中率;减少FSB使用频率(通信量)

26、;根据需要可关闭部分L2 Cache,以降低功耗,技术核心:每个Core可动态使用共享的L2 Cache,转上页,回62页,58,2018/10/8,3、智能内存访问技术(Smart Memory Access),预取器设计:*预取器个数(2个L1-D+1个L1-I)2核+2个L2=8个,技术核心:根据软件需求,用预取器预取指令和数据,*预取实现借用Store端口预取(比Load优先级低),回下页,59,2018/10/8,内存消歧算法: -提高预取效率的一种方法*算法核心允许预取Store指令后的数据,*需解决问题不同Core/CPU预取Store后地址导致的不一致性问题其他CPU的Stor

27、e可能改变数据,转上页,60,2018/10/8,(1)宏指令融合(Macro-Fusion)技术CPU内部增加新操作类型,将多条指令合并为1个操作,特点:更大解码带宽、更少空间占用、更低调度负载,4、宽位动态执行技术(Wide Dynamic Execution),回下页,回67页,61,2018/10/8,(2)微指令融合(Micro-Op Fusion)技术CPU内部优化uop控制,将多个uop合并为1个uop,(3)指令融合技术实现原理*译码译码前先进行检测,适时合并指令/微操作*部件增加相关部件功能,使之适应宏指令融合要求*控制优化uop控制,使之适应微指令融合要求,转上页,62,2

28、018/10/8,特点:每个Tc最多可处理3条SIMD指令Core Dual需要6个Tc内部宽数据通道为宏/微指令融合提供了条件,5、高级数字媒体增强技术(Advanced Digital Media Boost),技术核心:增加多媒体的处理能力及并行度,6、智能功率能力技术(Intelligent Power Capability),技术核心:逻辑控制机构能独立控制各执行部件电源,转56页,转57页,63,2018/10/8,三、Core i7 CPU结构与技术,1、Core i7 CPU结构与技术特征,CPU总体结构:Nehalem架构,原生4核,*CPU级技术特征全新缓存设计(3级Cac

29、he),整合内存控制器(3通道IMC),快速通道互连(1n个QPI),回65页,64,2018/10/8,CPU内核结构:在Core架构基础上,重点改进内部技术,*内核级技术特征优化流水线、同时多线程(SMT)、SSE4.2指令、内核加速模式等9大技术,转56页(Core 2),回68页,回67页,65,2018/10/8,2、整合内存控制器(IMC)技术,IMC特点:CPU独占内存带宽,缓解CPU-MEM瓶颈;支持3个MEM通道,进一步提升访存性能;通过QPI可远程访问MEM(性能与FSB相近),转63页,回下页,66,2018/10/8,3、快速通道互连(Quick Path Interc

30、onnect)技术,QPI总线:基于点-点互连的2条相反方向的单向链路,QPI技术特点:单个QPI总线带宽是FSB的2.5倍(访问远程MEM延迟与FSB相当)利用内部Hub及QPI总线,系统扩展不影响性能,转上页,67,2018/10/8,4、优化流水线的技术,改进循环流监测机制:*循环流x86程序中的循环语句(含循环体),64位宏指令融合技术:支持64位宏指令融合(Core 2为32位宏指令融合)、增加了可融合宏指令个数,优化分支预测技术:采用二级BTB、返回堆栈缓冲器(RSB)满时可导入ROB,平衡BTB/RSB中指令数量与速度的矛盾,*循环流处理P4从追踪Cache中取uop思想的再现,转37页(RSB),转60页(宏融合),转64页,68,2018/10/8,5、同时多线程(SMT)技术 -卷土重来的HT技术,转64页,转15页(MT),转44页(ROB划分),69,2018/10/8,6、内核加速模式(Turbo Mode),技术核心:各Core的电压及时钟频率可独立控制PCU根据各Core工作状态按一定模式控制,PCU的工作模式:有三种模式,提升频率步长=133MHz,70,2018/10/8,谢谢大家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学课件 > 大学教育

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1