1、系统分析师-计算机组成与体系结构及答案解析(总分:90.00,做题时间:90 分钟)按照 Flynn 的分类,奔腾 P的 MMX 指令采用的是 (1) 模型,而当前的高性能服务器与超级计算机则大多属于 (2) 类。(分数:2.00)A.SISDB.SIMDC.MISDD.MIMDA.SISDB.SIMDC.MISDD.MIMD1.微指令大体上可分为两类:水平型微指令和垂直型微指令。在下列几项中,不符合水平型微指令特点的是 (3) 。(分数:1.00)A.执行速度快B.并行度较低C.更多地体现了控制器的硬件细节D.微指令长度较长在下列体系结构中,最适合于多个任务并行执行的体系结构是 (4) 。流
2、水线控制方式下, (5) 是全局性相关,流水线机器对全局性相关的处理不包括 (6) 。静态流水线是指 (7) 。假设并行(阵列)处理器的 16 个处理器编号为 015,采用单级 Cube3网络互联时,与 13 号处理器相连的处理器的编号为 (8) 。在下列几项中,不符合 RISC 指令系统特点的是 (9) 。(分数:6.00)A.流水线向量机结构B.分布存储多处理机结构C.共享存储多处理机结构D.堆栈处理机结构A.转移指令引起的相关B.先写后读相关C.先读后写相关D.写一写相关A.猜测法B.提前形成条件码C.设置相关专用通道D.加快短循环程序的执行A.只有一种功能的流水线B.功能不能改变的流水
3、线C.可同时执行多种功能的流水线D.在同一时间段内,只能完成一种功能的流水线A.1B.5C.7D.14A.指令长度固定,指令种类少B.寻址方式种类丰富,指令功能尽量增强C.设置大量通用寄存器,访问存储器指令简单D.选取使用频率较高的一些简单指令编号为 0、1、1、3、15 的 16 个处理器,采用单级互联网络连接。当互联函数为 Cube3时,11 号处理器连接到 (10) 号处理器上。若采用 Shuffle 互联函数,则 11 号处理器应连接到兰 (11) 号处理器上。(分数:2.00)A.2B.3C.7D.9A.2B.5C.7D.11某流水线浮点加法器分为 5 级,若每一级所需要的时间分别是
4、 6ns、7ns、 8ns、9ns 和 6ns,则此流水线的最大加速比为 (12) 。若每一级的时间均为 7ns,则最大加速比为 (13) 。(分数:2.00)A.2.0B.4.0C.4.5D.5.2A.4.1B.5.0C.5.6D.6.2在 CPU 和主存间设置 cache 存储器主要是为了 (14) 。若使用基于数据内容进行访问的存储设备作为cache 时,能更快决定是否命中。这种地址映射方法称为 (15) 映射。CPU 向 cache 执行写操作时,可以同时写回主存储器或者仅当 cache 中该数据被淘汰时才写回主存储器,前者称为 (16) ,而后者称为 (17) 。若 cache 的存
5、取速度是主存存取速度的 10 倍,且命中率可达到 0.8,则 CPU 对该存储系统的平均存取周期为 (18) T(T 为主有的存取周期)。(分数:5.00)A.扩充主存容量B.解决 CPU 和主存的速度匹配C.提高可靠性D.增加 CPU 访问的并行度A.相联B.内容C.直接D.间接A.写缓B.写映射C.写回D.写直达A.写缓B.写映射C.写回D.写直达A.0.1B.0.19C.0.21D.0.28在关于主存与 cache 地址映射方式中,叙述 (19) 是正确的。在分析 cache 对机器性能的影响时,叙述 (20) 是正确的。(分数:2.00)A.全相联映射方式适用于大容量 cacheB.直
6、接映射是一对一的映射关系,组相联映射是多对一的映射关系C.在 cache 容量相等条件下,直接映射方式的命中率比组相联映射方式有更高的命中率D.在 cache 容量相等条件下,组相联映射比直接映射方式有更高的命中率A.cache 容量比主存小许多,决定机器访问存储器的速度是主存,cache 只起次要作用B.cache 的主要作用是减少调用子程序的开销C.核心程序法是评价计算机性能的方法之一,由于它程序短,访问存储器的局部性较大,cache 的命中率比一般程序高D.奔腾 PC 机采用两级 cache 结构,一级放系统程序,另一级放用户程序2.DVD-ROM 光盘最多可存储 17GB 的信息,比
7、CD-ROM 光盘的 650MB 大了许多。DVD-ROM 光盘是通过 (21) 来提高存储容量的。(分数:1.00)A.减小读取激光波长,减小光学物镜数值孔径B.减小读取激光波长,增大光学物镜数值孔径C.增大读取激光波长,减小光学物镜数值孔径D.增大读取激光波长,增大光学物镜数值孔径3.为了提高计算机的性能,采用 cache、虚拟存储器等多项技术。 (22) 不属于 cache 的特征。(分数:1.00)A.为了提高速度全部用硬件实现B.可以显著提高计算机的主存速度C.可以显著提高计算机的主存容量D.对程序员是透明的某计算机的 cache 采用相联映像,cache 容量为 16 千字节,每块
8、 8 个字,每个字 32 位,并且将 cache 中每 4 块分为一组。若主存最大容量为 4GB 且按字节编址,则主存地址应为 (23) 位,组号应为 (24) 位。若 cache 的命中率为 0.95,且 cache 的速度是主存的 5 倍,那么与不采用 cache 相比较,采用 cache 后速度大致提高到 (25) 倍。(分数:3.00)A.24B.32C.36D.40A.5B.6C.7D.8A.3.33B.3.82C.4.17D.4.52不通过键盘,直接将语言和文字输入计算机成为知道其含义可由计算机处理的代码,是计算机信息输入的一个重要发展方法。这个过程中的核心环节是 (26) 。首先
9、要通过传感器将原始的语言和文字转换成电信号,再经 (27) 将其变成便于计算机处理的数字量。这样获取的信息先要经过预处理, (28) 并进行分段,再经过 (29) ,与已有的标准模型库进行比较,以 (30) 。(分数:5.00)A.频谱分析B.分类决策C.数模转换D.识别辨认A.频谱分析B.分类决策C.数模转换D.模数转换A.频谱分析B.分类决策C.数模转换D.削弱噪声A.频谱分析B.分类决策C.数模转换D.特征提取A.频谱分析B.分类决策C.数模转换D.削弱噪声为了加快打印速度,一般打印机挂接在主机 I/O Bus 的 (31) 上。汉字打印输出是将需要打印的汉字文本,预先送入 (32) 。
10、打印输出时,再从 (32) 逐个取出汉字 (33) 。目前,汉字打印机已向着在打印机内部装入由 (34) 构成的汉字 (35) 方向发展。只需将要打印的汉字 (33) 直接送往打印机即可,从而提高了系统的工作效率。(分数:5.00)A.串行接门B.汉字终端C.并行接口D.MODEMA.打印机B.打印机接口C.cacheD.主存的打印缓冲区A.内码B.输入码C.传输码D.国标码A.RAM 器件B.ROM 芯片C.寄存器堆D.软盘A.字模库B.显示系统C.知识处理D.CIMS汉字终端是一种独立主机的输入输出设备。它不仅具有汉字输入、显示和打印功能,而且还具有汉字造字、编辑和通信功能。汉字终端与主机
11、一般通过 RS-232C 以 (36) 方式传送 (37) ,因此两者之间至少应有 (38) 根连接线。汉字终端在设置通信参数时应设为 (39) ,其字模库存放在 (40) 中。(分数:5.00)A.并行B.串并行C.串行异步D.串行同步A.字形码B.输入码C.汉字内码D.交换码A.3B.8C.16D.24A.7 位数据无校验位B.8 位数据无校验位C.7 位数据加一位校验位D.8 位数据加一位校验位A.数据库B.RAMC.磁盘D.ROM 或 EPROMSCSI 是一种计算机系统的通用输入输出接口标准。SCSI 接口常用来连接 (41) 设备,一条 SCSI 总线可连接多至 (42) 台 SC
12、SI 设备。SCSI I 的最大同步传输速率 (43) MB/s。SCSI 定义了 2 种提高速度的选择:Fast SCSI 和 Wide SCSI。数据通路为 8 位的 Fast SCSI 的最大同步传输速率为 (44) MB/s,数据通路为 16 位的 Wide SCSI 的最大同步传输率为 (45) MB/s。(分数:5.00)A.鼠标器B.键盘C.显示器D.硬盘A.5B.8C.10D.20A.5B.8C.10D.20A.5B.8C.10D.20A.5B.8C.10D.20目前,除了传统的串口和并口外,计算机与外部设备连接的标准接口越来越多。例如, (46) 是一种连接大容量存储设备的并
13、行接口,数据宽度一般为 32 位,且允许设备以雏菊链形式接入; (47) 是一种可热插拔的高速串行设备接口,也可允许设备以雏菊链形式接入; (48) 则用来连接各种卡式设备,已广泛使用于笔记本电脑。(分数:3.00)A.VESAB.USBC.SCSID.PCIA.PCMCIAB.USBC.SCSID.EISAA.PCMCIAB.VESAC.EISAD.PCI在具有通道处理机的系统中,用户进程请求启动外设时,由 (49) 根据 I/O 要求构造通道程序及通道状态字,并将通道程序保存在 (50) ,然后执行启动“I/O”命令。(分数:2.00)A.用户进程B.应用程序C.通道D.操作系统A.内存B
14、.硬盘C.通道D.外部设备4.I/O 控制方式有多种, (51) 一般用于大型、高效的计算机系统中。(分数:1.00)A.查询方式B.中断方式C.DMA 方式D.PPU 方式通道处理机在数据传送过程中,通道选择一次设备需要的时间为 4.8s,传送一个字节数据需 0.2s。某设备每隔 500s 发出一次传送一个字节数据的请求。该通道处理机进行字节多路通道传送时,通道极限流量应为 (52) 。在理想的情况下,此通道上最多可挂接 (53) 台这样的设备。(分数:2.00)A.100KB/sB.200KB/sC.250KB/sD.300KB/sA.50B.100C.150D.200浮点数加法流水线运算
15、器依次由减阶、对阶、 (54) 和尾结果规格化四个部件组成。设每个部件处理时间T 相等,T=2ns。当处理两个浮点数向量和 A i=Bi+Ci(i=0,1,11)时,所需要的总时间为 (55) ns,平均吞吐率为 (56) 分量/ns,流水线加工效率为 (57) 。从开始算起,流水加工部件经过 (58) ns,就能得到前七个分量的结果。(分数:5.00)A.减尾B.移位C.尾加D.阶加A.10B.20C.30D.40A.0.1B.0.2C.0.3D.0.4A.0.1B.0.2C.0.3D.0.8A.10B.20C.30D.40计算机可以按照指令流和数据流来分为四类。传统的顺序处理的计算机属于
16、(59) 类。其余三类都是计算机体系结构中发展并行性的产物,在处理器操作级并行的并行处理机属于 (60) 类,在指令、任务级并行的多处理机系统属于 (61) 类。多处理机系统可以由多个处理机通过互联网络与共享存储器连接构成,这类系统的互联网络的基本形式按其结构和设备由简到繁排序是 (62) ,按其系统传输率由高到低排序是 (63) 。(分数:5.00)A.MIMDB.MISDC.SIMDD.SISDA.MIMDB.MISDC.SIMDD.SISDA.MIMDB.MISDC.SIMDD.SISDA.多级互联网络、交叉开关结构、总线结构B.交叉开关结构、多级互联网络、总线结构C.总线结构、交叉开关
17、结构、多级互联网络D.总线结构、多级互联网络、交叉开关结构A.多级互联网络、交叉开关结构、总线结构B.交叉开关结构、多级互联网络、总线结构C.总线结构、交叉开关结构、多级互联网络D.多级互联网络、总线结构、交叉开关结构5.某磁盘的转速为 7200 转/分,传输速度为 4MB/s,控制器开销为 1ms。要保证读或写一个 512B 的扇区的平均时间为 11.3ms。那么,该磁盘的平均寻道时间最大应不超过 (64) ms。(分数:1.00)A.3.9B.4.7C.5.5D.6.1若某分页管理的虚拟存储器共有 8 个页面,每页为 1024B,实际主存为 4096B,采用页表法进行地址映像。若页表的内容
18、如表 1-2 所示,则发生页面失效的全部虚页号为 (65) ,虚拟地址 1023 所对应的主存实地址页内偏移地址为 (66) ,主存实地址为 (67) 。表 1-2 页表的内容虚页号 0 1 2 3 4 5 6 7实页号 3 1 2 3 2 1 0 0装入位 1 1 0 0 1 0 1 0(分数:3.00)A.2、3、5、7B.0、1、4,6C.1、5、6、7D.0、2、3、4A.656B.1023C.2047D.4095A.656B.1023C.2047D.40956.数据处理流水线如图 1-4 所示。若每隔t 流入一个数据,连续流入四个数据,则该流水线的实际吞吐率为 (68) 。(分数:1
19、.00)A.2/(7t)B.3/(7t)C.4/(7t)D.5/(7t)7.已知X/2 补 =C6H,计算机的机器字长为 8 位二进制编码,则x 补 = (69) (分数:1.00)A.8CHB.18HC.E3HD.F1H内存地址从 AC000H 到 C7FFFH,共有 (70) K 个地址单元,如果该内存地址按字(16bit)编址,由 28 片存储器芯片构成。已知构成此内存的芯片每片有 16K 个存储单元,则该芯片每个存储单元存储 (71) 位。(分数:2.00)A.96B.112C.132D.156A.4B.8C.16D.24已知某高速缓存 cache 采用组相联映像方式,即组间直接映像,
20、组内全相联映像。假设主存容量为 4096块,每块 256B,高速缓存包含 32 块,分 8 组,每组 4 块。高速缓存的地址变换表应包含 (72) 个存储单元;每个存储单元应能存放 (73) 位二进制数;每次参与相联比较的是 (74) 个存储单元。(分数:3.00)A.8B.16C.32D.48A.7B.8C.9D.10A.4B.8C.12D.168.131-45=53 在 (75) 进制下成立。(分数:1.00)A.六B.七C.八D.九9.利用高速通信网络将多台高性能工作站或微型机互连构成机群系统,其系统结构形式属于 (76) 计算机。(分数:1.00)A.SISDB.MISDC.SIMDD
21、.MIMD某数据处理流水线如图 1-5 所示,若每隔 3t 流入一个数据,连续处理 4 个数据。此数据处理流水线的实际吞吐率为 (77) 。此时该流水线的效率为 (78) 。(分数:2.00)A.4/(12t)B.4/(13t)C.4/(14t)D.4/(15t)A.2/3B.2/5C.2/7D.2/9某计算机主存按字节编址,主存与高速缓存 cache 的地址变换采用组相联映像方式(即组内全相联,组间直接映像)。高速缓存分为 1 组,每组包含 4 块,块的大小为 512B,主存容量为 1MB。构成高速缓存的地址变换表相联存储器容量为 (79) 。每次参与比较的存储单元为 (80) 个。(分数:
22、2.00)A.410bitB.810bitC.411bitD.811bitA.1B.2C.4D.8设指令由取指、分析、执行 3 个子部件完成,并且每个子部件的时间均为t。若采用常规标量单流水线处理机(即该处理机的度为 1),连续执行 12 条指令,共需 (81) t。若采用度为 4 的超标量流水线处理机,连续执行上述 12 条指令,只需 (82) t。(分数:2.00)A.12B.14C.16D.18A.3B.5C.7D.9编号为 0、1、2、3、15 的 16 个处理器,用单级互联网络互联。当互联函数为 Cube3(4 维立方体单级互联函数)时,6 号处理器与 (83) 号处理器相连接若采用
23、互联函数 Shuffle(全混洗单级互联函数)时,6 号处理器与 (84) 号处理器相连接。(分数:2.00)A.15B.14C.13D.12A.15B.14C.13D.1210.假设进行天气预报仅有“晴、云、阴、雨、雪、雾、霜、雹”等天气状况,需要通过某个八进制的数字通信系统传送,每秒钟播报一次,可接受的最低传输速率为 (85) 波特。(分数:1.00)A.1B.2C.3D.811.下面关于 RISC 计算机的论述中,不正确的是 (86) 。(分数:1.00)A.RISC 计算机的指令简单,且长度固定B.RISC 计算机的大部分指令不访问内存C.RISC 计算机采用优化的编译程序,有效地支持
24、高级语言D.RISC 计算机尽量少用通用寄存器,把芯片面积留给微程序12.下面关于计算机 cache 的论述中,正确的是 (87) 。(分数:1.00)A.cache 是一种介于主存和辅存之间的存储器,用于主辅存之间的缓冲存储B.如果访问 cache 不命中,则用从内存中取到的字节代替 cache 中最近访问过的字节C.cache 的命中率必须很高,一般要达到 90%以上D.cache 中的信息必须与主存中的信息时刻保持一致13.关于相联存储器,下面的论述中,错误的是 (88) 。(分数:1.00)A.相联存储器按地址进行并行访问B.相联存储器的每个存储单元都具有信息处理能力C.相联存储器能并
25、行进行各种比较操作D.在知识库中应用相联存储器实现按关键字检索14.下面关于系统总线的论述中,不正确的是 (89) 。(分数:1.00)A.系统总线在计算机各个部件之间传送信息B.系统总线就是连接一个源部件和多个目标部件的传输线C.系统总线必须有选择功能,以判别哪个部件可以发送信息D.系统总线的标准分为正式标准和工业标准15.下面关于超级流水线的论述中,正确的是 (90) 。(分数:1.00)A.超级流水线用增加流水线级数的方法缩短机器周期B.超级流水线是一种单指令流多操作码多数据的系统结构C.超级流水线配置了多个功能部件和指令译码电路,采用多条流水线并行处理D.超级流水线采用简单指令以加快执
26、行速度系统分析师-计算机组成与体系结构答案解析(总分:90.00,做题时间:90 分钟)按照 Flynn 的分类,奔腾 P的 MMX 指令采用的是 (1) 模型,而当前的高性能服务器与超级计算机则大多属于 (2) 类。(分数:2.00)A.SISD B.SIMDC.MISDD.MIMD解析:A.SISDB.SIMDC.MISDD.MIMD 解析:分析 1966 年,Michael.J.Flynn 提出根据指令流、数据流的多倍性特征对计算机系统进行分类(通常称为 Flynn 分类法),有关定义如下:指令流 指机器执行的指令序列。数据流 指由指令流调用的数据序列,包括输入数据和中间结果,但不包括输
27、出数据。多倍性 指在系统性能瓶颈部件上同时处于同一执行阶段的指令或数据的最大可能个数。Flynn 根据不同的指令流一数据流组织方式,把计算机系统分成四类;(1) 单指令流单数据流(SISD) SISD 其实就是传统的顺序执行的单处理器计算机,其指令部件每次只对一条指令进行译码,并只对一个操作部件分配数据。流水线方式的单处理机有时也被当作 SISD。值得注意的是,Inte1 公司的奔腾 P中开始采用 MMX 技术,引进了一些新的通用指令,从某种意义上使用了单指令流多数据流的思想,但是,与 Inte1 公司的前几代产品 (X86/Pentium)相比,其指令序列的执行方式和调用数据的方式没有发生根
28、本性的变化,所以从整体上来看,采用奔腾 P芯片的 PC 机仍属于 SISD 类。(2)单指令流多数据流(SIMD) SIMD 以并行处理机(阵列处理机)为代表,并行处理机包括多个重复的处理单元 PU1PUn,由单一指令部件控制,按照同一指令流的要求为它们分配各自所需的不同数据。相联处理机也属于这类。(3)多指令流单数据流(MISD) MISD 具有 n 个处理单元,按 n 条不同指令的要求对同一数据流及其中间结果进行不同的处理。一个处理单元的输出又作为另一个处理单元的输入。这类系统实际上很少见到。有文献把流水线看作多个指令部件,称流水线计算机是 MISD。(4)多指令流多数据流(MIMD) M
29、IMD 是指能实现作业、任务、指令等各级全面并行的多机系统。多处理机属于 MIMD。当前的高性能服务器与超级计算机大多具有多个处理机,能进行多任务处理,称为多处理机系统,不论是大规模并行处理机 MPP(Massively Parallel Processor)或对称多处理机 SMP (Symmetrical Multi Processor),都属于这一类。Flynn 分类法是最普遍使用的。其他的分类法还有:(1)冯氏分类法 由冯泽云在 1972 年提出,冯氏分类法用计算机系统在单位时间内所能处理的最大二进制位数来对计算机系统进行分类。(2)Handler 分类法 由 Wolfgan Handl
30、er 在 1977 年提出,Handler 分类法根据计算机指令执行的并行度和流水线来对计算机系统进行分类。(3)Kuck 分类法 由 David.1.Kuck 在 1978 年提出,Kuck 分类法与 Flynn 分类法相似,也是用指令流、执行流和多倍性来描述计算机系统特征,但其强调执行流的概念,而不是数据流。奔腾 P中开始采用 MMX 技术,引进了一些新的通用指令,虽然使用了单指令多数据思想,但从整体上说,奔腾 P仍属于 SISD 类。当前的高性能服务器与超级计算机大多具有多个处理器,多任务处理并行处理,基本上都属于 MIMD。1.微指令大体上可分为两类:水平型微指令和垂直型微指令。在下列
31、几项中,不符合水平型微指令特点的是 (3) 。(分数:1.00)A.执行速度快B.并行度较低 C.更多地体现了控制器的硬件细节D.微指令长度较长解析:分析 水平型微指令的主要特征:微指令的长度比较长、微指令中的微操作具有高度的并行性、微指令编码简单,减少了译码时间,使其执行速度快,更多地体现了控制器的硬件细节。垂直型微指令的主要特征:长度短、功能弱、并行度低、编程容易,但微程序长、效率低。在下列体系结构中,最适合于多个任务并行执行的体系结构是 (4) 。流水线控制方式下, (5) 是全局性相关,流水线机器对全局性相关的处理不包括 (6) 。静态流水线是指 (7) 。假设并行(阵列)处理器的 1
32、6 个处理器编号为 015,采用单级 Cube3网络互联时,与 13 号处理器相连的处理器的编号为 (8) 。在下列几项中,不符合 RISC 指令系统特点的是 (9) 。(分数:6.00)A.流水线向量机结构B.分布存储多处理机结构 C.共享存储多处理机结构D.堆栈处理机结构解析:A.转移指令引起的相关 B.先写后读相关C.先读后写相关D.写一写相关解析:A.猜测法B.提前形成条件码C.设置相关专用通道 D.加快短循环程序的执行解析:A.只有一种功能的流水线B.功能不能改变的流水线C.可同时执行多种功能的流水线D.在同一时间段内,只能完成一种功能的流水线 解析:A.1B.5 C.7D.14解析
33、:A.指令长度固定,指令种类少B.寻址方式种类丰富,指令功能尽量增强 C.设置大量通用寄存器,访问存储器指令简单D.选取使用频率较高的一些简单指令解析:分析 流水线向量处理机是用于指令并行执行而不是任务并行执行的体系结构,并不属于多处理机。堆栈处理机用于特别的计算或用作外设的数据读写。这两种结构均不适于多个任务的并行执行。并行处理机可分两种类型,分别为采用分布存储器的并行处理结构和采用集中式共享存储器的并行处理结构。其中分布式存储器的多处理机并行处理结构中,每一个处理器都有自己局部的存储器,只要控制部件将并行处理的程序分配各处理机,它们便能并行处理,各自从自己的局部存储器中取得信息。而共享存储
34、多处理机结构中的存储器是集中共享的,由于多个处理机共享,在各处理机访问共享存储器时会发生竞争。因此,最适合于多个任务并行执行的体系结构是分布存储多处理机结构。在流水线机器中,指令相关、主存操作数相关、通用寄存器组的操作数相关及变址寄存器变址值相关为局部性相关。在具体对局部性相关进行处理时,先写后读相关、先读后写相关和写一写相关都是控制机构能处理的局部性相关的内容。而转移指令引起的相关则会对流水线机器的吞吐能力和效率造成的影响较局部性相关要严重得多,被称为全局性相关。对全局性相关处理时,采用的方法有猜测法、加快和提前形成条件码、加快短循环程序的执行、转移指令迟延执行等。而设置相关专用通道是对局部
35、性相关进行处理时所采取的多种措施之一。静态流水线的定义是指在某一时间内各段只能按一种功能连接流水线,只有等流水线全部流空后才能切换成按另一种功能连接流水线。并行处理机互联有多种方法,常见的互联网结构有总线结构、交叉开关和多级互联网。并行处理机互联有多种方法,分别列举如下。(1)恒等置换 相同编号的输入端与输出端一一对应互联。其表达式如下:I(xn-1xkx1x0)=xn-1xkx1x0(2)交换置换 实现二进制地址编号中第 0 位位值不同的输入端和输出端之间的连接,其表达式如下:*(3)方体置换(Cube) 实现二进制地址编号中第 k 位位值不同的输入端和输出端之间的连接,其表达式如下:*(4
36、)均匀洗牌置换(Shuffle) 将输入端二进制地址循环左移一位得到对应的输出端二进制地址,其表达式如下:S(xn-1xn-2x1x0)=xn-2xn-3x1x0xn-1(5)蝶式置换(Buttefly) 将输入端二进制地址的最高位和最低位互换位置,得到对应的输出端二进制地址,其表达式如下:B(xn-1xn-2x1x0)=x0xn-2x1xn-1(6)位序颠倒置换 将输入端二进制地址的位序颠倒过来得到对应的输出端二进制地址,其表达式如下:P(xn-1xn-2x1x0)=x0x1xn-2xn-1在构成单级互联网络时可采用 n 个结点的立方体网络结构。此立方体上的每一个顶点代表一个处理机。在编号为
37、 015 的 16 个处理机构成的立方体上,每一个处理机均可用四位二进制编码来表示。利用 n 个结点的一般互联函数为:*因为 13=(1101)2,所以,它只能与编码为(0101) 2=5 的处理机相连接。编号为 0、1、1、3、15 的 16 个处理器,采用单级互联网络连接。当互联函数为 Cube3时,11 号处理器连接到 (10) 号处理器上。若采用 Shuffle 互联函数,则 11 号处理器应连接到兰 (11) 号处理器上。(分数:2.00)A.2B.3 C.7D.9解析:A.2B.5C.7 D.11解析:分析 并行处理机互联有多种方法,在构成单级互联网络时可采用 n 个结点的立方体网
38、络结构。在此立方体上的每一个顶点(即结点)代表一个处理器。在编号为 015 的 16 个处理器构成的立方体上,每一个处理器均可用四位二进制编码来表示。利用 n 个结点的一般互联函数为:*因为 11 号处理器的编码为 1011,它只能与编码为 0011 号处理器相连接。因此,与该处理器相连接的可以是 3(0011)号处理器。如果采用 Shuffle 互联函数,则根据公式:Shuffle(Pn-1Pn-2P1P0)=Pn-2P1P0Pn-1因为 11 号处理器的编码为 1011,则经过变换后为 0111,即为 7 号。某流水线浮点加法器分为 5 级,若每一级所需要的时间分别是 6ns、7ns、 8
39、ns、9ns 和 6ns,则此流水线的最大加速比为 (12) 。若每一级的时间均为 7ns,则最大加速比为 (13) 。(分数:2.00)A.2.0B.4.0 C.4.5D.5.2解析:A.4.1B.5.0 C.5.6D.6.2解析:分析 流水线技术把一件任务分解为若干顺序执行的子任务,不同的子任务由不同的执行机构负责执行,而这些机构可以同时并行工作。在任一时刻,任一任务只占用其中一个执行机构,这样就可以实现多个任务的重叠执行,以提高工作效率。(1)指令流水线计算机中一条指令的执行需要若干步,通常采用流水线技术来实现指令的执行,以提高 CPU 性能。典型的指令执行共分 7 个阶段:计算指令地址
40、,修改程序计数器 PC;取指,即从存储器中取出指令;指令译码:计算操作数地址;取操作数:执行指令:保存结果。对指令执行阶段的划分也可以把取指作为第一阶段,其他阶段顺序前移,而在最后一个阶段计算下一条指令的地址。若假定指令执行的各个阶段的执行时间相同,都是一个周期。执行一条指令就需要花费 7 个周期的时间。采用流水线技术以后,当满负荷时,每个周期都能从流水线上完成一条指令,性能约改善到原来的 7 倍。实际上,流水线技术对性能的提高程度取决于其执行顺序中最慢的一步。例如,在指令执行的 7 个阶段中,如果访问存储器需要4 个周期,而其他操作只需一个周期,一条指令的执行共需访存三次再加上 4 个单周期
41、的执行段,所以共需要 16 个周期。采用流水线以后,由于受限于访存操作,4 个周期才能完成一条指令的执行,因此性能提高到原来的 4 倍。(2)运算操作流水线计算机在执行各种运算操作时也可以应用流水线技术来提高运算速度。例如执行浮点加法运算,可以把它分成 3 个阶段:对阶、尾数相加和结果规格化。流水线的 3 个阶段用锁存器进行分割,锁存器用来在相邻两段之间保持处理的中间结果,以供下一阶段使用。这样在满负荷时,该流水线可以同时处理 3 条浮点加法指令。流水线的关键之处在于重叠执行。为了得到高的性能表现,流水线应该满负荷工作,即各个阶段都要同时并行地工作。但是在实际情况中,流水线各个阶段可能会相互影
42、响,阻塞流水线,使其性能下降。阻塞主要由以下两种情形引起:执行转移指令和共享资源冲突。(1)转移指令的影响通常在顺序执行指令的情况下,当 CPU 取一条指令时,流水线的地址计算部件可以独立地把当前 PC 值加上当前指令长度来计算下一条指令的地址,从而可以并行地工作,但是当流水线执行一条转移指令时,就会引起流水线的阻塞。因为在该转移指令完成之前,流水线都不能确定出下一条指令的地址。所以为了保证指令的正确执行,必须把取指段和指令地址计算段互锁。在取出转移指令后,立即锁住指令地址计算段,直到转移指令执行完成。互锁阶段流水线处于等待状态,不能满负荷工作,因而性能下降。(2)共享资源访问冲突当多条指令以
43、流水线方式重叠执行时,由于可能会引起对共享的寄存器或存储器资源访问次序的变化,因此将导致冲突,这种情况又称为数据相关。为了避免冲突,就需要把相互有关的指令进行阻塞,这样就会引起流水线效率的下降。一般说来指令流水线级数越多,越容易导致数据相关,阻塞流水线。在流水线中,因为在同一时刻,有多个任务在重叠地执行,虽然完成一个任务的时间与单独执行该任务相近(甚至由于分段的缘故,可能更多一些),但是从整体上看完成多个任务所需的时间则大大减少。由给定条件可知,如果不采用流水线方式,则平均一条指定的执行时间为 6+7+8+9+6=36ns。而采用了流水线后,平均一条指定的执行时间为 9ns(取五级中时间最长的
44、那一级),因此最大加速比为 36/9=4。若每一级的时间均为 7ns,则加速比为 75/7=5。在 CPU 和主存间设置 cache 存储器主要是为了 (14) 。若使用基于数据内容进行访问的存储设备作为cache 时,能更快决定是否命中。这种地址映射方法称为 (15) 映射。CPU 向 cache 执行写操作时,可以同时写回主存储器或者仅当 cache 中该数据被淘汰时才写回主存储器,前者称为 (16) ,而后者称为 (17) 。若 cache 的存取速度是主存存取速度的 10 倍,且命中率可达到 0.8,则 CPU 对该存储系统的平均存取周期为 (18) T(T 为主有的存取周期)。(分数
45、:5.00)A.扩充主存容量B.解决 CPU 和主存的速度匹配 C.提高可靠性D.增加 CPU 访问的并行度解析:A.相联 B.内容C.直接D.间接解析:A.写缓B.写映射C.写回D.写直达 解析:A.写缓B.写映射C.写回 D.写直达解析:A.0.1B.0.19C.0.21D.0.28 解析:分析 cache(高速缓冲存储器)的功能是提高 CPU 数据输入输出的速率,突破所谓的“冯诺依曼瓶颈”,即 CPU 与存储系统间数据传送带宽限制。高速存储器能以极高的速率进行数据的访问,但因其价格高昂,如果计算机的主存储器完全由这种高速存储器组成则会大大增加计算机的成本。通常在 CPU 和主存储器之间设
46、置小容量的高速存储器 cache。cache 容量小但速度快,主存储器速度较低但容量大,通过优化调度算法,系统的性能会大大改善,仿佛其存储系统容量与主存相当而访问速度近似 cache。在计算机的存储系统体系中,cache 是访问速度最快的层次。使用 cache 改善系统性能的依据是程序的局部性原理(有关此原理的详细情况,请读者阅读“操作系统”一章)。依据局部性原理,把主存储器中访问概率高的内容存放在 cache 中,当 CPU 需要读取数据时就首先在 cache 中查找是否有所需内容,如果有,则直接从 cache 中读取;若没有,再从主存中读取该数据,然后同时送往 CPU 和 cache。如果
47、 CPU 需要访问的内容大多都能在 cache 中找到(称为访问命中,hit),则可以大大提高系统性能。如果以 h 代表对 cache 的访问命中率,t 1表示 cache 的周期时间,t 2表示主存储器周期时间,以读操作为例,使用“cache+主存储器”的系统的平均周期为 t3则:t 3=ht1+(1-h)t2。其中,(1-h)又称为失效率(未命中率)。系统的平均存储周期与命中率有很密切的关系,命中率的提高即使很小也能导致性能上的较大改善。当 CPU 发出访存请求后,存储器地址先被送到 cache 控制器以确定所需数据是否已在 cache 中,若命中则直接对 cache 进行访问。这个过程称
48、为 cache 的地址映射。常见的映射方法有直接映射、相联映射和组相联映射。当 cache 存储器产生了一次访问未命中之后,相应的数据应同时读入 CPU 和 cache。但是当 cache 已存满数据后,新数据必须淘汰 cache 中的某些旧数据。最常用的淘汰算法有随机淘汰法、先进先出法(FIFO)和近期最少使用淘汰法 (LRU)。因为需要保证缓存在 cache 中的数据与主存中的内容一致,相对读操作而言,cache 的写操作比较复杂,常用的有以下几种方法。(1)写直达(write through) 当要写 cache 时,数据同时写回主存储器,有时也称为写通。(2)写回(write back
49、) CPU 修改 cache 的某一行后,相应的数据并不立即写入主存储器单元,而是当该行从 cache 中被淘汰时,才把数据写回到主存储器中。(3)标记法 对 cache 中的每一个数据设置一个有效位。当数据进入 cache 后,有效位置 1;而当 CPU 要对该数据进行修改时,数据只需写入主存储器并同时将该有效位清 0。当要从 cache 中读取数据时需要测试其有效位:若为 1 则直接从 cache 中取数,否则从主存中取数。本题已知 h=0.8;cache 的存取速度是主存存取速度的 10 倍,因为存取周期是存取速度的倒数,所以我们可以得到 t1=T/10,代入上式有T=0.8(T/10)+0.2T=0.28T在关于主存与 cache 地址映射方式中,叙述 (19) 是正确的。在分析 cache 对机器性能的影响时,叙述 (20) 是正确的。(分数:2.00)A.全相联映射方式适用于大容量 cacheB.直接映射是一对一的映射关系,组相联映射是多对一的映射关系C.在 cache 容量相等条件下,直接映射方式的命中率比组相联映射方式有更高的命中率D.在