- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实验项目
名称 循环展开及指令调度 实验
目的及要求 加深对循环级并行性、指令调度技术、循环展开技术以及寄存器换名技术的理解;
熟悉用指令调度技术来解决流水线中的数据相关的方法;
了解循环展开、指令调度等技术对CPU性能的改进。 实验
内容 1.用指令调度技术解决流水线中的结构相关与数据相关
用MIPS汇编语言编写代码文件*.s,程序中应包括数据相关与结构相关(假设:加法﹑乘法﹑除法部件各有2个,延迟时间都是3个时钟周期)
通过Configuration菜单中的 “Floating point stages” 选项,把加法﹑乘法﹑除法部件的个数设置为2个,把延迟都设置为3个时钟周期;
用winMIPS64运行程序。记录程序执行过程中各种相关发生的次数、发生相关的指令组合,以及程序执行的总时钟周期数;
采用指令调度技术对程序进行指令调度,消除相关;
用winMIPS64运行调度后的程序,观察程序在流水线中的执行情况,记录程序执行的总时钟周期数;
根据记录结果,比较调度前和调度后的性能。论述指令调度对于提高CPU性能的意义。
2. 用循环展开、寄存器换名以及指令调度提高性能
用MIPS汇编语言编写代码文件*.s,程序中包含一个循环次数为4的整数倍的简单循环;
用winMIPS64运行该程序。记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数;
将循环展开3次,将4个循环体组成的代码代替原来的循环体,并对程序做相应的修改。然后对新的循环体进行寄存器换名和指令调度;
用winMIPS64运行修改后的程序,记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数;
根据记录结果,比较循环展开、指令调度前后的性能。
实验步骤 1.用指令调度技术解决流水线中的结构相关与数据相关
1)?代?码:?
divf?f2,f5,f6
divf?f1,f2,f6
divf?f3,f1,f5
divf?f0,f4,f7
addf?f14,f0,f6
addf?f15,f5,f7????
multf?f20,f4,f6???
multf?f21,f5,f7
设置运算部件个数以及运算时钟周期数
图1
图2. Pipeline图
以下为出现的数据相关
图3
先写后读相关
图4
由于只有两个除法部件,所以出现了功能部件的冲突。?总的执行周期是38指令调度后代码:将无关指令放在一起执行,相关指令分开尽量避免数据相关
divf?f2,f5,f6??
?multf?f20,f4,f6???
multf?f21,f5,f7??
?divf?f1,f2,f6??
?addf?f15,f5,f7???
divf?f3,f1,f5???
divf?f0,f4,f7???
addf?f14,f0,f6?
图5.Pipeline图
图6.Statistics图
总执行时钟周期为35个。
指令调度后,数据相关减少了,总时钟周期数减少了,效能提高了。调度前的时钟周期数为38,调度后的时钟周期数减少为35,加速比?=?38/35=?1.08
2. 用循环展开、寄存器换名以及指令调度提高性能
带循环指令
代码:求四个1相加的和,结果存在r2中
.text
.global main
main: addi r1,r0,#4
addi r2,r0,#0
Loop: sgt r3,r1,r0
bnez r3,Sub1
trap 0 Sub1:
addi r2,r2,#1
subi r1,r1,#1
j Loop
结果:总时钟周期是42个,5 raw stalls,循环了4次,结果
r2 =4
图7
循环展开:
代码:
.text
.global main
main:
addi r1,r0,#4
addi r2,r0,#0
文档评论(0)