- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
并行处理机及多处理机
第八章 并行处理机和多处理机;并行处理计算机模型
并行处理机定义:多个PU按照一定方式互连,在同一个CU控制下,对各自的数据完成同一条指令规定的操作。从CU看,指令是串行执行的,从PU看,数据是并行处理的。并行处理机也称为阵列处理机。按照佛林分类法,它属于SIMD计算机。
并行处理机的应用领域:主要用于高速向量或矩阵运算中。;P0;并行处理机的操作模型可用五元组来表示: M=(N,C,I,M,R), 其中: N为PE个数。如IlliacIV有64个PE。 C为由控制部件CU直接执行的指令集,包括标量指令和程序控制指令。 I为所有PE并行执行的指令集,包括算术运算、逻辑运算、数据寻径、屏蔽以及其它由每个活动的PE对它的数据所执行的局部操作。 M为屏蔽操作集,每种屏蔽将PE划分为允许操作和禁止操作两个子集。
R是数据寻径集,说明互连网络中PE间通信所需要的各种设置模式。;系统型号;Active Memory Technology DAP600系列;并行处理机的基本结构
两种SIMD计算机的基本结构:
分布存储器并行处理机
共享存储器并行处理机
一台并行处理机由五个部分组成:多个处理单元PE多个存储器模块M一个控制器CU一个互连网络ICN一台输入输出处理机IOP;目前的大部分并行处理机是基于分布式存储器模型的系统。
比较容易构成MPP(Massively Parallel Processor),几十万个PE。
必须依靠并行算法来提高PE的利用率。因此,应用领域很有限。
CU是控制部件,执行标量指令,并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。
IOP是输入输出处理机,或称为主机。在IOP上安装操作系统,它除了负担输入输出工作外,还负责程序的编辑、编译和调试等工作。
数据在局部存储器中的分布是一个很关键的问题。
标量指令与向量指令可以并发执行。;LM0;共享的多体并行存储器 SM 通过互连网络与各处理单元PE相连。
存储模块的数目等于或略大于处理单元的数目。
同时在存储模块之间合理分配数据,通过灵活、高速的互连网络,使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行,而最少受存储冲突的影响。
共享存储器模型的处理单元数目一般不多,几个至几十个。
Burroughs Scientific Processor (BSP)采用了这种结构。16个PE通过一个16×17的对准互连网络访问17个共享存储器模块。
存储器模块数与PE数互质可以实现无冲突并行访问存储器。
;PE0;并行处理机的主要特点如下:
速度快,特别适于高速数值计算。
SIMD依靠的是资源重复,而不是时间重叠。它依靠增加PE个数,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多。
依赖于互连网络和并行算法。互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法。
需要有一台高性能的标量处理机。如果一台机器的向量处理速度极高,但标量处理速度只是每秒一百万次,那么对于标量运算占10%的题目来说,总的有效速度就不过是每秒一千万次。
SIMD基本上是一台向量处理专用计算机。尽管它有一个功能很强的控制部件实际上起作标量处理机的作用,但仍然必须和一台高性能单处理机配合工作,使后者担负系统的全部管理功能。;IlliacIV 是最先采用SIMD结构的并行机
随后一个方向是用位片PE制造的并行机,如Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以SIMD模式运行的同步MIMD计算机。另一方向是用字宽运算PE的中粒度SIMD计算机。
并行处理机的两个发展方向:
保留阵列结构,但每个处理单元的规模减小,如一个bit。去掉阵列结构和分布存储器。
Burroughs公司的BSP是典型代表。 GF-11是由IBM Watson实验室研制、作科学模拟研究用的。MasPar MP1是中粒度并行处理机的典型代表。
下面介绍并行处理机的两种典型代表:
采用阵列结构分布存储器的IlliacIV并行处理机 去掉阵列结构和分布存储器BSP并行处理机。
;Illiac IV
(Barnes等,1968);1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。
1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合同。原计划:256个PE,每个PE每240ns处理一个64位的浮点数,每个局部存储器PEM为2K?64位,总的运算速度为1GFLOPS。
美国Burroughs
文档评论(0)