《并行程序设计原理》内容新颖,涉及现代并行硬件和软件技术,包括多核体系结构及其并行程序设计技术。《并行程序设计原理》侧重论述并行程序设计的原理,并论述了并行程序设计中一些深层次问题,如可扩展性、可移植性以及并行程序设计应遵循的方法学等。
出版者的话
推荐序
译者序
前言
第一部分 基础
第1章 导论2
1.1 并行的威力和潜能2
1.1.1 并行,一个熟悉的概念2
1.1.2 计算机程序中的并行2
1.1.3 多核计算机,一个机遇3
1.1.4 使用并行硬件的更多机遇4
1.1.5 并行计算和分布式计算的比较4
1.1.6 系统级并行5
1.1.7 并行抽象的便利5
1.2 考察顺序程序和并行程序6
1.2.1 并行化编译器6
1.2.2 范例求解的变化7
1.2.3 并行前缀求和8
1.3 使用多指令流实现并行9
1.3.1 线程概念9
1.3.2 统计3的个数的多线程求解方法10
1.4 目标:可扩展性和性能可移植性17
1.4.1 可扩展性17
1.4.2 性能可移植性18
1.4.3 原理第一18
1.5 小结19
历史回顾19
习题19
第2章 认识并行计算机21
2.1 用可移植性衡量机器特征21
2.2 6种并行机介绍21
2.2.1 芯片多处理器21
2.2.2 对称多处理器体系结构23
2.2.3 异构芯片设计26
2.2.4 机群27
2.2.5 超级计算机27
2.2.6 对6种并行计算机的评论30
2.3 顺序计算机的抽象30
2.3.1 应用RAM模型31
2.3.2 评估RAM模型31
2.4 PRAM:一种并行计算机模型32
2.5 CTA:一种实际的并行计算机模型32
2.5.1 CTA模型33
2.5.2 通信时延36
2.5.3 CTA的性质36
2.6 存储器访问机制37
2.6.1 共享存储器37
2.6.2 单边通信37
2.6.3 消息传递38
2.6.4 存储器一致性模型38
2.6.5 程序设计模型39
2.7 进一步研究通信40
2.8 CTA模型的应用40
2.9 小结41
历史回顾41
习题41
第3章 性能分析43
3.1 动机和基本概念43
3.1.1 并行和性能43
3.1.2 线程和进程43
3.1.3 时延和吞吐率44
3.2 性能损失的原因45
3.2.1 开销45
3.2.2 不可并行代码46
3.2.3 竞争47
3.2.4 空闲时间47
3.3 并行结构48
3.3.1 相关性48
3.3.2 相关性限制并行性49
3.3.3 粒度50
3.3.4 局部性51
3.4 性能协调51
3.4.1 通信和计算52
3.4.2 存储器和并行性52
3.4.3 开销与并行52
3.5 性能度量53
3.5.1 执行时间54
3.5.2 加速比54
3.5.3 超线性加速比55
3.5.4 效率55
3.5.5 加速比问题55
3.5.6 可扩展加速比和固定加速比56
3.6 可扩展性能56
3.6.1 难于达到的可扩展性能57
3.6.2 硬件问题57
3.6.3 软件问题58
3.6.4 问题规模的扩展58
3.7 小结59
历史回顾59
习题59
第二部分 并行抽象
第4章 并行程序设计起步62
4.1 数据和任务并行62
4.1.1 定义62
4.1.2 数据和任务并行的说明62
4.2 Peril-L记号63
4.2.1 扩展C语言63
4.2.2 并行线程63
4.2.3 同步和协同64
4.2.4 存储器模型64
4.2.5 同步存储器66
4.2.6 归约和扫描67
4.2.7 归约的抽象68
4.3 统计3的个数程序实例68
4.4 并行性的表示68
4.4.1 固定并行性68
4.4.2 无限并行性69
4.4.3 可扩展并行性70
4.5 按字母顺序排序实例71
4.5.1 无限并行性71
4.5.2 固定并行性72
4.5.3 可扩展并行性73
4.6 三种求解方法的比较77
4.7 小结78
历史回顾78
习题78
第5章 可扩展算法技术80
5.1 独立计算块80
5.2 Schwartz算法80
5.3 归约和扫描抽象82
5.3.1 通用归约和扫描举例83
5.3.2 基本结构84
5.3.3 通用归约结构86
5.3.4 通用扫描组件举例87
5.3.5 应用通用扫描88
5.3.6 通用向量操作89
5.4 静态为进程分配工作89
5.4.1 块分配90
5.4.2 重叠区域91
5.4.3 循环分配和块循环分配92
5.4.4 不规则分配94
5.5 动态为进程分配工作95
5.5.1 工作队列95
5.5.2 工作队列的变体97
5.5.3 案例研究:并发存储器分配97
5.6 树99
5.6.1 按子树分配99
5.6.2 动态分配100
5.7 小结100
历史回顾100
习题101
第三部分 并行程序设计语言
第6章 线程程序设计104
6.1 POSIX Threads 104
6.1.1 线程的创建和销毁104
6.1.2 互斥108
6.1.3 同步110
6.1.4 安全性问题117
6.1.5 性能问题120
6.1.6 案例研究1:连续过度松弛124
6.1.7 案例研究2:重叠同步与计算129
6.1.8 案例研究3:多核芯片上的流计算..134
6.2 Java Threads 134
6.2.1 同步方法135
6.2.2 同步语句136
6.2.3 统计3的个数程序实例136
6.2.4 易变存储器138
6.2.5 原子对象138
6.2.6 锁对象138
6.2.7 执行器138
6.2.8 并发集合138
6.3 OpenMP 138
6.3.1 统计3的个数程序实例139
6.3.2 parallel for的语义局限141
6.3.3 归约141
6.3.4 线程的行为和交互142
6.3.5 段142
6.3.6 OpenMP总结143
6.4 小结143
历史回顾143
习题143
第7章 MPI和其他局部视图语言145
7.1 MPI:消息传递接口145
7.1.1 统计3的个数程序实例145
7.1.2 组和通信子152
7.1.3 点对点通信152
7.1.4 集合通信154
7.1.5 举例:连续过度松弛157
7.1.6 性能问题159
7.1.7 安全性问题164
7.2 分区的全局地址空间语言164
7.2.1 Co-Array Fortran165
7.2.2 Unified Parallel C 166
7.2.3 Titanium 167
7.3 小结167
历史回顾168
习题168
第8章 ZPL和其他全局视图语言169
8.1 ZPL程序设计语言169
8.2 ZPL基本概念169
8.2.1 区域170
8.2.2 数组计算171
8.3 生命游戏实例173
8.3.1 问题173
8.3.2 解决方案173
8.3.3 如何实现174
8.3.4 生命游戏的哲学175
8.4 与众不同的ZPL特征175
8.4.1 区域175
8.4.2 语句级索引175
8.4.3 区域的限制176
8.4.4 性能模型176
8.4.5 用减法实现加法177
8.5 操作不同秩的数组177
8.5.1 部分归约177
8.5.2 扩充178
8.5.3 扩充的原理179
8.5.4 数据操作举例179
8.5.5 扩充区域180
8.5.6 矩阵乘181
8.6 用重映射操作重排数据182
8.6.1 索引数组183
8.6.2 重映射183
8.6.3 排序举例185
8.7 ZPL程序的并行执行186
8.7.1 编译器的职责186
8.7.2 指定进程数187
8.7.3 为进程分配区域187
8.7.4 数组分配188
8.7.5 标量分配188
8.7.6 工作分派188
8.8 性能模型189
8.8.1 应用实例1:生命游戏190
8.8.2 应用实例2:SUMMA算法190
8.8.3 性能模型总结191
8.9 NESL并行语言191
8.9.1 语言概念191
8.9.2 用嵌套并行实现矩阵乘192
8.9.3 NESL复杂性模型192
8.10 小结192
历史回顾193
习题193
第9章 对并行程序设计现状的评价194
9.1 并行语言的四个重要性质194
9.1.1 正确性194
9.1.2 性能195
9.1.3 可扩展性196
9.1.4 可移植性196
9.2 评估现有方法196
9.2.1 POSIX Threads 196
9.2.2 Java Threads 197
9.2.3 OpenMP 197
9.2.4 MPI 197
9.2.5 PGAS语言198
9.2.6 ZPL 198
9.2.7 NESL 199
9.3 可供将来借鉴的经验199
9.3.1 隐藏并行199
9.3.2 透明化性能200
9.3.3 局部性200
9.3.4 约束并行200
9.3.5 隐式并行与显式并行201
9.4 小结201
历史回顾201
习题202
第四部分 展 望
第10章 并行程序设计的未来方向204
10.1 附属处理器204
10.1.1 图形处理部件204
10.1.2 Cell处理器207
10.1.3 附属处理器的总结207
10.2 网格计算208
10.3 事务存储器209
10.3.1 与锁的比较210
10.3.2 实现方法210
10.3.3 未解决的问题211
10.4 MapReduce 212
10.5 问题空间的提升214
10.6 新出现的语言214
10.6.1 Chapel215
10.6.2 Fortress 215
10.6.3 X10216
10.7 小结218
历史回顾218
习题218
第11章 编写并行程序219
11.1 起步219
11.1.1 访问和软件219
11.1.2 Hello, World 219
11.2 并行程序设计的建议220
11.2.1 增量式开发220
11.2.2 侧重并行结构220
11.2.3 并行结构的测试221
11.2.4 顺序程序设计221
11.2.5 乐意写附加代码222
11.2.6 测试时对参数的控制222
11.2.7 功能性调试223
11.3 对结课课程设计的设想223
11.3.1 实现现有的并行算法223
11.3.2 与标准的基准测试程序媲美224
11.3.3 开发新的并行计算224
11.4 性能度量225
11.4.1 与顺序求解方法比较226
11.4.2 维护一个公正的实验设置226
11.5 了解并行性能227
11.6 性能分析227
11.7 实验方法学228
11.8 可移植性和微调229
11.9 小结229
历史回顾229
习题229
术语表230
参考文献234
这是一本关于操作系统基本原理的教科书,其最大特点就是从操作系统的分层概念出发,深入浅出地介绍了操作系统的基本概念和基本框
《图解室内设计(第2版)》由程大锦教授与科基·宾格利共同编写的,现已修订、扩充升级至第二版。通过兼具实用性与艺术美感的插图,
《数据库可靠性工程:数据库系统设计与运维指南》内容简介:数据是当今企业的宝贵资产,设计、构建并维护数据存储的重要性不言而喻
本书的第三版升级到ApachePHP和JavaScript最新的版本上。同是它还包含了关于mod_perl更为详尽的信息以及提高Web性能的方法。书中
StephenWalther蜚声世界的ASP.NET专家,现为微软公司ASP.NET小组资深程序经理。多次荣获微软最有价值专家(MVP)称号,并荣获微软
《高配人生的7个法则》内容简介:本书是一本倡导“她力量”的女性成长励志书籍。作者邵英是一名成功的女性互联网创业者,书中作者详
《分布式系统与一致性》内容简介:一致性是非常重要的分布式技术。众所周知,分布式系统有很多特性,如可用性、可靠性等,这些特性
《PHP求职宝典》以PHP求职面试为核心,全面介绍了在PHP面试中重点考查的各个考点,并从求职面试、职业规划、面试渠道、面试真题、
《了不起的中华服饰:壮族》内容简介:本书是一套“民族文化启蒙”的通俗百科类童书,以精心绘制的插图,通俗有趣的文字,讲述了中
《36讲资治通鉴通识课:1362年历史时空》内容简介:《资治通鉴》是北宋司马光主编的中国首部编年体通史,是传统的史学巅峰著作,但
译者序遥想六年之前,交互设计在大陆刚刚兴起,UCD的概念开始慢慢被大家所认识。那时正和Ryana等同学建起UXStudy(油茶会)。市场
计算机网络技术及实训 内容简介本书从实际应用出发,全面、系统地介绍计算机网络技术的基本知识和基本技能,在内容编排上深入浅出、循序渐进、图文并茂,相应的实训内容能...
本书是一部为广大从事声频工程工作的读者提供准确、全面、简明的专业知识的工具书。该书的第三版全面更新了原有的内容,这部新版
《网众传播 (数字媒介变革书系)》内容简介:“网众传播”指的是由“网众”发起和参与,由“社会性媒体”中介的传播模式、现象与行
你早该掌握的办公技能-Word/Excel/PowerPoint案例与技巧一本通-含DVD光盘1张 本书特色 《你早该掌握的办公技能--Word\\Excel\...
《为书作嫁》内容简介:本书是“日知文丛”之一。是南京大学古典文献研究所所长程章灿教授历年所写的50篇书评、序跋、随笔集。全书
《抖音短视频运营全攻略》内容简介:随着移动互联网的快速发展与普及,短视频营销正在成为新的营销模式。本书从短视频营销的基础出
《华为绩效管理》内容简介:本书基于使华为的绩效管理体系在不同类型企业内落地的目的,对于众多企业如何学习华为的绩效管理体系进
精通XNA图形与游戏程序设计 本书特色 作为一本介绍XNA游戏程序设计的书籍,杨关胜等编著的《精通XNA图形与游戏程序设计》把“实用”作为每一章节的出发点和落脚...
《零基础学电脑从入门到精通:视频自学版》内容简介:本书是专为新手编写的电脑操作与应用入门教程,精选了满足日常生活和工作需求