百亿亿次计算系统 GPU改变世界的猜想

2012-01-11 15:12 pconline 我要评论()

字号：T|T

随着科学技术的不断发展，超级计算机正在经历着由Pataflop(千万亿次)向Exascale(百亿亿次)的过渡。Exascale超级计算是百亿亿次高性能计算技术，是超级计算领域的下一个里程碑，linpack性能是目前全球速度最快超级计算机Pataflop(千万亿次)级别的千倍以上。

在这之前，我们先来大概了解一下GPU计算及其发展历史。其实GPU(图形处理器)计算模型就是在一个异构计算模型中同时使用了 CPU 和 GPU(图形处理器)。应用程序的顺序部分在 CPU 上运行，计算密集型部分在 GPU(图形处理器)上运行。虽然应用程序使用了 GPU(图形处理器)的卓越性能来提升运行性能，但对用户而言，他们所能感知到的将仅仅是运行速度更快的应用程序。

应用程序开发人员将需要修改其应用程序中的计算密集型内核，并将其关联到 GPU(图形处理器)。应用程序的其它部分将仍然依赖于 CPU 进行处理。将一项功能关联到 GPU(图形处理器)需要重写功能，以在其中支持并行处理，同时添加“C”关键字以在应用程序和 GPU(图形处理器)之间往返传输数据。

GPU(图形处理器)计算得到了 NVIDIA(英伟达)被称作 CUDA 架构的 GPU(图形处理器)大规模并行架构的支持。CUDA 架构由 100 多个处理器内核组成，这些内核能够协作运行来处理应用程序中的数据集。

Tesla 10 系列 GPU(图形处理器)是第二代 CUDA 架构，包含有专为科学应用程序优化的特性，如 IEEE 标准双精度浮点硬件支持、以分布于 GPU(图形处理器)中的共享内存形式存在的本地数据高速缓存、以及结合内存访问等。

GPU（图形处理器）计算的发展历史

图形芯片最初用作固定功能图形管线。随着时间的推移，这些图形芯片的可编程性日益增加，在此基础之上 NVIDIA®(英伟达™)推出了第一款 GPU(图形处理器)。1999-2000 年间，计算机科学家，与诸如医疗成像和电磁等领域的研究人员，开始使用 GPU(图形处理器)来运行通用计算应用程序。他们发现 GPU(图形处理器)具备的卓越浮点性能可为众多科学应用程序带来显著的性能提升。这一发现掀起了被称作 GPGPU(GPU(图形处理器)通用计算)的浪潮。

此处需要解决的问题为 GPGPU 要求使用图形编程语言来对 GPU(图形处理器)进行编程，如 OpenGL 和 Cg 等。开发人员需要使其科学应用程序看起来像图形应用程序，并将其关联到需要绘制三角形和多边形的问题。这一方法限制了 GPU(图形处理器)的卓越性能在科学领域的充分发挥。

NVIDIA(英伟达)认识到了让更多科学群体使用这一卓越性能的强大优势，决定投资来修改 GPU(图形处理器)，使其能够完全可编程以支持科学应用程序，同时还添加了对于诸如 C 和 C++ 等高级语言的支持。此举最终推动诞生了面向 GPU(图形处理器)的 CUDA 架构。

CUDA 并行架构与编程模型

CUDA 并行硬件架构伴随有 CUDA 并行编程模型。该模型提供了一个抽象集合，能够支持实现精细和粗放级别的数据与任务并行处理。编程人员可以选择使用高级语言(如 C、C++ 和 Fortran)或驱动程序 API(如 OpenCL 和 DirectX-11 Compute)来实现并行处理。

NVIDIA(英伟达)率先提供支持的语言为 C 语言。一系列面向 CUDA 的 C 语言软件开发工具支持基于 C 语言，使用最小的关键字或扩展集合来对 GPU(图形处理器)进行编程。对于 Fortran 和 OpenCL 等语言的支持将很快推出。

CUDA 并行编程模型可支持编程人员将问题划分为粗放子问题，以并行方式独立解决。之后编程人员再对子问题进行精细并行处理，以便所有子问题能够以并行方式协作解决。>>

百亿亿次计算的飞速发展

在Exascale超级计算发展领域，中国、美国、日本、欧盟等国家展开了新一轮的超级计算机竞赛。今年6月的世界500强超级计算机的排名中，日本富士通代号为“K”的超级计算机超过了中国的天河一号A型超级计算机，排名第一位，运算速度为8.612千万亿次每秒。

从千万亿次到亿亿次，在2008年下半年公布的全球超级计算机Top500榜单中，IBM为美国能源部LosAlamos国家实验室建造的“Roadrunner走鹃”计算机系统运算速度达到了1.026Pflop/s(千万亿次/秒)，这是首次计算峰值突破千万亿次。随后，全球Top500前十套超算系统全部达到千万亿次级别，而中国超算Top100前六套系统均超过了千万亿次。

从2008年到2011年，HPC的计算能力提升十倍，曾经遥不可攀的一个高度，只不过在短短三年内成为现实。我们将目光看的再远一点，1998年，HPC首次突破万亿次，到2008年达到千万亿次，十年间HPC计算能力提高三个数量级。

百亿亿次，看上去像是不可能完成的任务，不过从HPC进化史来看，一个个不可能都已经成为现实。如今，HPC业界已经将百亿亿次列为下一个奋斗目标，包括英特尔、NVIDIA等芯片厂商，以及诸多服务器系统厂商，也开始了向百亿亿次迈进的脚步。

2010年NVIDIA签署了一个代号Echelon的项目。该项目属于美国国防部下属DARPA(国防高级研究计划署)的“普及高性能计算计划”。计划的目标是在2014年提供一台原型机架式服务器，功耗不超过57KW，性能达到1PFLOPS。下一步则是到2018年，建成达到Exascale性能的原型系统。

当时，竞争这一项目的有来自NVIDIA、Intel、麻省理工学院和Sandia国家实验室的四组团队。William Dally表示，NVIDIA的主要着眼点是提升每瓦性能，并提供可以打造从Tegra到Tesla的各种产品的通用架构。他们计划在芯片内集成256MB SRAM，并尽量降低SRAM缓存延迟。

为了进一步降低功耗，NVIDIA团队引入了根据不同应用需要的动态配置设计。他们将每次浮点运算的功耗从Fermi架构的200皮焦，下降到Echelon 32nm试验架构下的10皮焦。

内核架构

Echelon其架构包括128个流式多处理器单元(SMU)，每个SMU包含8个64-bit浮点运算核心(每个核心在一个时钟周期内可进行4次双精度浮点运算)。根据估算，1024个核心的Echelon芯片运算能力在10TFLOPS左右。而该芯片的手机版本将只有一组SMU，8个核心，双精度浮点运算能力78MFLOPS。

和目前的架构相比，Echelon 1024个流处理单元的数量是Fermi的两倍，而且其核心在一个时钟周期内可进行4次双精度浮点运算，现有架构只有1次。

和x86多核心处理器遇到的挑战一样，在1024核芯片上编程的难度可想而知。Dally承认在编程模型方面大家肯定会遇到海量的问题，而解决这些问题将成为未来10年甚至更长时间中的主要工作。

是CPU、还是CPU+GPU，是目前实现百亿亿次计算的两个主要方向，这也要从两种架构的优缺点谈起，对于异构架构，最大的问题在于编程困难，不具有通用性，如果针对单一应用重新开发新程序会使超算的使用成本很高。

不仅这样，我们可以记得在今年的SC11大会上，NVIDIA宣布了勃朗峰计划(Mont-Blancproject)，该计划的目标是使用超节能的商用组件开发一个欧洲的exascale级别超级计算机，并与全球超级计算机500强的超算机想媲美。

勃朗峰计划将主要依赖于NVIDIA公司的Tegra ARM处理器以作为GeForce GPU加速器的流量控制。第一台原型机将配有256个ARM处理器以及大量的NVIDIA GPU。而明年将发布的CUDA ARM开发工具将包括一个有四核NVIDIA Tegra3ARM处理器和支持CUDA技术GPU的主板，以及千兆以太网、SATA和USB端口，其价格与其他详细信息还未公布。

ARM与GPU(或者其他专门的加速器)的组合将能够迎接x86巨人在科学技术计算领域的最强有力挑战。诚然，现在还没有一个ARM HPC软件的系统，尽管HPC用户通常都不太愿意在新技术上涉足太多，但如果最终结果是更高性能和更低成本，他们还是会很高兴来建立和优化自己的软件的。

如果这一组合能够在HPC成功地证明自身，那么其商业化并开始出现在企业数据中心将只是一个时间问题。

美国橡树岭国家实验室的一位专家曾对笔者坦言：“我更加看好CPU+GPU的异构方式，在编程方面MIC并不比CUDA简单，而在MIC实现百亿亿次的过程中结构还可能会变，这会导致编程更加复杂。而CUDA编程则会越来越广泛，并且异构要更加节能，实现起来更加现实。”除了这位专家，笔者所接触的多位HPC专家都更加看好异构，认为这是一场HPC的新趋势，是未来的发展方向。

随着摩尔定律的进化，超级计算机的性能也正在迅速提升，但因此带来的功耗问题也越来越显著，比如一度全球最快的我国天河一号A，要想达到百亿亿次计算级别，必须付出16亿瓦的耗电量，相当于200万个家庭的用电量。未来技术发展会更快，性能飞速发展的同时，功耗则是厂商需要仔细考量的问题了。

我要评论

已有位网友参与评论

本类最新

本类最热

科技视界

要闻推荐

消息称哈罗单车即将完成10亿美元新一轮融资

聚有钱发布退出公告首家无人苏宁小店今日试营业

首页 > 硬件数码 > 企业办公 > 服务器 > 正文

相关报道：

新闻热线：010-68947455

关键词： GPU 系统

责任编辑：王新宇

我要评论

已有位网友参与评论

本类最新

本类最热

科技视界

要闻推荐

消息称哈罗单车即将完成10亿美元新一轮融资

名企动态：苹果 | 谷歌 | 微软 | 亚马逊 | 腾讯 |
阿里巴巴 | 百度 | 360 | 网易 | 新浪 | 搜狐

今日视点

微软发布Windows 10 开启融

热点专题

新闻图片

企业信息

下载飚榜

牛华网

华军下载 | 牛华网 | 盒子 | pcsoft | 论坛

实用工具

关于我们 | 新闻投稿 | 软件发布 | 版权声明 | 意见建议 | 网站地图 | 友情连接 | RSS订阅 | 总编信箱 | 诚聘英才 | 联系我们

苏ICP备11016551号-2 苏公网安备 32132202000111号本站特聘法律顾问:于国富律师

Copyright (C) 1997-2012 newhua.com 牛华网版权所有

首页 > 硬件数码 > 企业办公 > 服务器 > 正文

var jiathis_config = {data_track_clickback:true};

分享到：

相关报道：

新闻热线：010-68947455

关键词： GPU 系统

责任编辑：王新宇

我要评论

已有位网友参与评论

本类最新

本类最热

科技视界

要闻推荐

消息称哈罗单车即将完成10亿美元新一轮融资

名企动态：苹果 | 谷歌 | 微软 | 亚马逊 | 腾讯 | 阿里巴巴 | 百度 | 360 | 网易 | 新浪 | 搜狐

今日视点

微软发布Windows 10 开启融

热点专题

新闻图片

企业信息

下载飚榜

牛华网

华军下载 | 牛华网 | 盒子 | pcsoft | 论坛

实用工具

关于我们 | 新闻投稿 | 软件发布 | 版权声明 | 意见建议 | 网站地图 | 友情连接 | RSS订阅 | 总编信箱 | 诚聘英才 | 联系我们

苏ICP备11016551号-2 苏公网安备 32132202000111号 本站特聘法律顾问:于国富律师

Copyright (C) 1997-2012 newhua.com 牛华网 版权所有

名企动态：苹果 | 谷歌 | 微软 | 亚马逊 | 腾讯 |
阿里巴巴 | 百度 | 360 | 网易 | 新浪 | 搜狐

苏ICP备11016551号-2 苏公网安备 32132202000111号本站特聘法律顾问:于国富律师

Copyright (C) 1997-2012 newhua.com 牛华网版权所有