面向未来计算-异构开发技术社区

云端也能做高性能计算 GPU比CPU受捧

如果把普通计算机的运算比作成人走路,那么高性能计算机则可以称为计算机界的运载火箭,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题,在诸如天气预报、基因、核工业、军事、航天等高科技领域都可以见到高性能计算机的身影。

高性能计算机是一个国家科技实力的象征,人们熟知的“天河一号”、“天河二号”就是我国自行研制的高性能计算机的代表。

近几年,基于互联网和人工智能技术的创业风起云涌,格灵深瞳、Face++、神马语音等公司在图像、语音、安全等领域进行着人工智能的创新,以图形图象和音视频为代表的深度学习是典型的计算密集型应用,由此催生了互联网行业对高性能计算的需求。

中国首个云上高性能计算平台受热捧

12月15日,阿里云基于公共云平台的高性能计算产品HPC正式对外商用,用户可通过官网购买GPU服务器实例。这也是中国首个云上高性能计算平台。

早在今年9月阿里云HPC对外公测期间,上百家用户找到阿里云申请使用并排起长队,每周新增排队用户比测完用户还多,客户类型涵盖深度学习、科研、金融甚至国家超算用户。

据了解,阿里云HPC每个计算集群配备2个GPU+2个CPU+128G内存+13T存储数据,单机单精度浮点计算能力达到11T flops。同时配备128G内存,13T本地盘存储数据,双千兆上联网络等。

“我们会给用户专属100%物理机,CPU、GPU不会发生争抢,保证无性能波动,没有虚拟化开销,也会有任何硬件功能的阉割。” 阿里云HPC产品负责人长仁强调。

据测算,假如有200万张图片需要学习,用一台双路E5-2650 v2的服务器训练需要16天时间,而如果用阿里云双GPU物理机仅需要1天。

游戏玩家应该对图形处理器GPU非常熟悉,他们会购买专门的显卡提升视频游戏体验。现在,因为GPU强大的数学处理能力,其被越来越多地应用于高性能计算。

为什么不使用大量CPU而要用GPU?这两者有何区别?

长仁介绍,单核CPU的理论浮点性能和GPU目前差距约两个数量级,多核CPU比如双路16核,和GPU相差8倍。

深度学习是浮点计算密集应用,目前广泛使用GPU。假如单纯堆砌大量CPU会造成网络通信延迟,堆得越多速度越慢。而单机GPU计算能力密度高,所以业界普遍使用GPU。

世界高性能计算TOP500很多采用GPU加速,比如我国首个夺取全球第一名的超级计算机“天河一号”。

阿里云的GPU合作伙伴是NVIDIA。NVIDIA全球副总裁、PSG兼云计算业务总经理Ashok Pandey表示:“深度学习是NVIDIA重要的战略方向,未来我们将发挥自身在深度学习技术平台的优势和在全球深度学习领域积累的应用经验,与阿里云一起为中国致力于深度学习的新兴企业提供更强大的支持。”

开放全世界唯一kepler架构GPU原生汇编器

高性能计算不仅需要硬件设施,更需要匹配“软实力”,才能最大限度发挥硬件性能。

长仁介绍,阿里云不仅提供硬件和基本系统,更为HPC准备了Docker实例、调度系统、监控平台,以及针对深度学习的训练、预测中间件和工具。

尤其值得一提的是,阿里云HPC主页(hpc.aliyun.com)开放了全世界唯一的kepler架构GPU原生汇编器及cuda占用计算器,这是阿里内部性能调优的“独门秘技”。阿里用这款汇编器优化出了目前在kepler架构GPU上最快的卷积、矩阵乘法实现。

 

云端也能做高性能计算 GPU比CPU受捧

 

alexnet第二层卷积单精度量化性能

专注于计算机视觉识别的明星创业公司格灵深瞳HPC负责人张洋表示:“阿里云HPC产品性能强劲,配置简单,作为线上预测服务平台是很棒的选择。期待阿里云自己的深度学习软件框架上线。”

涂鸦技术架构师柯都敏也称赞阿里云“强劲的HPC能快速解决我们对数据训练和线上业务的需要”。

只有用户才能更好地服务用户

领先的互联网巨头如Google、Facebook都是GPU的深度用户。同样,阿里内部也部署了大规模的GPU异构计算集群,服务于所有内部应用。

在对外提供服务之前,阿里云已经在高性能计算领域实践多年,从设备选型、准入测试、运维监控,到系统架构、性能优化等,整个链条都有深入积累。

长仁认为,脱胎于阿里“母体”的HPC不仅是一款产品,更是一种服务能力,这是阿里云的核心竞争力。

这种能力也得到了用户的认可。利用深度学习搜寻时尚商品的创业公司Dress+ VP严布江就评价阿里云HPC团队“业务技能精湛,服务周到热情”。

从一些细节能看出长期积累的重要性。比如同样是利用GPU,但不同的公司会在具体技术选择上产生差异,小到如何插卡保证硬件性能的发挥都大有学问。

比如阿里云选择了NVIDIA K40,K40的GK110B是kepler架构GPU单核性能最强。在深度学习应用中,关键的卷积计算、矩阵乘法计算在开启或者关闭boost下,K40表现最出色。

 

云端也能做高性能计算 GPU比CPU受捧
云端也能做高性能计算 GPU比CPU受捧

 

市场上另外一些方案则会选择NVIDIA K80。K80是两个GK210核心,从用户的角度看虽然K80是1张卡,但是两个设备。每个设备的计算能力和K40比还有差距,用户要用好两个设备,相互配合完成一个任务需要额外的开发,使用难度会提高。

专注于人脸识别的创业公司Face++许欣然对K40的性能表示认同,他表示“阿里云HPC服务器性能优异,发挥了双卡K40的极致性能”,另外“运维出色,稳定性非常强”。

长仁表示,阿里云既是阿里内部用户的服务者,也同样是用户,现在更是云上服务的提供者。只有经过实践才能更好地服务外部客户。

立即注册,成为异构开发社区会员!

免费获取社区newsletter,优先获取技术支持和活动信息,独享社区 贡献积分政策

特别推荐

你问我答

您所提出的问题,需要管理员审核后才能展示。发布规则

每月红人榜

  • qq_38214411

    所得积分:10

  • 2speedy201610
  • 3masanye57910

微博活动