各位好,我是Trish Damkroger,英特尔数据平台集团副总裁、高性能计算总经理。今天,我要跟大家谈一谈扩展高性能计算边界:多架构时代。在开始演讲之前,我想感谢大家邀请我再度出席全国高性能计算学术年会,并发表演讲。
今年的情况和去年不太一样,我没能亲自来到现场,而是在英特尔工作室与大家进行交流。全球疫情的爆发让大多数人进入了新常态,我希望每个人都平安健康。对我而言,高性能计算一直是一个令人兴奋的业务。而现在,随着新冠的影响蔓延到世界每一个角落,所有的目光都集中在高性能计算上,大家也很关注该技术将如何助力抗击此次疫情和未来可能爆发的疫情。这是激动人心的时刻,让我们直接进入演讲,谈谈扩展高性能计算边界:多架构时代这一话题。
在此次新冠疫情爆发期间,高性能计算在社会中发挥的作用和重要性比以往更为明显。事实证明,科技是让社会各界延续正常生活的重要工具。无论是上网课、远程工作,或是以前所未有的规模提供线月,英特尔发布了科技抗疫计划,提供5000万美元帮助世界各地的人们渡过难关。英特尔正与客户、合作伙伴以及政府机构合作,发掘我们无可匹敌的生态系统之潜力,用于改善患者在医疗点的治疗效果,为卫生系统提供支持以应对疫情冲击,并加速治疗方法和疫苗研发的进度,为当务之急提供解决方案。我很高兴,能与大家分享英特尔生态系统开展合作的一些领域。在疫苗和治疗方面,世界各地的超级计算机均在高速运转,以对抗新冠病毒,英特尔 技术为德州大学高级计算中心(TACC)提供支持,助力新冠病毒、其他病毒以及DNA复制等任务。高性能计算机研究中心也启用了英特尔技术,运行分子动力学和仿真技术,以了解病毒结构,加速新冠药物和治疗方案的探索。在寻找新的抗病毒药物和疫苗的过程中,英特尔资本投资的VeriSIM Life开发了一个软件平台,该平台有助于加快新药的发现。该系统可在数小时内对数千种药物化合物的实验测试结果进行建模,加速开启试验和新药上市时间。我们正与医学影像厂商开展合作,利用人工智能加速工具进行基于人工智能的诊断决策,并在安全的联邦学习框架中,开发跨多个数据集的新冠模型。在人群分析方面,我们通过大数据分析、人工智能和英特尔 Apache Pass技术,实现高危患者分层,提前预测新冠患者的呼吸机需求。纽约苦于应对新冠患者的时候,我们与纽约布朗克斯区最大的综合医疗服务网络Montefiore医疗系统开展合作,帮助他们开发出专门针对新冠的实时态势感知系统,提前数小时识别、分流并优先处理需要机械通气与重症监护的新冠患者,或已经出现急性呼吸窘迫综合症的患者。这得益于Montefiore的“患者导向分析学习机”(Patient-centered Analytic Learning Machine),
该技术基于第二代英特尔 至强 可扩展处理器和英特尔 傲腾 技术,整合了多种数据、计算和通信密集型技术,以企业级规模及时实现人工智能。接下来谈谈在高性能计算领域看到的两大趋势:越发常见的异构架构的使用和高性能计算与人工智能的融合。
通用处理和工作负载优化加速至关重要。传统的建模和仿真工作负载主要涉及标量和矢量数学计算优化。
另一方面,人工智能并非一个单一的单体工作负载,它仍在不断发展——需要更强大的架构能力,需囊括矩阵和空间数学优化。此外,高性能计算从边缘,到客户端,再到数据中心和云基础设施,需启用一个多层面的方法。“一刀切”的解决方案将无法提供用以构建客户所需优化解决方案必备的正确功率、计算或延迟选项。
日益丰富的人工智能使用场景,将我们推向计算智能进一步强化的新时代,模式的变革推动着人工智能和高性能计算工作负载的融合。现如今,我们看到,这一融合以多种方式发生在各行各业,其主要目标便是实现人工智能——加速传统上完全由高性能计算完成的洞察。人工智能正被整合到高性能计算工作流当中,以加速模式检测,在某些情况下,比如CERN,人工智能模型正完全取代基于物理学的模型。人工智能也在为个性化医疗等领域的高性能计算仿真提供加速。在瑞金医院,研究人员正利用机器学习算法来预测患者的个体风险,并能够更准确、更精确地识别哪些患者将从特定疗法中获得最大受益。这项研究是“转化医学国家重大科技基础设施(上海)” 这一重大计划的一部分,将为上海打造一个综合转化医学中心,囊括疾病预防、早期诊断和个性化治疗的模型与方法,解决重大疾病的发生、发展和复发等重大科学问题,促进高端医疗产业技术的研发。英特尔正与瑞金开展合作,利用英特尔 至强 处理器和英特尔 傲腾 内存为其构建高性能计算和人工智能基础设施。
英特尔多架构策略正是着眼于实现这一目标。英特尔的多架构策略带来了部署在硅平台上的标量、矢量、空间和矩阵架构的多样化组合,例如CPU、GPU、FPGA和专用加速器等等,并由开放、符合行业标准的统一编程模型提供支持,以简化应用开发和可移植性。从多用途CPU到人工智能优化离散式专用集成电路,英特尔提供了最灵活且性能得到优化的产品组合。如今,客户可以通过英特尔 至强 可扩展处理器、英特尔 酷睿 CPU和英特尔FPGA乃至低功耗英特尔 Movidius VPUs来应对高性能计算和人工智能的工作负载。
收购Habana Labs后,英特尔从边缘到云端、从硬件到软件的产品组合更加丰富,为客户提供了一套完整的解决方案。对于希望加速各种工作负载的客户而言,基于Xe架构的GPU将为他们提供更多选择。作为高性能计算的成熟基础,英特尔 至强 处理器将继续作为一个得力助手,为要求最高、以人工智能为主的工作负载提供支持。但随着计算需求的不断增长,以及工作负载日趋多样化,需要通过多架构加速为CPU平台提供补充,以满足每个客户的计算需求。有些用户使用的应用,对高度并行高性能计算应用和深度学习训练都有优化需求,英特尔基于Xe架构的GPU便是为这些用户量身打造的。FPGA用于要求灵活性的应用,而专用集成电路,例如我们最近收购的Habana Labs,则将为人工智能训练和推理提供专用加速。最后,以低延迟的方式在计算区域存储和移动复杂大型数据集所导致的系统复杂性则需要使用新一代内存和互联技术的支持——英特尔也一直在该领域进行创新和投资。
高性能计算和人工智能的融合是高性能计算行业的一个关键拐点,目前尚没有哪家公司能够更好地帮助我们的客户利用这一模式。
英特尔 至强 可扩展处理器是唯一一款针对高性能计算和人工智能融合进行优化的数据中心CPU——通过AVX512向量SIMD扩展来加速高性能计算应用,通过英特尔 深度学习加速(英特尔 DL Boost)技术来加速人工智能应用——尤其是VNNI指令集,能让现有Cascade Lake处理器中的推理应用更快一步。Cascade Lake处理器支持英特尔 傲腾 持久内存,可加速数据分析和AI应用,同时推动高性能计算系统的加速检查点和启动等关键功能。我们即将在今年推出首款10nm Ice Lake服务器CPU,而计划于2021年推出的Sapphire Rapids,会新增名为高级矩阵扩展(AMX)的加速器。
英特尔在集成显卡领域的投资经验已超十年,目前已有超十亿用户使用该架构为各种客户端应用提供支持。Xe架构代表着英特尔的架构设计,从单纯考虑功耗和面积受限的集成显卡需求,向完全可扩展的图形架构过渡,这种架构将得到大幅拓展,以服务于多个市场,从集成显卡和入门级独立显卡到高端游戏和数据中心显卡。Xe 是11代之后新型可扩展图形架构的代表。英特尔的Xe架构代表了一个完整的GPU产品组合,涵盖领域广泛,从集成图形到高性能计算和人工智能等高要求的数据中心应用。基于Xe架构的GPU包括三类,从低功耗(Xe-LP),到高性能的(Xe-HP),再到针对高性能计算和人工智能加速优化的GPU(Xe-HPC)。
在8月的架构日上,我们披露了Ponte Vecchio将由基于10nm SuperFin技术的基模、基于英特尔和外部工艺的计算区块、基于增强型SuperFin技术的Rambo缓存以及基于外部工艺的Xe链路与Foveros和Co-EMIB先进封装技术强强联合组成。Ponte Vecchio将加入灵活的数据并行向量矩阵引擎,以应对一系列高度并行的工作负载。它旨在提供高双精度浮点吞吐量,并提供超高缓存和内存带宽,以处理对内存带宽要求较高的应用。Xe架构将利用英特尔新一代Foveros 3D封装技术,在封装内集成多个IP,包括HBM内存和其他专利技术。
正如我提到的,异构性将是加速高性能计算和人工智能融合的关键。支持计算引擎多样性,意味着开发人员需对单独代码库和工具链对成本和性能可能产生的影响进行管理,这就是我们与生态系统合作推出oneAPI的原因。oneAPI的建立是为了简化跨多种类型处理器和加速器的开发——不仅限于英特尔的硬件。基于行业标准和开放规范的oneAPI包含直接编程组件和基于API的编程组件,支持广泛的行业生态系统采纳该技术来推动创新、简化应用开发、实现应用在大量节点上的可扩展性——同时为您目前使用的、喜爱的编程语言提供支持。英特尔 oneAPI工具包(beta版)可公开免费下载,为不同硬件类型的代码移植、测试工具、测试工作负载提供测试环境。
自从在2019年超级计算大会上发布oneAPI以来,我们发布了8个oneAPI工具包(beta版),功能和性能稳步提升,可以对CPU、GPU和FPGA进行编程,同时也为分布式数据分析、渲染性能、剖析以及视频和线程库提供了新功能以及强化。oneAPI Gold将为开发者提供一个跨越标量、矢量、矩阵和空间,且具有生产质量和性能的解决方案,oneAPI Gold即将于今年为开发者推出。行业合作伙伴Codeplay已经为英伟达GPU开发了Data Parallel C++开源编译器,为使用现有GPU加速器的开发者提供统一的、基于行业标准的编程工具。虽然英特尔优化版的TensorFlow和Pytorch深度学习框架目前已经可以用于CPU,但我们正在继续对GPU进行优化,应该会在不久的将来推出。最后,您可以访问查找规范、开源实现,并提供关于oneAPI的反馈。
对于不想下载工具包的人,您也可通过云端使用工具包。开发者可以通过英特尔 DevCloud快捷使用,从注册到登录只需要一分钟。使用起来也很简单,只需修改一行代码就可以应对所有多架构,而且无需安装、无需下载、无需购买新硬件,也没有冗长的设置和配置步骤。最重要的是,该工具免费、快速,即刻就可以在您已有的至强 、FPGA和集成系统上开始编码。部分客户在签署保密协议的情况下已经开始使用英特尔 DG1 GPU。
概括说来,我们通过以下措施专注打造融合的未来:投资领先工艺技术和先进封装能力;打造计算架构,为您的所有工作负载提供最高性能;重新架构内存和存储层次,满足带宽和内存容量需求;通过性互联技术,在每个层次上实现安全技术;为现在和未来的异构系统提供统一的编程模型。而我想说的最后一点是,没错,英特尔不仅在对我们的领先技术进行投资,也在投资未来的技术领导者。
英特尔自2013年开始赞助并行应用挑战赛,吸引了来自中国40多个城市的学生参赛,300多所大学和160多个组织参加了比赛。组建了1200多支队伍,有超过7000人参加了这项赛事。赛事的规模每年都在持续扩大,其概念和挑战也越来越有趣,成为了表彰杰出成就和高性能计算应用的盛会,也是并行计算领域优秀人才的摇篮。请继续保持在高性能计算领域的出色工作和投入,加油!
接下来,谢谢各位。谢谢你们邀请我再度出席全国高性能计算学术年会,希望大家能够尽情享受接下来的活动。(完)