导航菜单

吴樾-华为史上最强芯片昇腾910问世,算力超Tesla V100一倍,AI结构MindSpore下一年开源

这是迄今为止华为推出的最强芯片。刚刚,华为在深圳宣告其自研的 AI 练习芯片「昇腾 910」正式上线。与此一起,一起推出的还有华为全场景 AI 核算结构 MindSpore。

华为表明,全新的人工智能芯片「昇腾 910」首要面向 AI 数据科学家和工程师,其算力已到达全球领先水平,远超谷歌的 TPU v3 和英伟达最新的 GPU Tesla V100。合作 MindSpore 开源结构,华为一次满意了终端、边际核算、云全场景需求,让芯片的强壮算力能够以最高效的方法被人们运用。

昇腾 910 也是华为「达芬奇架构」最大的一款芯片。上一年 10 月,华为在全联接大会(HC)上宣告了达芬奇方案,其间用于人工智能练习的昇腾 910 芯片分外有目共睹。它被认为是全球单芯片核算密度最大的 AI 芯片。今日,华为在深圳的发布让咱们总算能够和它碰头,人们能够在华为云服务中运用这些芯片了。

华为公司轮值董事长徐直军表明,「华为自 2018 年 10 月发布 AI 战略以来,稳步而有序地推动战略履行、产品研制及商用进程。昇腾 910、MindSpore 的推出,标志着华为已完满足栈全场景 AI 解决方案的构建,也标志着华为 AI 战略的履行进入了新的阶段。」

华为首款 AI 练习芯片昇腾 910

面向服务器的芯片昇腾(Ascend)910 选用 7nm 制程,而规吴樾-华为史上最强芯片昇腾910问世,算力超Tesla V100一倍,AI结构MindSpore下一年开源划功耗为 310W,其算力比英伟达 Tesla V100 还要高出一倍,半精度(FP16)到达了 256 TeraFLOPS(英伟达 Tesla V100 为 125),整数精度算力(陈凯师INT8)则为 512Te吴樾-华为史上最强芯片昇腾910问世,算力超Tesla V100一倍,AI结构MindSpore下一年开源raOPS。在这块芯片上,华为还加入了 128 通道全高清视频解码器。此外,华为表明,昇腾 910 到达标准算力所需功耗仅 310W,显着低于规划标准的 350W。

图:昇腾910与谷歌TPU、英伟达v100比照

徐直军表明:「昇腾 910 彻底到达了规划标准,在平等功耗下具有的算力资源,到达了业界最佳水平的两倍。它现已使用在实践的服务中,比如在典型的 ResNet50 网络的练习中,昇腾 910 与 MindSpore 合作,与现有干流练习单卡合作 TensorFlow 比较,显示出挨近 2 倍的功用进步,每秒处理的图片数量从 965 张进步到了 1802 张。」

在发布芯片的一起,华为还推出了大规模分布式练习体系 Ascend 集群,在规划中,该集群将包括 1024 个 Asced 910 芯片,算力到达 256P,大幅超越英伟达 DGX2 和谷歌 TPU 集群。

一次开发,全面布置:MindSpore

强壮的硬件也需求 AI 开发结构才干开释悉数潜能,MindSpore 是华为提出的全场景 AI 结构,与 TensorFlow、PyTorch、PaddlePaddle 等结构并排。

未来的 AI 使用由使命驱动,在不同场景中机器学习模型的布置方法不同;另一方面,跟着技能的快速开展,新方法引出的安全问题和算力瓶颈成为了人们面临的重要应战。

MindSpore 是一款支撑端、边、云独立的和协同的一起练习和推理结构。华为期望经过这款完好的软件仓库,完结一次性算子开发、一起的开发和调试体会,以此协助开发者完结一次性开发,使用在一切设备端、边际及云端滑润搬迁的才能。

「MindSpore 结构支撑从大到小的一切设备,一起也支撑本地的 AI 核算,然后完结隐私维护,」徐直军表明。「这种结构传递给云端的数据能够是处理后的、不带有隐私信息的梯度、模型信息,而非数据自身,以此完结在确保用户隐私数据维护的前提下跨场景协同。除了隐私维护,MindSpore 还将模型维护 Built-in 到 AI 结构中,完结模型的安全可信。」

MindSpore 原生习惯一切的 AI 使用场景,并能够按需协同的根底上,经过完结 AI 算法即代码,使开发态变得愈加友爱,明显削减模型开发时刻。以一个 NLP(自然语言处理)典型网络为例,比较其他结构,用 MindSpore 可下降中心代码量 20%,开发门槛大大下降,功率全体进步 50% 以上。

MindSpore 和昇腾处理器结合能够明显进步 AI 负载的处理功率,不过即运用户选用惯例的 CPU、GPU,这一结构也能供给全面支撑。

在这一结构中,算子库 CANN 面向人工智能不断出现的多样性算子,统筹了高功用和高开发功率。TensorEngine 完结了一起的 DSL 接口、主动算子优化、主动算子生成,以及主动算子调优功用。值得一提的是,华为在 Tensor Engine 中选用了陈天奇等人提出的 TVM。华为称,CANN 能够完结 3 倍的开发功率进步。华为表明,MindSpore 一起也支撑现在一切干流深度学习结构中的模型。

在结构之上,华为还为开发者供给了更为高档的 ModelArts,这是一个机器学习 PaaS,供给全流程服务、分层分级 API 及预集成解决方案。上一年发布 ModelArts 后,现在的日均练习作业使命超越 4000 个,现已具有了超越 3 万名开发者。

根据达芬奇架构的一起性,开发者在面临云端、边际侧、端侧等全场景使用开发时,只需求进行一次算子开发和调试,就能够使用于不同渠道,大幅下降了搬迁本钱。

在发布会上,徐直军还宣告 MindSpore 将在 2020 年的第一季度开源,期望以此助力每一位开发者,促进 AI 工业生态开展。「华为在生态建设上有自己的优势,」徐直军表明。「咱们在智能终端上的 HiAI 引擎,能够让一切开发者根据异构核算的算力完结多种智能化服务。经过最强算力和先进结构的结合,咱们能够打造许多其他结构做不到的工作。」

跟着昇腾处理器和 MindSpore 等产品的推出,华为的全场景 AI 战略现已向咱们展现无余。

华为达芬奇方案

华为的达芬奇架构此前现已跟着昇腾 310 芯片,和 7 月份刚刚推出的麒麟 810 手机处理器为咱们揭开了面纱。华为期望经过这一自研架构的多种处理器,接收未来人工智能场景中的一切核算使命。

在达芬奇架构的处理器中,Da Vinci Core 仅仅 NPU 的一个部分,Da Vinci Core 内部还细分红许多单元,包括中心的 3D Cube、Vector 向量核算单元、Scalar 标量核算单元等,它们各自担任不同的运算使命完结并行化核算模型,一起保证吴樾-华为史上最强芯片昇腾910问世,算力超Tesla V100一倍,AI结构MindSpore下一年开源 AI 核算的高效处理。

其首要结构分为三吴樾-华为史上最强芯片昇腾910问世,算力超Tesla V100一倍,AI结构MindSpore下一年开源个部分:

  • 3D Cube 矩阵乘法单元。矩阵乘是 AI 核算的中心,这部分运算由 3D Cube 完结,Buffer L0A、L0B、L0C 则用于存储输入矩阵和输出矩阵数据,担任向 Cube 核算单元运送数据和寄存核算结果。
  • 向量核算单元尽管 Cube 的算力很强壮,但只能完结矩阵乘运算,还有许多核算类型要依托 Vector 向量核算单元来完结。Ve吴樾-华为史上最强芯片昇腾910问世,算力超Tesla V100一倍,AI结构MindSpore下一年开源ctor 的指令相对来说非常丰富,能够掩盖各种根本的核算类型和许多定制的核算类型。
  • 标量核算单元,首要担任 AI Core 的标量运算,功用上能够看作一个小 CPU,完结整个程序的循环操控,分支判别,Cube、Vector 等指令的地址和参数核算以及根本的算术运算等。

华为称,达芬奇架构适用于从手机端到智能设备,再到服务器端的悉数人工智能模型练习场景。在首款选用自研 NPU 的麒麟 810 上,华为现已展现了自己的 AI 芯片研制实力(搭载的手机是华为 Nova5 系列)。今日推出的昇腾 910 芯片是现在选用达芬奇架构最大、算力最强的一款芯片。

华为一直在加强出资根底技能的研讨,自 2018 年 10 月发布 AI 战略以来,一直在稳步推动战略履行、产品研制及商用进程。昇腾 910、MindSpore 的推出,标志着华为已完满足栈全场景 AI 解决方案的构建,也标志着华为 AI 战略的履行进入了新的阶段。

昇腾 310 和昇腾 910 仅仅是一个开端,面向未来,华为还将推出更多的面向一切场景的产品。在 2021 年,华为还将推出下一代芯片昇腾 320,在 9 系列和 3 系列之间的昇腾 610 也将在下一年推出。

最终,徐直军表明:「在本年的华为全联接大会上,咱们还会发布愈加震慑的 AI 产品。」此外,华为的下一代旗舰手机处理器麒麟 990 也将在 9 月 6 日与咱们碰头。

WAIC 2019 开发者日将于 8 月 31 日在上海世博中心举行,包括 1 个主单元、4 个分单元、黑客马拉松比赛和开发者诊所互动区。

到时,全球顶尖 AI 专家、技能大牛、知名企业代表以及数千名开发者将齐聚上海,环绕人工智能前沿理论技能和开发实践进行共享与解读。

二维码