自主可控高性能GPU芯片开发

Independent and controllable high-performance GPU chip development

问题年度:2024 问题类型:产业技术问题 学科领域:信息科技 学科细分归类:通信与信息系统

推荐机构:中国图象图形学学会

高性能计算 图形处理 数据分析 计算能力

问题描述

高性能GPU(图形处理单元)是计算设备中的关键组件,负责渲染图像、视频和其它视觉内容。近年来,由于虚拟现实、人工智能和高分辨率游戏等图形密集型应用和技术的兴起,对高性能GPU的需求显著增加。高性能GPU在各个应用领域有着广泛的应用,已是国家经济的支柱技术。在当今紧张的国际环境和脱钩的压力下,中国研发自己的高性能GPU显得极其重要。

开发高性能GPU是一个复杂的系统工程,涉及硬件设计、软件设计、先进制程工艺及开源架构和应用集成。开发高性能GPU涉及的许多关键步骤和注意事项,涵盖架构设计、性能优化、软件开发、功耗管理和制造工艺等各个方面。

GPU研发可以归纳为以下:图形处理单元(GPU)是一种专用电子电路,旨在快速操作和更改内存,以加速在帧缓冲区中创建图像,以输出到显示设备。高性能GPU是现代计算设备的重要组件,可实现在游戏、人工智能、科学计算和视觉设计等领域的广泛应用。除了芯片硬件开发之外,还有软件框架开发,包括GPU上运行的固件、Kernel Driver、User Mode Driver、Windows Systems。集成这些系统有很大的挑战。

开发高性能GPU有一系列的困难和挑战,包括:

架构设计:GPU的架构包括处理单元、内存子系统、互连和专用硬件组件(如:纹理单元)。高效且能够处理复杂的图形和运算处理任务的架构极其重要。

软件栈开发:GPU编程需要编写高效的算法、优化并且执行代码以及利用专门的库和框架。软件开发包括驱动程序、编译器和工具。集成开源软件是开发人员能够充分利用到的巨大的开原生态工作之一。

性能优化:最大化性能同时最小化延迟,该瓶颈对于GPU开发至关重要。这涉及优化架构、平衡工作负载以及实施高效的数据处理技术。

测试:GPU是个大系统芯片。除了模块级测试、芯片级测试,还需要整机和多机互联测试。

功耗管理:管理功耗和散热对于高性能GPU来说至关重要,以确保稳定性、可靠性和效率。必须设计多个电源域,并由软件根据需要自动管理。

制造工艺:使用先进半导体制造工艺对于GPU最终性能至关重要。开发高性能GPU需考虑使用最优的生产工艺。同时,也要考虑当前国际形势对可使用工艺的影响。

综上所述,开发高性能GPU是一个充满挑战的大系统过程,需要硬件设计、软件优化和先进工艺技术等方面的专业知识,以及多年经验的积累。研发过程中涉及架构设计、软件开发、可使用IP及制造工艺等领域。在当前国际大环境中,每一个环节都要有研发人员的多年技术积累和灵活应对挑战的能力。

依据国家对高性能GPU的国产自主可控的需求,从图形学理论的基础解析开始,对各种应用场景的算法和算力要求进行了全面分析,定义出完全自研的、面向超标量流处理的架构及核心IP,打造系列产品作为高性能GPU的国产替代,解决卡脖子问题。该国产GPU应遵循国际标准OpenGL&OpenCL,满足高质量图形显示的可编程设计,可形成高性能通用图形处理器板卡、模组、系统等多种形式的产品,采用双精度Tensor Core,实现了自GPU推出以来,高性能计算性能的巨大飞跃。GPU可兼用于显示设备和智算设备。结合80GB的高速GPU显存,可将10小时双精度仿真缩短到4小时以内,HPC应用还可以利用TF32将单精度、密集矩阵乘法运算的吞吐量提升高达10倍,提供功能强大的端到端AI和HPC数据中心平台,并应用于深度学习训练、深度学习推理、高性能计算、高性能数据分析,加速当今时代的重要工作。

问题背景

GPU是一种复杂的高端芯片,国际巨头起步早,有着多年沉淀下的高技术壁垒和专利壁垒,国外NVIDIA引领GPU行业发展数十年,大多数时期技术和市场份额均领先。

2019年,中国芯片的自给率仅为30%左右,其中涵盖GPU在内的可编辑逻辑器件的国产化率仅为1%,国产GPU严重不足。

1.广阔的市场需求:GPU在数据中心的应用蕴藏巨大潜力。在数据中心,GPU被广泛应用于人工智能的训练、推理、高性能计算(HPC)等领域,GPU订单火热,主要得益于全球算力需求的激增。2021年全球GPU芯片市场规模达400亿美元。预计到2025年,全球GPU芯片市场规模将突破4000亿美元。

我国是全球电子信息制造和消费大国,对GPU的需求巨大,但我国暂无可替代的产品问世。目前我国使用的高性能GPU芯片几乎全部来自美国的NVIDIA、AMD两家公司。GPU在中国市场供应确实紧缺,GPU国产替代紧迫性和重要性进一步提升。

2.寡头高度垄断:GPU是一个高技术含量的赛道,是一项系统工程,包含硬件架构、算法、软件生态等多个组成,缺一不可。放眼全球,GPU呈现寡头高度垄断的格局,排名前三的NVIDIA、AMD、Intel的营收几乎垄断整个GPU行业的销售。据统计资料显示,2021年全球GPU市场规模335亿元;2028年全球GPU市场规模有望达到4774亿元,其中,中国市场2020年市场规模为47.39亿美元,预计2027年市场规模将达到345.57亿美元。而全球GPU行业市场主要由NVIDIA和AMD两家主导,市场占比分别为84%和12%,尤其在AI大模型训练芯片市场中,NVIDIA凭借V100NVLink、V100PCIe等系列产品占据了90%以上的市场份额。

3.欧美芯片封锁:高性能GPU芯片在人工智能、高性能计算和数据中心等领域发挥着至关重要的作用。然而,美国将这一领域视为非常敏感的,并采取限制措施来遏制中国行业的发展。这一限制措施不仅针对英伟达和AMD等美国企业,还对中国市场推出的“特供版”芯片A800进行了限制,此举旨在通过限制芯片出口来遏制中国的人工智能、高性能算力等行业的快速发展。

在国内,GPU本就稀缺,加上美国的限制和打压,使得国内GPU更加供不应求。近日,美国宣布要封锁中国GPU,进一步加剧了芯片供应链的紧张局势,美国的此番行动对中国而言无疑是一个巨大的挑战。中国作为全球最大的芯片市场,面临着巨大的压力,在严峻的国际形势下,GPU的国产替代进程刻不容缓。在庞大的市场需求和欧美的芯片封锁等全方位打击之下,迫使得国产GPU被推到了聚光灯下,加速攻克“卡脖子”技术,研发高性能国产GPU势在必行。

我国现有的绝大部分计算机中所使用的GPU均为美国芯片巨头(NVIDIA、AMD、Intel)所垄断,尽管在民用领域目前看来没有太大问题,但是在党政军办公和国民经济的关键领域,存在严重的信息安全隐患和供货保障问题。因此,亟需开展国产GPU的研制工作,并加速推广应用。

近些年,国外GPU技术快速发展,已经突破了其传统功能的范畴。国内GPU芯片的研制严重滞后,仅能满足目前大多数2D图形应用需求;在3D图像、新型的图形渲染技术方面仍然和国外领先水平存在较大差距,未来持续发展国产GPU势在必行。

最新进展(截止问题发布年度)

NVIDIA坚持每两到三年完成一次架构迭代,持续保持领先的图显和计算性能:其中,最新发布的NVIDIA GeForce RTX40系列代表了目前显卡的性能巅峰,RTX 40系列采用全新的Ada Lovelace架构,台积电5nm级别工艺,拥有760亿晶体管和18000个CUDA核心,与Ampere相比架构核心数量增加约70%,能耗比提升近两倍,可驱动DLSS 3.0技术,性能远高于上代产品。架构创新迭代高效,架构之间性能提升显著。而AMD(ATI)也曾凭借Radeon 9700、Radeon 9800强势崛起,近些年的RDNA架构也令其市场份额快速提高。

相比于像NVIDIA、AMD这些国际巨头,国产GPU还处于起步阶段。乐观的是,在国内政策、资本和应用红利的推动下,一批国内GPU企业崭露头角,初期以购买IP授权的模式为主,目前有不少企业摒弃以往购买IP授权的模式,选择自主研发。如登临公司的GP+系列产品开创了新一代AI通用处理器/加速器的先河,成功填补了国内高性能AI计算领域技术和产品方面的空白。再如华为的昇腾AI芯片是我国自主研发的一款高性能AI芯片,专为人工智能应用而设计。这款芯片在业界备受瞩目,尤其在替代国外品牌AI芯片方面取得了进展,但它不是GPU,只是AI加速芯片。芯片拥有多个处理核心,具体数量可能因不同的版本而有所不同。据官方数据显示,该芯片在人工智能推理性能方面表现出色,能够在各种复杂的人工智能计算任务中提供高效能的处理能力。芯片还具备高算力,单颗芯片算力高达180TFLOPS。

优点

1.高性能:使得其性能表现优秀,能够满足各种复杂的人工智能计算需求。

2.低功耗:该芯片在保持高性能的同时,注重功耗控制,降低了运行成本,提高了整体能效。

缺点

1.生态建设不足:虽然此芯片在性能上具备优势,但由于华为芯片应用生态尚未完全建立,部分用户可能面临应用兼容性和开发难度等问题。

2.市场竞争压力:随着人工智能技术的不断发展,国内外厂商纷纷加大投入研发AI芯片,市场竞争日益激烈。

技术方案探讨

GPU芯片除了应用于传统的图形图像处理外,依赖其并行计算的特性,也广泛应用于大量的科学计算领域,而AI就是其中一个很重要的方向。当前AI算力市场上,基于NVIDIA其历史以来的一家独大的市场现状,绝大部分现有客户的应用层面配套软件的开发都是基于其CUDA软件体系。而国产芯片的配套软件生态方面目前还很薄弱,与CUDA系统相比存在兼容性差、功能少、稳定性差、软件未能充分发挥硬件性能等较多问题。且国内各芯片厂家之间未能建立统一的软件体系接口,都自成一套。这导致现有客户在采用国产芯片后还需要投入大量的人力去适配各家国产软件体系架构,特别是在异构环境下,从而大大推高了客户移植成本,降低采购意愿。软件生态问题成为制约国产GPU芯片在通用市场推广的重大因素。

除了基础软件生态兼容性问题外,我们在国产GPU芯片上提供高性能算子库、支持多机多卡异构环境下的并行加速中间件软件、支持异构国产GPU芯片的AI编译工具等基础软件方面依然过于薄弱,这些也都将制约国产GPU芯片在传统的图形图像处理市场以外的人工智能、云计算、大数据、自动驾驶、元宇宙等方向的应用场景的推广及落地。

具体可以采用多个SC(Shader Complex,着色器复合体),每个SC有四个CCM(Core Cluster Module,核心集群模块),每个CCM有八个CE(Core Engine,核心引擎)的总体数据流的结构及数据量,形成统一图形渲染流水线。

采用图形流水线架构,从图元着色器开始,图元贯穿整个流水线。这种类型的结构的最大优点是,早期的表面剔除可以在流水线作业中非常早地减少许多图元,并且早期的图元装配可以比在流水线中间容易实现。

重要意义

本问题取得突破后,高性能GPU芯片是数字经济的底座,可应用领域极其广泛:游戏设备、消费电子、云端AI服务器、自动驾驶、边缘计算、智慧安防、加密货币、医疗影像设备等等。

社会效益:

1.推动自主可控GPU国产化。从芯片架构层级起实现独立自主开发,最终实现芯片的完全自主可控,摆脱国内高端GPU长期依赖进口的局面,有效维护国家战略层面和关键领域的安全;

2.填补国内高端GPU芯片技术空白。以技术能力夯实全国集成电路IC设计的示范引领作用;

3.聚集全球范围内高水平技术人才。以GPU芯片研发为契机,继续吸纳培养更多的高端人才;

4.带动上下游产业发展。国产GPU芯片的规模化商用,会形成高性能通用图形处理器板卡、模组、系统等多种形式的产品,应用于个人计算机和自主可控的专用成像系统;同时对芯片封装、测试等各环节有更高的要求,有助于带动相关行业发展和技术革新。

经济效益:

产业问题解决后,主要以服务国防、军工、信创等国产GPU刚性需求为主,产品流片、封装、测试完成后,可进行小范围产品的试产,产品投放市场后,预计年产销售收入100亿元,从而基本实现进口替代,解决我国长期以来在芯片领域被卡脖子的问题。