问题描述
存算一体芯片在算力、能效比方面具有明显优势,能够有效克服“存储墙”和“功耗墙”问题,满足目前算力爆炸式增长的客观需求。但是由于关键器件材料性能制约、加工及流片工艺不完善、软件工具链技术缺失等问题,导致目前存算一体芯片工程化和产业化发展严重受阻。因此如何从存算一体芯片的原型设计、材料优化、加工工艺、软件工具链等方面进行系统性研发,实现存算一体芯片的工程化和产业化,是当前面临的一项重要产业技术问题。
问题背景
数字化和智能化时代带来算力需求的爆炸式增长,目前国内外纷纷全力投入以高算力、高能效为目标的计算芯片研究。然而随着摩尔定律逐渐放缓,单纯通过提升集成度以获得更高计算性能的技术难度急剧上升,而在计算架构方面进行创新成为了克服算力瓶颈的新路线。在目前普遍采用的冯诺依曼计算架构中,存储与计算分离结构造成了功耗大、延迟高(即“存储墙”)的问题,亟需在架构设计层面予以解决。
随着基于深度学习技术的人工智能应用热潮再次涌起,冯·诺依曼架构的“存储墙”问题也随之日益凸显。存算一体化,则尤其适用于此类数据访问密集的应用场景之中,经过学术界与产业界多年研究,普遍认为以存算一体技术为代表的非冯诺依曼架构能够有效克服“存储墙”问题,是未来快速提升算力、满足人工智能为基础的产业应用需要的最有潜力的技术路线之一。最新进展(截止问题发布年度)
由于存算一体芯片在算力、能效上的巨大优势,其发展前景十分广阔,因此国内外企业、科研院所也纷纷进行布局。
在学术方面,清华大学吴华强教授团队研制出全球首款多阵列存算一体全集成系统,证明多阵列存算一体技术的可行性以及能效、算力优势;另外,该团队设计并完成全球首款全系统集成的基于忆阻器的神经网络存算一体芯片,为边缘智能提供基于忆阻器的非冯诺伊曼架构的硬件解决方案。加州大学圣芭芭拉分校谢源教授团队致力于在新型存储器件ReRAM(阻变存储)里面实现计算的功能研究,即PRIME架构。清华大学刘勇攀教授团队和汪玉教授团队均参与了PRIME架构的研发,目前已实现在150nm工艺下流片,在阻变存储阵列里实现了计算存储一体化的神经网络,功耗降低20倍,速度提高50倍。此外,清华大学与SK海力士联合成立智能存储计算芯片联合研究中心,未来五年,将致力于研发存算一体与近存储处理技术。企业方面,国外企业如英特尔、博世、美光、LamResearch、应用材料、微软、亚马逊、软银等都投资了NOR闪存存算一体芯片。其中,英特尔发布的傲腾固态盘采用了片外存储技术,实现CPU与硬盘之间数据高速搬运,从而平衡高级分析和人工智能等大规模内存工作负载的性价比。国内如知存科技、新忆科技等大量初创公司进入存算一体市场,其中知存科技开发的超低功耗语音识别存算一体芯片采用片外存储技术,预计今年实现量产,与普通专用芯片相比,其算力可提高10至50倍。但是,目前存算一体芯片产业链尚不成熟,难以实现规模化的生产和行业应用,主要表现为上游支撑不足,下游应用不匹配,这是存算一体技术当前面临的主要挑战。具体而言,在上游支撑技术方面,目前主要的困境在于软件工具链技术的缺失,无法有效支撑存算一体芯片的生产制造,同时一些关键器件的材料性能有待提高,无法充分发挥存算一体的技术优势;在下游落地应用方面,目前应用的边界条件限制较多,需要进一步探寻具体的应用场景。从芯片全生命周期的各个阶段来看,在芯片的设计阶段,由于存算一体芯片和常规的芯片设计方案有所不同,目前市面上没有成熟的专用EDA工具辅助设计和仿真验证;芯片制造阶段,关键器件(如存储器件)的材料性能表现不足,加工工艺不够完善;流片之后,没有成熟的工具协助测试。在芯片落地应用阶段,暂时没有专用的 软件与之匹配。因此,如何系统性地对存算一体芯片的材料、工艺和工具链技术进行完善和发展,有效支撑存算一体芯片的工程化生产和产业应用,是行业相关从业者需要重点考虑的问题。具体来说,就是需要围绕存算一体芯片打造开发生态,以人工智能、物联网等算力密集型领域为依托,大力发展面向存算一体芯片的全栈式工具链技术,通过高效的指令集、编译器、EDA等软件工具充分发挥存算一体芯片的真正算力效能;同时进一步探寻适用存算一体芯片的行业应用场景,结合具体工程问题探索落地应用的各种可能性。重要意义
发展和完善存算一体芯片的关键器件材料、芯片加工工艺和软件工具链技术,大力推进存算一体技术的工程化和产业化进程,会大幅提升存算一体芯片的产能,缩短从芯片设计到落地应用的周期,这样可以有效地满足日益增长的算力需求,加快各行业的数智化转型的步伐。另外,以存算一体芯片作为契机,可以实现我国在AI芯片方面的国产化替代,打造长项优势。同时,存算一体芯片可以大幅降低AI计算带来的能源排放,助力于打造大规模绿色、高效的算力网络。