电子报阅读机
2025-12-05
星期五
当前报纸名称:中国电子报

英特尔探索高能效比算力解决方案

日期:12-02
字号:
版面:(01) 要闻       上一篇    下一篇

图为宋继强在第七届全球IC企业家大会上分享可扩展异构计算系统的设计思路

“未来80%的AI计算将用在推理领域。智能体AI是推理领域真正能为客户产生价值的部分。其增长速度从2025年开始逐渐爬升,将逐渐超过做训练基座大模型和训练微调大模型的算力。”英特尔公司副总裁、英特尔中国研究院院长宋继强作出这样的判断。

当下,智能体AI、推理基础计算单元的token使用量正以极快的速度增长。与之相伴的,是算力基础设施需求的急速增长。如何才能提供低成本、高能效的算力基础设施?英特尔给出了自己的解决方案。

路径一:灵活

为了使芯片架构对未来需求保持一定的兼容性,使其能够应对智能体AI,甚至是物理AI新的应用和模型的变化,英特尔采取的方式是:尽可能抽象化异构基础设施复杂性,通过提供统一的软件栈方法,支持多云和多架构基础设施。

宋继强解释道,软件栈越开放、越简化、越抽象,未来上层应用所需要做的改变就越少,甚至不需要改变。同时,应用还能与多种不同的架构,甚至来自多种不同的供应商的硬件所构成的基础设施进行匹配。这样的处理方式,对于芯片供应企业和应用开发企业来说都是最优的发展思路,能够尽量地降低未来开发和投资过程中可能产生的浪费。

另外,从AI大模型发展的角度来看,大模型的演进远未结束。VLA(视觉—语言—行动)等多模态大模型,基于视觉、触觉等不同类型信息训练的模型仍在演进当中。AI模型及其框架仍会发生变化。

在这种情况下,如何保证芯片供应商为高效运行不同模型开发的软件能够长期有效,就成了另一个大难题;对不同类型处理器的编排能力,便成为重要考察项。

在此背景下,宋继强对芯片的设计提出了三个维度的思考:第一,在硬件层面,需要异构的硬件架构基础;第二,在系统层,由于越来越多的推理应用是基于某一家企业开发的,而很多企业级用户不像云服务提供商那样具备大规模的数据中心和良好的供电、散热机制,因此系统要对企业的应用开发、服务器的部署友好,匹配企业所需的算力规模;第三,软件栈层面,需要为用户提供开放的软件栈,能够支持可编程性、可被调配组合协议和多种AI框架。

为满足多种不同种类的硬件交付需求,英特尔致力于提供性能、能效比、生产制造灵活性更高的技术。今年10月份,英特尔在Tech Tour技术发布会上公开了最新的制程技术——RibbonFET(环绕栅极晶体管)。基于这一技术,四个纳米片能够被穿在共用的栅极中,英特尔便能够实现更高的晶体管的密度,使摩尔定律继续向前推进。但晶体管体积变小和密度提升,给供电、布线带来了新的挑战。而英特尔提供的背部供电方法很好地解决了这一问题,信号线、供电线分开,把信号线路设计在晶圆上面,供电线路在晶圆下面。通过这种方式,芯片供电效率得以提升。RibbonFET和背面供电两大技术组合,也为英特尔的18A、14A工艺保驾护航,使提升芯片制程、提供能效比优先的制造技术方案成为可能。

路径二:异构

为什么异构?

宋继强表示,从芯片技术实现的角度来看:如果只调用一种类型的硬件完成一项任务,就一定达不到整体效率和成本最优。相反,如果采用不同的硬件组合,使其“各司其职”,让不同类型的负载分别运行在不同架构的芯片上,整个硬件系统就能用更低的功耗、更少的成本完成任务。

英特尔开发的名为Clearwater Forest的数据中心CPU,便采用了异构的设计思路。这是一款能够提供高吞吐量的CPU,采用了多芯片封装的方式设计。这颗CPU中集成了12个Compute Tile(计算芯粒),均采用英特尔18A工艺制造,每个构造中集成了24个核心。这样一来,一颗数据中心CPU便集成了高达288个计算核。上述12个计算构造被分成了3组,分别与采用Intel3工艺生产的Base Tile(基础芯粒)连接。在封装层面,整体结构呈现为立体分层:顶层的12个计算芯粒与中层的3个基础芯粒通过Foveros Direct 3D封装垂直堆叠;底层的基础芯粒之间则通过2.5D EMIB(嵌入式多芯片互连桥接)技术实现横向互连。这种结合了2.5D和3D的混合封装方案,实现了高带宽、低功耗的芯粒互联。

相较于数据中心CPU,AIPC使用的处理器需要更小的尺寸,也需要更低的高度。因此,英特尔面向AIPC开发的CPU Panther Lake采用Foveros 2.5D封装技术实现了双层堆叠。其中,计算芯粒承载了芯片的大部分功能。有的模块负责实现CPU的通用计算,有的负责实现GPU并行计算。另一层基础芯粒也是基于先进制程制造,能够提供一定的I/O接口、存储和互联能力,以便于将不同的计算功能分布在不同模块中。

PC产品对性能的要求极为复杂,这样的设计能够使芯片实现较高的灵活度和架构可拓展性。例如,某些入门级的产品,只需要一定的计算能力就可以了;而游戏本既需要计算能力,也需要AI加速能力,便需要实现更多计算构造的组合。而上述架构方式,使得芯片性能具有很高的可调节度——针对不同类型的目标产品需求,实现对芯片性能能够实现灵活的调节调度,且不会增加过多的设计成本。

不论是客户端CPU,还是数据中心CPU,都采用了基于Chiplet的多芯片立体封装技术。英特尔已经在封装技术领域深耕多年。1999年,英特尔推出了第一款使用FCBGA封装技术的芯片,这是一种2D封装技术,迄今已经实现了广泛应用,且具有极高的效率和性价比。2018年,EMIB(嵌入式多晶片互连桥接)技术首次应用于酷睿8代Kaby Lake-G处理器。今年上半年,在英特尔宣布全面开启OSAT模式之时,2.5D封装技术EMIB成为Intel Foundry面向客户推荐的重点技术。其中,EMIB-T技术意味着设计师可以在EMIB技术的基础上采用TSV硅通孔以提高芯片的性能。