/ EN
13922884048

技术交流

Technology Exchange
/
/

3D 封装将成为主要工艺​ !芯片巨头决战先进封装!

发布时间:2022-03-18作者来源:萨科微浏览:2517

一、3D 封装将成为主要工艺


转自:智东西

近日,中国台湾工业技术研究院研究总监 Yang Rui 预测,台积电将在芯片制造业再占主导地位五年,此后 3D 封装将成为主要工艺挑战。

过去十年各种计算工作负载飞速发展,而摩尔定律却屡屡被传将走到尽头。面对更家多样化的计算应用需求,为了将更多功能 " 塞 " 到同一颗芯片里,先进封装技术成为持续优化芯片性能和成本的关键创新路径。

台积电、英特尔、三星均在加速 3D 封装技术的部署。今年 8 月,这三大芯片制造巨头均亮出,使得这一战场愈发硝烟四起。

▲英特尔封装技术路线图

通过三大芯片制造巨头的先进封装布局,我们可以看到在接下来的一年,3D 封装技术将是超越摩尔定律的重要杀手锏。

一、先进封装:将更多功能塞进一颗芯片

此前芯片多采用 2D 平面封装技术,但随着异构计算应用需求的增加,能将不同尺寸、不同制程工艺、不同材料的芯片集成整合的 3D 封装技术,已成为兼顾更高性能和更高灵活性的必要选择。

从[敏感词] 3D 封装技术落地进展来看,英特尔 Lakefield 采用 3D 封装技术 Foveros,台积电的 3D 封装技术 SoIC 按原计划将在 2021 年量产,三星的 3D 封装技术已应用于 7nm EUV 芯片。

为什么要迈向先进封装技术?主要原因有二点,一是迄今处理器的大多数性能限制来自内存带宽,二是生产率提高。

一方面,存储带宽的开发速度远远低于处理器逻辑电路的速度,因此存在 " 内存墙 " 的问题。

在传统 PCB 封装中,走线密度和信号传输速率难以提升,因而内存带宽缓慢增长。而先进封装的走线密度短,信号传输速率有很大的提升空间,同时能大大提高互连密度,因而先进封装技术成为解决内存墙问题的主要方法之一。

另一方面,高性能处理器的体系架构越来越复杂,晶体管的数量也在增加,但先进的半导体工艺仍然很昂贵,并且生产率也不令人满意。

在半导体制造中,芯片面积越小,往往成品率越高。为了降低使用先进半导体技术的成本并提高良率,一种有效的方法是将大芯片切分成多个小芯片,然后使用先进的封装技术将它们连接在一起。

在这一背景下,以台积电、英特尔、三星为代表的三大芯片巨头正积极探索 3D 封装技术及其他先进封装技术。

二、台积电的3D封装组合拳

今年 8 月底,台积电推出 3DFabric 整合技术平台,旨在加快系统级方案的创新速度,并缩短上市时间。

台积电 3DFabric 可将各种逻辑、存储器件或专用芯片与 SoC 集成在一起,为高性能计算机、智能手机、IoT 边缘设备等应用提供更小尺寸的芯片,并且可通过将高密度互连芯片集成到封装模块中,从而提高带宽、延迟和电源效率。

3DFabric 由台积电前端和后端封装技术组成。

前端 3D IC 技术为台积电 SoIC 技术,于 2018 年首次对外公布,支持 CoW(Chip on Wafer)和 WoW(Wafer on Wafer)两种键合方式。

▲ a 为芯片分割前的 SoC;b、c、d 为台积电 SoIC 服务平台支持的多种分区小芯片和重新集成方案

通过采用硅穿孔(TSV)技术,台积电 SoIC 技术可达到无凸起的键合结构, 从而可将不同尺寸、制程、材料的小芯片重新集成到一个类似 SoC 的集成芯片中,使最终的集成芯片面积更小,并且系统性能优于原来的 SoC。

台积电后端技术包括 CoWoS(Chip on Wafer on Substrate)和 InFO(Integrated Fan-out)系列封装技术,已经广泛落地。例如今年全球 TOP 500 超算榜排名[敏感词]的日本超算 " 富岳 " 所搭载的 Fujitsu A64FX 处理器采用了台积电 CoWoS 封装技术,苹果手机芯片采用了台积电 InFO 封装技术。

此外,台积电拥有多个专门的后端晶圆厂,负责组装和测试包括 3D 堆叠芯片在内的硅芯片,将其加工成封装后的设备。

这带来的一大好处是,客户可以在模拟 IO、射频等不经常更改、扩展性不大的模块上采用更成熟、更低成本的半导体技术,在核心逻辑设计上采用[敏感词]的半导体技术,既节约了成本,又缩短了新产品的上市时间。

台积电 3DFabric 将先进的逻辑、高速存储器件集成到封装模块中。在给定的带宽下,高带宽内存(HBM)较宽的接口使其能以较低的时钟速度运行,从而减少功耗。

如果以数据中心规模来看,这些逻辑和 HBM 器件节省的成本十分可观。

三、英特尔用"分解设计"策略打出差异化优势

和台积电相似,英特尔也早已在封装领域布局了多种维度的先进封装技术。

在 8 月 13 日的 2020 年英特尔架构日上,英特尔发布一个全新的混合结合(Integrated Fan-out)技术,使用这一技术的测试芯片已在 2020 年第二季度流片。

相比当前大多数封装技术所使用的热压结合(Thermocompression bonding)技术,混合结合技术可将凸点间距降到 10 微米以下,提供更高互连密度、更高带宽和更低功率。

▲英特尔混合结合技术

此前英特尔已推出标准封装、2.5D 嵌入式多互连桥(EMIB)技术、3D 封装 Foveros 技术、将 EMIB 与 Foveros 相结合的 Co-EMIB 技术、全方位互连(ODI)技术和多模 I/O(MDIO)技术等,这些封装互连技术相互叠加后,能带来更大的可扩展性和灵活性。

据英特尔研究院院长宋继强介绍:" 封装技术的发展就像我们盖房子,一开始盖的是茅庐单间,然后盖成四合院,最后到高楼大厦。以 Foveros 3D 来说,它所实现的就是在建高楼的时候,能够让线路以低功率同时高速率地进行传输。"

他认为,英特尔在封装技术的优势在于,可以更早地知道未来这个房子会怎么搭,也就是说可以更好地对未来芯片进行设计。

面向未来的异构计算趋势,英特尔推出 " 分解设计(Digression design)" 策略,结合新的设计方法和先进的封装技术,将关键的架构组件拆分为仍在统一封装中单独晶片。

也就是说,将原先整个 SoC 芯片 " 化整为零 ",先做成如 CPU、GPU、I/O 等几个大部分,再将 SoC 的细粒度进一步提升,将以前按照功能性来组合的思路,转变为按晶片 IP 来进行组合。

这种思路的好处是,不仅能提升芯片设计效率、减少产品化的时间,而且能有效减少此前复杂设计所带来的 Bug 数量。

" 原来一定要放到一个晶片上做的方案,现在可以转换成多晶片来做。另外,不仅可以利用英特尔的多节点制程工艺,也可以利用合作伙伴的工艺。" 宋继强解释。

这些分解开的小部件整合起来之后,速度快、带宽足,同时还能实现低功耗,有很大的灵活性,将成为英特尔的一大差异性优势。

四、三星首秀3D封装技术,可用于7nm工艺

除了台积电和英特尔外,三星也在加速其 3D 封装技术的部署。

8 月 13 日,三星也公布了其 3D 封装技术为 "eXtended-Cube",简称 "X-Cube",通过 TSV 进行互连,已能用于 7nm 乃至 5nm 工艺。

据三星介绍,目前其 X-Cube 测试芯片可以做到将 SRAM 层堆叠在逻辑层上,可将 SRAM 与逻辑部分分离,从而能腾出更多空间来堆栈更多内存。

▲三星 X-Cube 测试芯片架构

此外,TSV 技术能大幅缩短裸片间的信号距离,提高数据传输速度和降低功耗。

三星称,该 3D 封装技术在速度和功效方面实现了重大飞跃,将帮助满足5G、AI、AR、VR、HPC、移动和可穿戴设备等前沿应用领域的严格性能要求。

结语:三大芯片巨头强攻先进封装

可以看到,在 2020 年,围绕 3D 封装技术的战火继续升级,台积电、英特尔、三星这三大先进芯片制造商纷纷加码,探索更广阔的芯片创新空间。

尽管这些技术方法的核心细节有所不同,但殊途同归,都是为了持续提升芯片密度、实现更为复杂和灵活的系统级芯片,以满足客户日益丰富的应用需求。

而随着制程工艺逼近极限,以及应用需求的持续多元化,未来芯片制造商除了要解决散热等技术挑战外,还有望推进来自不同厂商的先进封装技术的融合。


 
     

二、芯片巨头决战先进封装

转自:半导体行业观察


以《战略绪论》一书闻名的近代法国战略大师薄富尔曾说:「战略的要义是『预防』而非『治疗』,『未来和准备』比『现在和执行』更重要。」半导体业界亦同,当摩尔定律所预言的制程微缩曲线开始钝化,将不同制程性质的芯片,透过多芯片封装包在一起,以最短的时程推出符合市场需求的产品,就成为重要性持续水涨船高的技术显学。  
  而这些先进芯片封装也成为超级电脑和人工智能的必备[敏感词]。别的不提,光论nVidia 和AMD 的高效能运算专用GPU、Google 第二代TPU、无数「人工智能芯片」,就处处可见HBM 记忆体的存在。  
   
  毕竟天底下没有面面俱到的半导体制程,观察到先进制程晶圆厂每隔4 年成本倍增的「摩尔第二定律」,也突显了电晶体单位成本越来越高的残酷现实。AMD 处理器从7 纳米制程开始全面性「Chiplet 化」,将7 纳米制程的CPU 核心和12 纳米制程的I/O 记忆体控制器分而治之,实乃不得不然。  
 
   


发展方兴未艾的先进封装技术


也因此,无论台积电还是英特尔,无不拼命加码,相关产品也如雨后春笋一个个冒出头来,而AMD 更在未来产品计画,大剌剌写着「融合2.5D 与3D 的X3D 封装」(虽然大概也是直接沿用台积电的现有技术),以达成超过时下产品十倍的记忆体频宽密度。  
   
  稍微替各位复习一下什么是「2.5D」封装,台积电拥有超过60 个实际导入案例的CoWos(Chip-on-Wafer-on-Substrate)算是这领域最为知名的技术,包含近期夺下超级电脑Top500 榜首的Fujitsu A64FX。英特尔用自家EMIB(Embedded Multi-Die Interconnect Bridge)将Kaby Lake 处理器与AMD Vega 绘图核心「送作堆」的Kaby Lake-G,也曾是轰动一时的热门话题。  
   
 
  有别于「2D」的SiP(System-in-Package),2.5D 封装在SiP 基板和芯片之间,[敏感词]了矽中介层(Silicon Interposer),透过矽穿孔(TSV,Through-Silicon Via)连接上下的金属层,克服SiP 基板(像多层走线印刷电路板)难以实做高密度布线而限制芯片数量的困难。  
 
   
 
  「叠叠乐」的3D 封装就不难理解了,台积电就靠着可减少30% 的封装厚度InFO(Integrated Fan-Out),在iPhone 7 的A10 处理器订单争夺战击败三星,终结了消费者购买iPhone 6S 还得担心拿到三星版A9 的尴尬处境(笔者不幸曾是受害者之一)。但3D 封装的散热手段与热量管理,也是明摆在半导体产业界的艰巨挑战。  
 
   
 
  英特尔相对应的3D 封装技术则为Foveros。最近正式发表、代号Lakefield 的「混合式x86 架构处理器」,堆叠了「1 大4 小核心」的10 纳米制程(代号P1274)运算芯片、22 纳米制程(代号P1222)系统I/O 芯片和PoP(Package-on-Package)封装的记忆体,待机耗电量仅2mW。  
 
   
 
  英特尔2019 年7 月公布的Co-EMIB,用2.5D 的EMIB 连接多个3D 的Foveros 封装,「整合成具备更多功能」的单一芯片。为EMIB 概念延伸的ODI(Omni-Directional Interconnect)则用来填补EMIB 与Foveros 之间的鸿沟,为封装内众多裸晶连接提供更高灵活性,细节在此不论。  
 
   
 
  连接封装内多颗裸晶之间的汇流排也是不可或缺的技术。  
  英特尔在2017 年将EMIB 连接裸晶的「矽桥」(Silicon Bridge)正式命名为「先进介面汇流排」(AIB,Advanced Interface Bus)并公开免费授权,2018 年将AIB 捐赠给美国[敏感词]先进研究计划署(DARPA),当作免专利费的裸晶互连标准,MDIO(Multi-Die I/O)则是AIB 的下一代。台积电相对应技术则为LIPINCON(Low-voltage-INPackage-INterCONnect),规格与英特尔互有长短。  
 
   


超级电脑用的系统单芯片并非IBM 和Fujitsu 的专利


长期关心ARM 指令集相容处理器与超级电脑的读者,想必对先前采用Fujitsu A64FX 处理器打造的日本理化学研究所的「富岳」并不陌生。这颗台积电7 纳米制程并CoWoS 2.5D 封装4 颗8GB HBM2 记忆体的产物,堪称当代[敏感词]代表性的「超级电脑专用系统单芯片」,让人不得不想起十几年前的IBM BlueGene /L。  
 
   
  曾在21 世纪初期靠着「地球模拟器」(Earth Simulator)独领风骚两年多的NEC,其SX 向量处理器的[敏感词]成员SX-Aurora TSUBASA,也是台积电16 纳米制程、2.5D 封装6 颗8GB HBM2 记忆体的超级电脑心脏。  
 
   
 
  而英特尔的Xeon Phi 系列更是知名代表,透过2.5D 封装包了8 颗2GB MCDRAM(Multi-Channel DRAM),可设定为快取记忆体、主记忆体或混合两者之用。虽然Xeon Phi 家族两年前惨遭腰斩,中断自从Larrabee 以来的「超级多核心x86」路线,英特尔决定整个砍掉重练,一步一脚印重头打造「传统GPU」当作未来高效能运算与人工智能应用的基础,但异质多芯片封装的重要性仍不减反增,最起码被英特尔从AMD 挖角、主导GPU 发展的Raja Koduri,自己是这样讲的,也没什么怀疑的空间。  
 
   
  不过AMD 也并未缺席,并看似有后来居上的气势,而且这并非突发奇想,早在2010 年之前,就开始进行长期研究,至今超过十年,并「很有可能」以EHP(Exascale Heterogenous Processor)之名开花结果,融合2.5D 与3D 封装的X3D 则是达成EHP 的关键。  
 
   
 
  Exa 意指Peta 的1 千倍,也是近年来超级电脑的下一个竞争指标,像预定采用AMD Zen 2 世代EPYC 处理器的美国国家核能安全管理局El Capitan 超级电脑,理论运算效能就超过2ExaFlops。  
 
   
  AMD 自从2007 年购并ATI 之后,整合处理器与绘图核心的APU 之路,一直走得相当挣扎,迟迟难以找到适合的产品规格与市场定位,不是CPU 不够好、GPU 不够强、就是两者都不上不下,到了Zen 2 世代才算脱胎换骨。  
  这些年来,AMD 在超级电脑市场逐渐边缘化,今年6 月的Top500 只剩下10 台AMD CPU 和一台AMD GPU,更需要强力的新兵器,才能「突破英特尔和nVidia 的封锁」。身为「超级电脑APU」的EHP 就成为AMD 默默进行的新方向。  
   
  以加拿大ATI身分在2010年申请「藉由假矽穿孔替3D封装进行导热」(Dummy TSV To Improve Process Uniformity and Heat Dissipation)专利为起点,AMD一路累积了「记忆体运算的快取资料一致性」 (2016年)、「3D晶粒堆叠的热量管理」(2017年)、「拥有[敏感词]频宽与可延展性能耗比的GPU架构」(2017年)、「记忆体内运算的阵列」(2018年) 、「回圈脱离预测(2018年)以改善闲置模式的效率」到「混合CPU与GPU的动态记忆体管理」(2018年)等成果,确定了AMD在2015年的财务分析师大会透露的「伺服器专用APU」与当年7月IEEE Micro发表的「藉由异质运算实现百亿亿级运算」(Achieving Exascale Capabilities through Heterogeneous Computing)计画并不是玩假的,更何况现在AMD当家作主的还是一位以务实闻名的全球薪酬[敏感词]女性执行长。  
   
  根据已公开的资料,EHP 概略规格如下,但后面势必将随着技术演进而有更动:  
 
  • 32 个CPU 核心(当时是8 颗4 核心CCD)。


  • 8 颗32 个GPU CU,总计256 CU 与16,384 个串流处理器(那时预定是GCN 第五代的Vega,看来将会推进到CDNA)。


  • 8 块4GB HBM2 记忆体堆叠。


  • 时脉1GHz 时,双倍浮点精确度理论效能为16TeraFlops,如十万颗组成超级电脑,就是1.6ExaFlops,预估耗电量为20MW。


  • AMD 在2015 年7 月IEEE Micro 专文,表示32 个CPU 核心、320 个时脉1GHz 的GPU CU(20,480 个串流处理器)、3TB/s 记忆体频宽、160W 功耗,是能耗比[敏感词]的组态,总之实际的产品一定会变。


  • EHP 和X3D 的技术资产会「推己及人」到Zen 3 世代EPYC 处理器「Milan」的可怕传言(像10 颗CCD 凑80 核心或塞HBM2 当L4 之类的),一直没有停过。



   
 
  EHP 也有配置芯片封装以外的外部记忆体,像断电后资料不会消失的NVRAM(Non-Volatile RAM,如英特尔/Micro 的3D Xpoint 和发展中SST-MRAM 等)和「记忆体内运算」的PIM (Processing-In-Memory,记忆体内建位元运算电路),相关的动态记忆体管理与快取资料一致性,也是AMD 需要克服的技术门槛,至于软体环境的完备性,更将是AMD 能否追上nVidia 的最核心因素。  
           

同场加映:nVidia 也没吃饱闲着


近来因「光明的未来前瞻性」而让公司市值一举超越英特尔的nVidia,在高效能运算、人工智能与自驾车等领域的优势地位几乎是牢不可破。除了帐面硬体规格,发展了十多年的CUDA 应用环境生态、远远超越英特尔和AMD 的GPU 虚拟化(这让客户使用AMD GPU 部署云端个人电脑的效益会明显不如nVidia,云端服务业者的虚拟GPU 亦同,比较一下可负荷用户端数量,就知道差别有多大了)和更多「不足外人道也」之处,才是支撑nVidia 股价的真正根基。  
  将话题拉回多芯片封装这件事,就算不论以「训练」为主的高阶GPU,nVidia 连「推论」用的芯片研究案都走向「多芯片封装延展性」。  
   
  但各位有没有想过一个更有趣的可能性:既然nVidia 高阶GPU 都这么大颗,干么不干脆「顺便」包一颗高效能的ARM(或RISC-V)指令集相容处理器,不再是英特尔、AMD 处理器的「附属品」,让GPU 变身成「可自行开机的超级电脑系统单芯片」?  
  事实上,nVidia GPU 内本来就有内建好几颗简称为Falcon(Fast Logic Controller)的微控制器,用来辅助GPU 运算处理,像支援影像图形解码到安全性机制,或减轻CPU 执行驱动程式的负担,如以前因为Windows 作业系统的延迟程序呼叫(DPC,Deferred Procedure Call)会逾时而不能进行的排程等。  
  2016 年,nVidia 先采用柏克莱大学的开源RISC-V 指令集相容处理器Rocket,开发出[敏感词]代Falcon 微控制器,2017 年第二代产品扩展到64 位元,并自行新增自定义的新指令。前述由27 颗封装而成的RC18 推论芯片,也是RISC-V 核心,每秒可执行128 兆次推论,功耗仅13.5W。  
  那么未来,假如nVidia 将「更多的工作」搬到GPU 内的RISC-V 核心,特别是驱动程式涉及大量GPU 底层机密资讯的「下面那一层」丢过去,或经由GPU 虚拟化掩盖起来,又会发生什么事?这件牵扯到另一个少人知悉的潜在需求了:来自官方的开源驱动程式。  
           

弦外之音:GPU 驱动程式开源的冲击



  台面上看不到或少人着墨的议题,举足轻重的程度往往远超乎看热闹外行人的想像。  
  无论超级电脑还是人工智能(尤其是人命关天的自动驾驶),基于安全性考量,芯片厂商的客户或多或少都希望检视所有程式码,理所当然包含驱动程式,这就是GPU 驱动程式开源之所以如此重要的主因。但偏偏这又是暗藏大量商业机密的黑盒子,要如何满足客户需求又不让机密外泄,大方释出「官方开源驱动程式」,就是nVidia、AMD 甚至即将「GPU 战线复归」的英特尔,已经面对很久的机会与挑战。  
 

技术的发展跟着应用的需求走,这恐怕也将会注定AMD 靠着「超级电脑APU」反攻高效能运算市场的企图能否悲愿成就的锁钥。





免责声明:本文转载自“滤波器”,本文仅代表作者个人观点,不代表萨科微及行业观点,只为转载与分享,支持保护知识产权,转载请注明原出处及作者,如有侵权请联系我们删除。

公司电话:+86-0755-83044319
传真/FAX:+86-0755-83975897
邮箱:1615456225@qq.com
QQ:3518641314 李经理  

QQ:332496225   丘经理

地址:深圳市龙华新区民治大道1079号展滔科技大厦C座809室

服务热线

0755-83044319

霍尔元件咨询

肖特基二极管咨询

TVS/ESD咨询

获取产品资料

客服微信

微信服务号