在基于介层的设计中绘制热流图的工作正在进行中,但还有很多工作要做。
在2.5D和3D-IC中,热完整性变得越来越难以准确预测,这会产生一系列问题,影响从系统行为到现场可靠性的一切。
在过去的十年中,硅中间层技术已经从简单的互连发展成为异构集成的关键推动者。今天的中介器可能包含数十个芯片或小芯片,具有数百万个连接,并且性能,功率和面积要求不断提高。事实上,在面积超过2,000 mm²的中间层上看到异构集成设计并不罕见,为系统消耗600瓦的功率,并且需要非常高的I/O带宽。有了这样的动力,热完整性现在是首要考虑的问题,这使得以高信心签署计划变得更加困难。
有许多工具可以理解和模拟非均质硅中间体设计中的热效应,但目前大多数工具都是脱节的。这里的工作正在进行中,但这不是一个简单的修复。人们并不总是清楚这些工具应该做什么,以及如何将所有的部分组合在一起。
“人们面临的普遍挑战是从这样的想法开始的,‘让我们假设这些东西是小板。我们将永远使用我们在电路板和封装级别应用的相同技术,我们只是缩小规模,它们就会起作用,”Rob Aitken说Synopsys对此。“这在某种程度上是正确的,但它有几个新的维度。首先,现在做这件事的人与过去做这件事的人是不同的。以前,封装和电路板工程师是这样做的。现在,芯片人员也在研究这个问题。”
还有其他重大变化。Calibre接口和EM/IR产品管理高级总监Joseph Davis表示:“当我们进入这些3D组件时,重要的是要记住,我们正在跨越过去的领域。西门子数字工业软件。“以前有芯片公司,他们会把芯片放在一个包装里。然后我们有系统包和MCM选项。很多这些界限都被模糊了。那么谁拥有什么?有包装人员在做包装和系统模拟。对他们来说,整个芯片都是有温度的,所以分辨率在厘米大小上,用于观察板上或外壳内部的散热。然后是集成电路团队,现在不仅仅只有一个集成电路,而是一个集成电路组装在一起。这个集成电路团队以微米级的分辨率来研究事物。他们需要知道整个的分布,等等。 The resolution there is a challenge. But really, the physics and technical problems are the easiest part to solve here. The real problem is that whenever you cross organizational boundaries, you have a real problem. We are now putting multiple die together sometimes from different technologies, sometimes from different foundries. Even within a single foundry, every die stack is unique. There’s not a process for getting all of that information into the tool.”
图1:采用中间层、凸点、微凸点和硅通孔的先进封装。来源:西门子
要做到这一点,必须在所有各方之间进行沟通——设计芯片的公司、EDA工具提供商、代工厂和封装公司。
戴维斯说:“即使是一家铸造厂,我们也必须弄清楚所有需要进来的东西,并把所有的东西都准备好。”“然后是包装和系统人员,他们考虑的是毫米。所以这是两种截然不同的用户基础,每个用户都有不同的分辨率。”
有不同的音高和相互联系。新思科技的艾特肯说:“尤其是硅中间体,你在处理一种不同的材料。”“电路板或有机基板是类似的材料,所以人们过去在电路板上的所有做法都是保持一切平衡,并建造一个测试车辆来测试这个系统的极限。如果这些都能起作用就好了,但没人能确定它们能起到多大的作用。物理就是物理,但它在变化。以前的二阶效应可以变成一阶效应如果你不小心的话。即使在谈论数学模型时,理解它是如何以及在哪里起作用也很重要。”
改变起点
逐步建立了典型的异构集成系统。
“从一个系统的封装基板开始,我们实际上是在它上面安装了中间层,有成千上万的凸起要连接,”朗林说有限元分析软件。“根据设计集成计划,设计师会直接在中间层上添加几个芯片或小芯片。一些模具通过微凸点或铜对铜连接连接,而其他一些模具可以进一步以3D方式堆叠。由于这种集成,中间层的作用是可靠地连接数百万个这样的微凸起或铜对铜连接,从而使整个系统能够在现场生存。”
这通常被称为芯片封装系统。中间层是一个桥,包含所有这些组件的电力输送网络。林说:“它还为所有的芯片和芯片提供供电,并托管整个芯片和芯片。”“但是现在安装在上面的小芯片消耗了大量的电力,这可能会导致电力完整性问题。在现场操作时也会产生大量的热量,因此现在由于热完整性问题,IC有可能烧毁相邻的IC。”
简而言之,异构集成可能会导致功率和热完整性问题,甚至更多。
他说:“如果你有高带宽内存的3D堆叠芯片,功率和热量问题也可能导致严重的信号完整性问题。”“这意味着所有这些问题都汇集在异质集成系统中。设计人员在确保电源成功传输、热量成功消散以及信号完整性不受影响方面发挥着重要作用。”
对基于中介的异构设计进行建模会引起关于模型完整性的问题,因为涉及到太多的变量。“你假设在某些条件下,比如,一种材料对另一种材料的偏转是线性的。’然后你会说,‘实际上,在其他条件下,它是二次的。但二次元模型要复杂得多。哪一个是正确的使用?人们仍在试图找出答案是什么,以及你需要关心多少。”
这在很大程度上是抽象层次的功能。戴维斯指出,所有这些热方面都可以通过非常粗略的建模和平均来解决。“随着新技术和这些技术的混合,我们在系统中得到了很多非常好的绝缘体,”他说。“当我们使用fet时,情况变得更糟了。人们开始说,‘供暖问题要严重得多。“为什么?”这是因为对于平面晶体管,所有的热量都是在硅中产生的。大块硅是一种相当不错的热导体。它的导热系数在150左右。用翅片,你把晶体管放在上面,用二氧化硅隔离,二氧化硅是一种很好的绝缘体。这里,导热系数是1.4,所以是100X。 But wait a minute. I just wrapped my hot transistor in a glass pillow? What am I going to do with all that heat? I’ve got to have a way to get it out. That is done with TSVs and the like. Further, we can model this stuff. We model far more complex things than just the thermal every day with simulations and EM/IR. We have the capacity, yes. But getting all the data together is a real problem. The resolution in the system and the system being not the electronics, but the industry, is the biggest problem.”
艾特肯说,这有两个方面。“有一个方面是,‘我有一个系统,我有一堆方程,我将在系统建模中使用,我有实现这些方程的工具。然后我得到了输出。输入部分也非常重要,因为所有的骰子都是不一样的。所有的材料都可能略有不同。此外,工作负载是不同的,有时是未知的,所以你又要处理我们一直在考虑的封装和芯片上的热问题,但现在它们都融合在一起,不能被看作是独立的。当你把这些东西放在一起的时候,你需要去做尽可能多的分析,但也需要在你构建它的时候监控发生了什么,以确保你的假设继续成立。所以你有一些东西在说,‘哦,我们在这里加热。这很糟糕。让我们慢慢来。’”
理解热流是至关重要的。热量从物体较热的一端向较冷的一端移动,但并不总是一致的。“热传导的概念很容易理解,”Ansys ' Lin说。“如果你从工程101中了解欧姆定律,你就知道你可以用系统热传导路径的等效热阻来模拟物体。并且给定一个特定的功耗值作为该系统的散热器,可以很容易地解决导通路径两端的温差。傅立叶热传导定律描述了一个系统如何散热,以及散热器如何影响整个系统的温差。”
通过硅中间体映射傅里叶定律更为复杂。“假设在一个小碎片中有两个热源,”林说。“芯片为这个硅系统消耗能量,而中间层安装在封装的顶部。系统中总共可能有四个不同的组件或对象。我们可以模拟四种元件的热阻。考虑到两种小芯片正在加热系统,我们有两种热源(热流),将热量注入热传导路径。”
解决这个问题可以帮助设计人员了解系统中每个组件之间的温差,从而更好地了解温度分布。但林说,这个模型不够精确,因为每个组件只有一个等效的热阻。“热阻实际上高度依赖于整个物体的材料特性。有限元分析方法可以用数学方法表示具有自身材料特性的物理部件或系统,以及所有表面的边界条件。网格划分技术用于将该IC布局的几何形状或对象转换为可识别的元素。可以使用两种不同的网格方法来建模整个IC布局,并且通过所有网格元素,我们可以以3D方式解决系统所有元素之间的传热规律。”
这也有助于解决温度分布问题,这是一个比较准确的现实问题的热模型。
考虑到这种网格化如何影响求解热传导的精度,Lin表示,网格化技术需要不断改进,这是一个挑战,因为从旧的SoC技术到最新的2.5D或3D-IC技术,系统已经变得越来越大。在这些复杂的系统中有成千上万的热源。因此,网格分辨率必须从厘米提高到微米,甚至可能是纳米。“我们需要一个更细粒度的解决方案,直到集成芯片的子块级别,这样我们才能准确地模拟热传导路径。这是非常具有挑战性的,但对于解决此类系统的热节流问题,并确保没有可靠性或热完整性问题,这是必须的。”
这使得整个分而治之的方法更加困难。西门子数字工业软件公司(Siemens Digital Industries Software)产品管理总监John Ferguson指出,以往的热处理都是采用网格方式完成的。“你把事情分成小块,然后你能做多少取决于你的硬件,你有多少内存,以及你愿意等多久才能得到答案。这些都是你需要努力解决的问题。但这种电网还有另一个挑战,因为热量本身就是一个问题。重要的是,你要检查一下,看看是否真的存在除了重新设计之外无法通过其他任何方式解决的热问题。”
热对机械应力和电迁移/IR下降也有影响。弗格森说:“现在的情况是,你必须确保你使用的网格能够以某种方式在这些不同的东西上对齐。”“如果你想把它们加起来,你可以让一个窗口与另一个窗口重叠一半。你是怎么想出来的?这是令人困惑的。这仍然是一个巨大的挑战。行业正在努力摆脱网格窗口方法,做一些更全面的事情,这意味着更多地从方程方法来看待问题,更多地从真正的物理角度来思考问题。例如,温度在哪里下降?正是由于这些原因,整个网格化情况在行业中是一个挑战。我如何知道选择正确的分辨率? Is it going to be accurate enough? Is it going to integrate with everything else I need it to? Getting away from that approach is an important step.”
进化
这个领域的解决方案最终会是什么样子还有待观察。艾特肯指出了目前广泛的实验,并相信在某一时刻,该行业将开始合并。Ferguson说:“即使看看套餐选项,过去的套餐数量也相当少,而且都是由套餐供应商决定的。”“所以你知道如果你把自己的设计放在那里会发生什么。但是现在有很多不同的封装设计,即使你只局限于硅中间层。人们用它们做了很多事情,有很多方法把它们组合在一起。而且对于哪一种更好并没有真正的共识。这意味着,如果你是一家制造商,现在你必须有效地支持定制的东西,不仅为每个客户,而且可能为每个设计。再一次,这是在寻找,‘让我们在可能的地方尝试重新设计,这样我们就会认为我们是安全的。但与此同时,要小心。’”
随着其他材料的引入,将会增加新的问题。他说:“你可以加入一些新材料,而设计这些东西的人使用这些材料的历史并不长。”“根据你去的地方,你可以在文献中找到一些关于它们的导热性和抗拉强度的细节。但到底是谁在做这些测量来把这些东西算进去呢?他们的变化。一堆氧化物进来,另一堆有点不同。至少在热力方面,我们可以进行无电网分析。但是我们仍然有一个问题,需要将它覆盖在另一个网格上,我将尝试通过这个网格来传递数据,它需要被上游,下游,每一个方向消耗。最终,我们的产业一直以来的运作方式就是我们自己去保护它。我们会说,‘他们说这个东西可以达到10%。 Let’s give a 20% window to keep ourselves safe. But that means you’re always leaving something on the table, too.”
此外,在早期做出决定也是一个挑战。
“我们向建筑提出的问题是什么可以放在一起,”西门子的戴维斯说。“我的包裹够大吗?”我有足够大的散热器吗?我们行业处理这个问题的方式一直是预算和近似模型,所以当你在设计系统中走得更高或更早时,你就有了模型。有时一个模型只是一个近似值,“我认为这个芯片会产生这个温度,因此它会像这样传导。”但现在我们看到客户在问,‘这个零件是我做的。我把它放在这个包裹里。新版本将会有一些额外的驱动程序,我预计会产生很多热量。我的包裹够了吗?在开始影响可靠性之前,我的散热是否足够?“这个问题必须先解决,然后再讨论其他问题。电迁移是温度的函数,所以如果温度——这是一个指数函数——比你预期的高10度,它可能会使你的寿命减少5年。 Engineering teams want to do that earlier, but they don’t have the information about the technology they will use, other than to say, ‘We’re thinking about this.’”
结论
当然,如果设计师意识到所有这些挑战,他们现在可以使用一些技巧。但是在复杂的异质设计中有很多元素,这对设计团队来说是一个更大的挑战。
“他们可以从设备层面应用几种不同的解决方案,”林说。“他们可以降低功率,平衡功率密度,并可能巧妙地分割他们的芯片和小芯片,使热传导路径得到很好的平衡,而不会引起任何高温。”在系统层面,我们看到很多冷却解决方案说,‘如果温度太高,就让我们控制系统,让它停止工作,让它休眠。“我们还可以做一些像热管理、电液体冷却和强制对流之类的事情。所有这些我们已经在系统的生产中看到了。”
好了。很高兴看到这个领域得到了关注。谢谢你,安