这篇文章是由半导体工业观察(身份证:集成电路银行)从“电子期刊”编辑的,作者是凯文·莫里斯,谢谢
在本系列的第一部分“三向导高端现场可编程门阵列(1)”中,我们研究了Achronix、英特尔和Xilinx的新型高端现场可编程门阵列系列。我们比较了底层半导体工艺、可编程逻辑LUT架构的类型和数量、数字信号处理器/算术资源的类型和数量及其在人工智能推理加速任务中的适用性、供应商公开宣布的顶级/浮点运算性能以及片内互连(例如,现场可编程门阵列路由资源和片上网络)从这些比较中可以明显看出,这些供应商提供的每种产品都有独特而有趣的功能,这将使它们在特定的应用领域脱颖而出。我们还强调了对如此复杂的半导体器件进行有意义的分析是多么困难。
9 Xilinx、英特尔和Achronix都与我们讨论了我们的假设和分析,并为这一系列内容提供了有价值的见解。
本周,我们将讨论内存架构、封装内集成架构和高速串行输入输出功能在这里,我们将看到这一代FPGA的复杂性远远超过它的直接前辈,我们将进一步证明它们可能是历史上最复杂的芯片。在半导体发展史上,我们正处于一个迷人的时代。摩尔定律在经济上已经走到了尽头。新一代人工智能技术和应用需要一种新的计算方法。巨大的竞争优势正在打开一个巨大的新市场,并为新设备带来机遇。
PFGA的实际性能取决于内存结构、计算资源和内部带宽。在当今的计算环境中,高效地移动、处理和存储数据是计算过程中的关键。如今,全球数据基础架构从小型传感器负载端点到网络边缘、本地存储和计算,再到拥有大量计算和存储资源的云数据中心,然后在整个过程中再回到边缘在这一数据传输的往返过程中,可编程逻辑器件发挥着重要的作用——可编程逻辑器件在存储、网络、存储和计算方面做出了巨大的贡献。
我们应该指出,Xilinx坚持他们共同的ACAP系列设备是一个独立于现场可编程门阵列的类别,他们称“ACAP”为“自适应计算加速平台”据我们所知,这一主张的关键在于范思哲针对的是不同于传统的现场可编程门阵列应用程序开发人员的受众群体,而传统的现场可编程门阵列应用程序开发人员可能不具备现场可编程门阵列专业知识但是他们需要一个交互模型,而不是从现场可编程门阵列结构的配置开始。他们指出,事实上,范思哲可以在不配置现场可编程门阵列架构的情况下启动并运行自己。这与矢量处理引擎和片上网络(NoC)等功能相结合,这是他们认为范思哲设备是“ACAP”而不是“现场可编程门阵列”的基础
,但是,为了这里的目的,我们将继续使用范萨尔·ACAP的FPGA系列评估方法我们相信这三种产品通常会争夺同一个位置。此外,我们的读者包括大量的可编程门阵列设计专家,可以追溯到2009年以前,当时我们被称为“可编程门阵列杂志”我们理解西林市场定位背后的动机他们想吸引一个新的市场——对于这部分客户来说,“现场可编程门阵列”可能是一个令人畏惧或困惑的标签Xilinx对其“Zynq”系列设备采用了类似的策略——称它们为“SoC”,而不是“FPGA”然而,“ACAP”更难销售,因为SOC类别已经存在,并且有大量有竞争力的产品。创建新的分类是一项困难的任务。我们将看看它是否会流行。我们正在等待第一个竞争者制造一种他们称之为“ACAP”的设备这些相互竞争的产品系列
中的每一个都为其预期的目标应用程序进行了不同且有趣的优化内存架构的尝试。与传统的中央处理器或图形处理器体系结构不同,现场可编程门阵列是独一无二的,因为它允许重新配置内存层次结构,以匹配手头的任务这可能会对最终应用程序的吞吐量、延迟和能效产生重大影响现场可编程门阵列存储器架构使我们能够对应用程序进行分区,以便每次使用存储器时都能在局部性/带宽和密度之间实现最佳平衡。
是LUT本身的内存资源,从密度最低但带宽最高的地方开始。在那里,逻辑可以通过硬连线连接直接访问少量存储的数据,从而为数据流创建最有效的路径。所有的FPGA架构都以基于LUT的存储器为核心功能LUT记忆中的数据量大约与我们上周讨论的LUT计数成正比。尽管这种存储是超本地的,并为相关逻辑提供了最佳带宽,但大多数应用程序的内存需求远远超过了稀缺而宝贵的LUT内存资源。如果
在密度上增加一个级别,在带宽上减少一个级别,那么我们可以使用现场可编程门阵列架构中的“块”存储器来构建存储系统。顾名思义,块结构是现场可编程门阵列架构中的专用存储区域,数据路径将跨越更多的现场可编程门阵列互连。每个供应商都有自己的策略来划分这些片内存储器资源他们对各种类型的应用程序及其内存需求、加权分布和密度进行了详细建模,并提出了分层方法。这让他们觉得他们可以解决最广泛的问题,特别是对于主要的目标应用程序类型。
从Achronix开始计数,Speedster7T提供高达385MB的嵌入式内存,分布在LRAM2K、BRAM72K和MLP模块中英特尔Agilex提供300 Mb嵌入式内存,内置三种类型的块嵌入式内存(MLAB、M20K块和eSRAM内存块)Xilinx Versal在其最大的“人工智能核心”设备中提供块内存、“超级内存”和加速器内存,总计约294兆字节。这些体系结构中的每一个都是供应商的最佳选择,它相信在各种目标应用中,块的大小以及与其他资源的匹配程度将决定其最佳性能。
将层次结构提升了一个层次,并且现场可编程门阵列封装包含内存这通常使用高密度、高带宽、高成本的技术来实现,例如HBM由于我们希望通过片外(通过插入器或EMIB或其他封装链路)实现这一目标,延迟和带宽低于嵌入式存储器,但优于通过片外接口访问印刷电路板上传统存储器的延迟和带宽(我们将在后面解释)该级别的目标是将高密度和高带宽结合起来——数据远远超出片内存储器的容量,带宽也远高于访问印刷电路板上的外部存储器。
但是,在讨论包内内存之前,我们应该首先了解三家供应商在包级集成方法上的根本区别。在这里,我们相信英特尔Agilex拥有最大的灵活性和最低的最终用户成本。英特尔的敏捷专为封装内集成的灵活性而设计英特尔使用一种称为嵌入式多芯片互连桥的专有技术来连接封装内的小芯片现场可编程门阵列架构本身是一个小芯片,而串行收发器接收另一个封装内存储器,如另一个HBM和其他可选的外围设备这些外设中的每一个都可以使用不同的过程来实现,这意味着英特尔可以随时更新或添加任何小芯片,而无需重新设计其整个现场可编程门阵列(就像使用单片方法一样)英特尔在这一领域的另一个优势是,他们可以根据最近获得的eASIC技术定制小芯片。这意味着用户的定制逻辑可以以最小的NRE和设计开销添加到他们的FPGA封装中EASIC允许将最初在现场可编程门阵列架构中实现的设计(例如)整合到小芯片中,从而提供类似专用集成电路的性能、密度和功率效率
Achronix宣布Speedster7T为独立芯片家族,但它也提供Speedster 7T嵌入式FPGA版本,该版本包含与Speedster 7T相同的资源,但也可以包含定制指令,以进一步优化特定应用类别。这些可以是专用的分组处理、TCAM或信号处理功能在这种情况下,集成策略取决于芯片和封装的内容,以及包含在与现场可编程门阵列架构相同的硅片中的增强型知识产权,这完全取决于客户的设计团队。这种方法为最终用户提供了最大的灵活性和控制力,但在客户端需要更高的成本、风险和设计专业知识。
Achronix还从事小芯片业务,并参与开源计算项目(OCP)的开源专用架构(ODSA)计划ODSA正在努力建立标准来推动开放的小芯片生态系统,这将有助于创建能够混合和匹配来自多个供应商的小芯片的SiP。这将实现类似于英特尔的包级定制,但不能使用英特尔专有的EMIB互连技术。阿克伦尼的观点是,设计团队最初通常使用独立的现场可编程门阵列解决方案一旦设计通过验证,将发生成本降低阶段,其中一些逻辑可以被增强为包含可编程现场可编程门阵列IP模块的标准单元专用集成电路设计,或者可以使用小芯片构建定制的SiP。
Xilinx提供了三种设备中最小的定制灵活性,但迄今为止它提供了最多的“开箱即用”产品。Xilinx是FPGA多芯片集成的先驱。它使用插入器将多个小芯片拼接在一起,目前生产三代产品。有趣的是,Xilinx放弃了这一策略,而其他人却在推广它。Xilinx现在将其设备的更多功能构建在一个芯片上。这带来了速度、成本和可靠性方面的优势,但降低了定制封装中混合匹配小芯片的集成能力。为此,Xilinx计划提供大量Versal产品,以便为现成设备提供合适的资源集来匹配各种类型的应用。
返回封装内存。据我们所知,赛勒斯和英特尔都提供了类似的封装HBM堆栈。Selinsi表示将会有Versal HBM系列,但细节尚未正式公布,但我们可以根据他们在其他产品系列中的支持情况进行推测。借助Agilex,英特尔可以将高达16GB的HBM2和其他类型的内存资源放入其封装中。Achronix不提供封装内存的选项,但声称最多可以使用8个GDDR6内存控制器,每个控制器可以支持512 Gbps的带宽,因此为其设备总共提供4 Tbps的GDDR6带宽。这与其他供应商提供的带HBM选项的产品相当,而且价格更低。与封装中的HBM相比,折衷解决方案具有更高的功耗和更多的印刷电路板设计复杂性。GDDR6的可用性可能更快(考虑图形子系统使用的目标大规模市场),而HBM2实现大规模生产需要一些时间。
支持板载内存,所有供应商都支持DDR4,并将支持DDR5。
英特尔Agilex继续其提供增强型DDRx内存控制器的方法(HMC,但不是“混合内存立方体”)英特尔已经使用HMC多年,其历史可以追溯到28纳米Altera Arria 5系列。英特尔表示,他们的现场可编程门阵列集成硬核内存控制器有助于在硬PHY实现从内核到外围的紧密传输和从外围到内核的定时传输,有效确保定时收敛和减少编译时间,并减少半速率模式下的读写内存延迟英特尔还支持其非易失性Optane永久存储器,通过非易失性技术提供类似内存的性能
Xilinx Versal AI酷睿系列(也使用增强型内存控制器)可提供高达1.2 Tbps的DDR4带宽和高达1.6 Tbps的LPDDR4带宽,并支持CCIX
有趣的是,英特尔还支持通过UPI/CXL协议对英特尔至强可扩展处理器进行低延迟/一致的内存分层访问稍后,我们将与其他供应商相比,讨论与异构计算环境的集成,并进一步讨论英特尔的方法。
如上所述,Achronix还利用了增强的内存控制器,另外还支持GDDR6在外部内存中,端口数量是许多应用程序的关键考虑因素,因为在共享内存资源中同时执行多个读/写操作的能力可以消除与内存带宽相关的性能瓶颈
当然,除非数据可以有效地移入和移出,否则优秀的芯片无法做好工作。就数据移动而言,现场可编程门阵列是无可争议的王者——几十年来,他们通过灵活的逻辑和高速输入/输出功能在不同的系统和协议之间桥接、移动和路由大量数据而生存了几十年现在,所有这些供应商都已将其最快的高速串行输入/输出收发器升级到具有更高吞吐量的PAM4技术。PAM4为逻辑定义了四个电压电平,而不是通常的两个,在每个时钟周期内数据传输速率加倍
Xilinx Versacp支持多达44个GTY收发器(32.75千兆位/秒)和多达52个GTM收发器(58千兆位/秒),总输入/输出带宽约为1.31千兆位/秒英特尔的敏捷系列产品提供了广泛的选择。它的SerDes收发器包含在不同的“平铺”芯片中,这些芯片可以根据不同的应用领域而变化,例如8x PAM4 112 Gbps和48x PAM458 Gpbs。Achronix Speedster 7T提供惊人的72x PAM4 112 Gbps收发器。所有这些都是令人印象深刻的数字,但请记住,SerDes收发器存在一些最严峻的设计挑战,包括板级和系统级信号完整性。它们也是芯片成本的重要因素,因此选择一个带有一组收发器的器件来满足您的应用需求值得仔细考虑。
对于快速以太网,Xilinx Versal ACAP公司首次推出了公司内部开发的新型多速率MAC。MAC可以处理多种配置,包括4x10GE、1x40GE、4x25GE、2x50GE或1x100GE。范思哲Prime ACAP设备最多包括四个这种多速率MAC。英特尔Agilex包括支持16 x 10/25GE、8 x 50GE、4 x 100GE、2 x 200GE、1 x 400GE的个人电脑和前向纠错的硬以太网MAC这允许高达4x 400千兆以太网网络接口连接Achronix Speedster 7T在7t1500中有16个以太网通道,在7t6000中有32个以太网通道这分别提供了四个和八个400千兆以太网连接,并支持更低的速率
对于PCIe,Xilinx universal acap为加速器(CCIX)提供了第4代x16高速缓存一致性互连,可通过标准PCIe链路、最高4代x8 PCIe和最高2个多速率以太网MAC进行操作英特尔的Agilex提供PCIe第4代x16(每个通道高达16 Gbps)和第5代x16(每个通道高达32 Gbps)Achronix Speedster最多支持2台PCIe第5代x16
简而言之,所有这些系列都遵循大规模、灵活输入/输出的现场可编程门阵列传统——这种讨论只触及表面。我们可以用几篇文章来讨论这些设备上高速接口的细微但关键的差异,所以需要一些时间来了解我们打算用于应用程序需求的任何一系列细节。考虑在整体解决方案中需要增强哪些内容,以及在LUT架构中需要实施或支持哪些内容。只购买您实际需要的带宽,因为如果您的应用程序不需要它们,就没有理由购买昂贵的高性能收发器。
在本系列的下一部分,我们将讨论处理子系统与外部处理器、硬件生态系统(例如使用这些设备的加速器卡)的集成,以及(也许是最重要的)设计和应用程序开发工具支持,这样我们就可以从目标应用程序开发人员的世界中解放出来——无论是C/C++代码、TensorFlow、OpenCL、SystemVerilog还是其他语言——成为能够为这些设备提供惊人能力的东西