ITRS的工序路线图与新一代嵌入式多核SoC设计

接线图 2023年01月08日 12:20 287 admin

ITRS的工序路线图与新一代嵌入式多核SoC设计

在网络无处不在、IP无处不在和无缝移动连接的总趋势下，国际半导体技术路线图(ITRS)项目组在他们的15年半导体技术发展预测中认为，随着技术和体系结构推进“摩尔定律”和生产力极限的发展，将出现若干新的半导体技术，在芯片之上或者在芯片之外不断扩展新的功能。图1就显示了手机芯片技术的发展趋势。
ITRS的工序路线图与新一代嵌入式多核SoC设计第1张

总的来说，新兴的半导体技术可以分为三种：摩尔定律、广义摩尔定律、超越摩尔定律。所有这些都能对嵌入式网络空间起到显著影响，使用系统级芯片体系结构通常会用到以下技术：多核(MC)、分级缓存、芯片内连接、按需提供的加速引擎、可连接性。

所有这些技术加起来就能够提供一个可扩展、基于软件多核／加速引擎的系统级芯片(SOC-MC／AE)解决方案，可以满足从低端到高端的各种应用程序需求，通过这些新的服务实现并扩展各种用户体验。

三种“摩尔定律”

随着技术与体系结构推进“摩尔定律”和生产力极限的发展，在2005年ITRS首次提出了“超越摩尔定律”的概念，用来指代那些不可度量的功能性集合。不仅包括大部分的模拟功能，还包括无源器件、高电压、传感器、促动器和启动器等。

在ITRS举办的大会上，他们给出了这三种“摩尔定律”的大致定义：
摩尔定律：几何级规模增长。
广义摩尔定律：算术级规模增长。
超越摩尔定律：功能多样化。

“摩尔定律”主要指在度量芯片逻辑和内存的物理特性各个方面都呈现几何级规模的持续增长，它能增强芯片的密度(减少功能的单位成本)、性能(速度、能力)以及对应用程序和最终客户的可靠’性价值。

“广义摩尔定律”通常是指那些与几何级规模增长特性相关、能够影响芯片电子性能的处理器技术。

“超越摩尔定律”指集合在装置中的各种功能，它们无法用摩尔定律来度量，却能以不同的方式为最终客户提供各种附加价值。

这些“超越摩尔定律”的方法，通常使用一些非数字化的功能(例如射频通信、能源控制、无源组件、传感器、促动器及第三方的IP等功能增强组件)。将这些技术应用于系统板级／特定封装级(SiP，系统内封装)或芯片级(系统级芯片)等潜在的解决方案。

总的发展趋势是，越来越多的功能都不再以同样的模式增长(摩尔定律所定义的那样)。这是功能多样化，而不是简单的增长，但是商业和技术发展的一个方面。

将“摩尔定律”与“超越摩尔定律”联合起来，就能够得到系统级芯片或者系统内封装，这并非芯片上同样功能的简单整合，而是能真正增加其价值的整合。

SOC设计中的功能多样化

国际电信联盟无线通信部(ITU-R)正在研究未来系统中的用户需求预测。例如在即将到来的2010年，为了满足IMT-2000(国际移动通信标准)及更先进的技术需要，预测全世界所需要的频谱带宽总量。

IMT-2000系统属于第三代移动通信，在固定电线网络(例如PSTN／ISDN／IP)及各种其他移动特有服务的支持下，能够访问各种电信服务。IMT-2000主要特性包括：

(1)通过各种服务和终端能够提供多媒体应用的能力。
(2)各种具体技术具有高度的共通性。
(3)在IMT-2000和固定网络之间具有业务一致性。
(4)质量很好。
(5)全世界漫游。
(6)很小的终端可以在世界各地使用。

在未来5～15年，还将有以下发展趋势：

(1)网络可扩展性进一步增强，在任何时间、任何地点、任何设备上都能以宽带的速度接收高质量的多媒体内容。

(2)在市场上，终端用户将是创建各种多媒体内容的主要力量。

(3)将出现很多高级的基于IP的应用和服务，推进高带宽可扩展性网络的不断发展。

(4)出现装备多个内核或者支持多线程的芯片及加速器的多处理器平台，以支持各种高级应用和服务。

(5)处理器技术进一步发展，出现从65nm到45nm、32nm、22nm乃至10nm的工艺水平。

(6)网络中随处可见可扩展的封装与反病毒技术。

(7)家庭网络将越来越复杂，包含了各种数据通信与娱乐功能。

(8)在家庭、办公室及野外能够实现无缝移动性。

与传统的PC应用程序或者服务器应用程序相比，考虑到内核速度与内存I／O延迟等的本质性差异，如今的嵌入式处理器体系结构并不能提供可观的性能，无法满足先前提到的联网计算场景的需求。

现在．几乎所有批量生产的商业性处理器都是基于单线程体系结构技术设计的，这必然受到性能和应用方面的诸多标准限制。随着应用变得越来越依赖于网络，这种传统的处理器设计技术将无法满足聚合计算与网络范式的吞吐量需求。

这种基于“包”的计算环境特点在于大数据量访问带来的延迟，使用传统的处理器体系结构无法进行有效管理。这个问题将会严重影响处理器的性能和工作效率。如果内存处理不能得到立即响应，并且也没有弥补的指令可以执行，那么传统的处理器将暂停运行，造成处理周期的损失。

SoC-PE用户与SOC-MC／AE网络体系结构

将“广义摩尔定律”加入到设计中，能够得到一个聚合的、整合的异构平台，能够创建一个可扩展的、智能的、坚实的增值环境。这种基于使用三种“摩尔定律”的可扩展性得到的SoC-PE平台。将成为一种重要的发展方向。

在2005年初，ITRS就引入了SoC-PE体系结构模板，其中的PE是指为了满足可移植性与无线应用(如智能媒体电话或者数码相机芯片)等特定功能，以及高性能计算和企业级应用等需求而定制的处理器。

作为这种SoC-PE体系结构的补充，又定义了一种多核／加速引擎(MC／AE)的系统级芯片体系结构模板，用来解决网络相关问题。这种MC／AE的SoC网络平台包含了以下必需的功能模块：

(1)支持多核技术，以便在30W的电力条件下能够提供良好的处理性能。

(2)支持前所未有的三级缓存，内部的L2与多个L3共享缓存和多个内存控制器。

(3)支持高速的互连接性。

(4)引入了一种可扩展的芯片内连接，能够实现并行、无阻塞、基于硬件、100％使用缓存的平台连接性，它最多可支持32个内核，且支持异构内核。

(5)为了满足多核技术的需求，去除了共享总线的连接方式，能够支持快速的高带宽通信寻址。

(6)包含了一个按需提供的加速引擎，通过纯内核处理周期、低能耗实现和减少用硅量成本来提高性能优势。

(7)支持混合模拟环境，将周期准确性和功能准确性结合起来，降低软件开发的难度，可以提供性能预测与优化。

(8)网络系统增强、环境更重视软件和虚拟化技术的参与性增强了多核硬件体系结构的作用。

为了满足可扩展性、基于软件解决方案并支持多种应用程序(从低端到高端)的需求，MC／AE的SoC网络平台包含了一些必要的功能模块。

多核。在很多多核产品中，多个内核的频率基本都超过1GHz。这个平台的目的是要实现最高的周期执行指令数(IPC)。及单位面积内指定电量条件下达到最大的频率。

多核还被设计用于减少高性能加速模块的重复性与计算集中性操作，提高吞吐量或者新应用和服务条件下的处理周期数。

平台中每个多核的内核都有自己的L2内部缓存。内部缓存通过一个专用通道直接连接CPU，可以实现非常高的应用性能。

内部缓存能够满足全速运行CPU的需求，比起按50％比例的“共享总线／共享缓存”体系结构可以大幅减少处理延迟。L2的内部缓存还能根据不同应用程序的需要，将缓存的内容在指令与数据之间进行转换，通过大幅减轻CPU负荷来提高总体性能。

另外，L2内部缓存还能减少芯片内和主内存上的流量，这能够降低处理延迟，缓解其他用户的带宽压力。

多线程和多处理器是密切相关的。当然，它们之间也是有区别的：多处理器共享唯一的内存和连接资源，而多线程处理器则除了共享这些资源外，还共享指令取出与问题逻辑，这些可能是其他处理器的资源。

一些多线程编程和体系结构模型假定新的线程被分配到不同的处理器上，实现了很好的并行性。

分级缓存。认识到现有处理器结构依赖于共享缓存模型的局限之后，一种使用三级缓存分级技术的新方法被用于MC网络平台中。

L1缓存依然保留在内核之中。如前所述，L2缓存被实现为内部缓存，更靠近内核，这可以显著地提升系统性能。每个内核都有自己的内部L2缓存，可以提供：

(1)聚合的带宽，不会受单个共享缓存的限制。

(2)通过与前端缓存竞争而降低延迟。

(3)内部缓存可以根据不同的性能、隔离性、优先级和QoS(服务质量)要求调整内核计算策略。

(4)私有缓存比起共享缓存更具独立性，并可以作为资源管理的一个自然单元(例如可以临时关闭以节约能源)。

此外，还有一些任务是共享缓存所擅长的。例如处理器间通信与共享数据结果的计算处理。在这些情况下，我们还可以提供一个大容量的L3缓存。这种高带宽、共享缓存技术让冲突变得很少，可以提供快速的内存输入输出访问和加速器能力。

芯片内连接。芯片内连接与缓存分级技术一起工作，实现缓存兼容与并发访问。上述革新的内部缓存实现加上这种芯片内连接，能够全面支持数据复制、改良中断与全硬件兼容的跟踪。

多核网络平台能够充分利用芯片内连接的高度可扩展性和模块化，这一多年积累的研究开发结果可以实现多个内核之间的缓存兼容、并行与低延迟连接。

与多个内核、内存和外围设备之间使用共享总线作为互连媒质不同的是，这种芯片内连接技术可以减少总线仲裁与冲突，这是其他多核体系结构所面临的严峻挑战，因为会在系统中引入更多的流量。它就像一个网状，允许并行的流量从其中任一点进入或者退出系统，而不是只有一个进出口点。

由于其天然的可扩展性，这种芯片内连接能够在每个周期都实现多种、全面兼容的交易，可以很方便地扩展到支持更多的内核。芯片内连接还可以支持异构芯片组，从而充分发挥多核的作用，让各种能耗和性能设计基础的内核可以在一起协调工作，相互之间各尽其职、取长补短。

可连接性。多核网络平台整合了各种网络与I／O资源，这种设计可以支持很高的吞吐量。那些能够为系统设计者提供各种可扩展、高性能的资源可以受到特殊关照。

SOC-MC／AE网络平台的接口与功能模块

SOC-MC／AE网络平台支持各种接口，包括RGMII、XGMIII与SPI-412等接口控制器，以及一些高速接口，如PCI-X接口与串行RIO接口。

外围接口。外围设备和ROM可以通过各种外围接口连接多核网络平台。这些端口是使用32位外围I／O总线及可编程多功能输入输出(GPIO)信号的不同组合来创建的。

多核网络平台包含一些必要的标准总线，例如由两条双向总线线路组成的标准I2C总线端口、串行数据(SD)线与串行时钟(SCLK)线。

按需提供的加速引擎。按需提供的加速技术让多核网络平台体系结构中的加速引擎在性能和灵活性方面达到了新的高度。这种异步、共享资源的体系结构可以提供低延迟、多任务处理，而不会引起线程切换超负荷。

按需提供的应用加速使得多核网络平台的性能优势超过了单核心的处理周期，可以降低能耗，减少硅的使用率，从而降低芯片制造成本。按需提供、高性能的加速引擎技术包括：

(1)支持深度封装检查和全面内容处理的模式匹配。
(2)解压缩和压缩能力，在使用时解压、传输时压缩。
(3)支持保密、完整与认证的加密安全机制。
(4)包转换和流分类的表查询技术。
(5)数据分支资源管理，能有效地分配芯片内资源。
(6)包分发与队列管理。

混合模拟环境。SOC-MC／AE网络平台需要全面的系统模拟模型，整合了周期准确性建模技术和功能性建模技术的混合机制，可以让使用多核网络平台的客户应用程序在软件开发、性能预测与优化方面的难度大幅降低。

使用这种混合的模拟环境，能够方便地在功能和周期准确性模型之间实现切换，开发者可以在虚拟的多核网络平台上迁移和分割操作系统、中间件和应用程序，方便开发、调试和基准测试，这甚至比使用实际产品还要方便。

这个环境可以进行安全而便利的分割、并行、优化系统和应用程序。软件开发人员可以使用“what if”模式来虚拟运行环境，在不受实际硬件条件约束的情况下调优性能。这种混合模拟器为开发者提供了硬件视图，其主要特性包括：

(1)快速而实用的多核网络平台模型。
(2)详细的多核网络平台周期准确性模型。
(3)包含了基础架构和软件开发、代码分割、调试、部署及虚拟化等工具的综合包。
(4)不管是宏观和微观，系统状态都具有良好的可视性，方便观察缓存和寄存器管道的状态。
(5)执行软件的运行时控制，包括断点、分布和反向执行。
(6)可以重启多个操作系统。

这种混合模拟器的一个重要优点是能够动态地实现从高速功能性模式到普通的周期准确性模式之间的来回切换。

这使得软件开发人员可以在必要时快速重启操作系统或者执行关键代码，然后再切换到普通的周期准确性模式来分析特定范围的数据，而无需等待很长时间。

作为一个多核系统的开发平台，这种混合的模拟环境具有很好的灵活性与可扩展性，支持一些在操作系统或者应用程序中无需执行指令的独占环境。软件开发人员能够减少目标系统的开发时间，从而全面提高其代码的质量。

MC／AE增强环境

MC／AE网络平台需要软件工程师花费特别多的时间来考虑软件体系结构的问题。开发多核处理器的性能潜力意味着使用并行处理的能力，考虑到很大程度上同步的单核系统具有长期而成功的历史，这种转变不是一时半会儿就能够深入人心的。

网络应用程序在一定程度上实现了包处理的并行性，同时网络数据通道和控制平面之间的互操作也可以算作是另一种层面的并行。

这些并行性都是很容易想像的，而如果数据通道流超过了单CPU的能力，或者单内核不能提供足够的控制平面响应时，事情就会变得更加复杂了。负载均衡和在同一设备上实现非均衡／均衡混合多处理环境是一种严峻的挑战，而多核网络平台就是被设计用来解决这些问题的。

尽管从软件架构上需要考虑任务的分发，但多核网络平台提供的密集处理能力也可以让硬件设计师想到将功能集中并重新分配，这能够充分发挥多个CPU或者功能模块的效用。

这些想法与在系统中引入新的服务和能力产生强烈的共鸣。不管是软件还是硬件体系结构，都需要多核处理器具有良好的灵活性，也需要能够帮助提升未来架构体验的良好机制。

在SoC-MC／AE网络平台中，每一个内核都具有私有的L2缓存，这也被称为内部缓存。另外，平台还装备了按需提供的加速引擎，能够满足不同应用的需求。

尽管多核平台被设计为能够满足很高的性能目标，但便于使用也是平台定义的重要指标。在目前的多核实现中，一个明显的障碍就是编程的效率和调试的便利性。下面是两种假设的场景：

场景1：2007年主流内核个数为1，系统性能也是为单核系统设计。

在这种情况下，45nm工艺能够将65nm工艺的系统性能提高到3.6倍，相当于使用3.7个65nm的内核。同样，32nm工艺的系统性能可以达到13.5倍，相当于7.5个65nm的内核。这个性能曲线基本是线性的。

场景2：2007年主流内核个数为4，系统性能也是为4核系统设计。

在这种情况下，45nm工艺的系统性能可以达到65nm工艺的14.7倍。相当于10.9个65nm的内核。同样，32nm工艺可以达到54倍系统性能，相当于30个65nm的内核。这也是线性增长的。

SOC-MC／AE平台的价值启示

今后的网络需求将会超越目前这种单核体系结构所能提供的操作频率。增加内核数量(多核)可以提高性能(摩尔定律)。

但是在封闭空间内热量管理的挑战甚至超过了提高CPU频率来提升性能的难度。因此，这需要求助于系统级芯片平台所带来的机会。

另外，还有很多亟待解决的问题：总线带宽与存储量冲突、可扩展性问题，更糟糕的是由于缺乏编程可视性而带来处理周期浪费等问题。

在SOC-MC／AE网络平台中添加加速引擎，能够进一步提升性能(广义摩尔定律)。但是，为了与硬件需求相匹配，在软件及模拟环境方面还需要更多的投资(超越摩尔定律)。

因此，SOC-MC／AE网络平台不只是为超级性能和提升能源效率而设计的，它还能快速而顺利地帮助推进多核处理器的发展，为业界提供一个可行的环境。

因此，多核、加速引擎和模拟增强环境，是变更网络执行环境的三个重要组成部分，能够提供可扩展的、可持续发展的性能，以满足下一代高级应用程序及服务的需求。