一种基于超大规模云资源池的算力供给新模式及其关键技术*

时间：2023-04-07 16:20:06 来源：千叶帆本文已影响人

史庭祥，张剑波，曹越，胡贵龙，徐方，徐法禄

（1.中兴通讯股份有限公司，江苏南京 210012；
2.移动网络和移动多媒体技术国家重点实验室，广东深圳 518055；
3.中国移动通信集团江苏有限公司，江苏南京 210000）

众所周知，伴随千行百业的应用上云，各种云和资源池将成为应用的算力载体，算力资源池多样性、边缘化已成现实，有着云计算先发优势和2C 应用强势地位的互联网云商成为算力供给的主要力量。由此，互联网云商和运营商分别拥有了“应用算力”和“网络运力”的控制权[1-2]。

2020 年5 月，政府工作报告中首次写入“新型基础设施建设”（简称“新基建”），其中“算力基础设施”纳入新基建范围，希望“新基建”成为新形势下推进数字经济发展的新动能。“算力”已超越5G 网络和云计算，成为信息技术行业的新网红，成为衡量国家和地区发展能力的新表征和新尺度，这无疑给通信基础设施建设主力和国家队的运营商注入了一针强心剂。2021 年下半年，中国移动集团适时提出“算力网络”战略目标，构建面向“连接+算力+能力”的新型网络，将算力纳入网络范畴，为通信网络和云计算的网络转型和经营转型指明方向，昭示着算力供给的大变革已来[3-4]。

然而基于“东数西算”和分布式云的算力基础设施，对算力集约化和共享化水平提出新挑战，业界相应的研究成果比较缺乏。为此，本文基于云资源池发展趋势分析，结合相关应用表现为实证，以应用为中心，强调服务化理念，着重描述如何打造“一朵云”服务化产品方案和关键技术。并从纵向的云资源池和横向的跨资源池的开通、运维和运营角度出发，构建面向应用的统一超大规模云资源池，实现算力供给新模式和运营管理体系。

云资源池的发展，一开始依托互联网应用上云。通过算力资源的集约化和共享化[5]，应对应用负荷不均和业务发展的不确定性，主要表现为两种场景：

（1）弹性计算：应用对资源的需求不是全天候的，无须永远在线而独占资源，因此，应用更需要的是资源服务，而不是资源本身[6]；

（2）高密度大数据计算：资源以烟囱方式分配给应用使用，这不适合高密度、大数据量的计算场景，因而需要短时间集中大量的计算资源，通过彼此共享资源的集约方式来满足。

正是算力资源的稀缺性，使得算力集中部署在云端，终端侧共享使用，以便提高算力资源的运营效率，而时延等网络协同及数据安全的要求退而求其次。

随着单位性能的算力价格逐年下降，算力进入相对丰富阶段，因而算力部署不受限于“中心化”的唯一方式，而通过构建算力网络探索其他一些方向，如算力本地化，算力泛在化（异构算力的专业领域定制）[7]，及“东数西算”国家战略引入的节能和减排等因素[8]的算力综合化。这些都是算力“逆中心化”的趋势，一定程度上打破了集约化和共享化。

1.1 算力本地化和泛在化

从业务角度，算力本地化是部分应用的算力服务需求，如视频直播、XR 实时渲染和交互游戏类，车联网，工业互联网等实时类业务，以及高性能计算，边缘计算和高性能数据存储等新型计算业务。这些业务需要低时延、高性能和高可靠的算力服务，以及数据安全敏感型的企业园区算力场景，都提出算力本地化要求。

而算力泛在化的算力技术架构需求，则来源于业务的分布式部署，多节点业务组件相互配合完成用户服务响应。这相应依赖分布式计算和异构算力协同服务，而不是单点或局部算力的效率最大化，为此，需要引入云边协同，边边协同，业务一致性体检等多算力协同技术，支撑跨边缘算力的业务快速移动和算网服务动态加载，以便实现全局化的算力服务。这比算力本地化更复杂，算力本地化是算力泛在化的特例[9-10]。

算力泛在化显著改变算力部署架构，增加业务管理和资源调度的开销，而实时类和高性能需求的业务体验明显改善。如图1，以VR 沉浸和交互式云游戏为例，将渲染处理、音视频编解码等置于贴近用户侧的边缘云上部署，以及就近分发、推流给用户，显著改善游戏清晰度和流畅度，而卡顿和黑边等质量问题基本消失。

图1 基于VR实时渲染业务的算力泛在化部署架构

为说明算力泛在化对业务的非算力效率因素的作用，以业务处理的端到端时延为例。如表1，除中心化部署和边缘云部署这一点不同外，其他试验环境保持一致的情况下，得到整体端到端时延为55.8 ms，显著低于用户感知80 ms 的门限值。

表1 云渲染节点下沉前后的业务时延对比

然而，比较“指令上行时延”和“视频接收时延”两项差异较大的指标，云渲染节点下沉给整体端到端双向时延降低的贡献占比是27.7%，对应网络单向传输时延约10 ms。相应的“算力性能”，即算力处理能力和速度，对业务的时延影响仍然是主要因素，贡献占比近70 %。

算力泛在化的另一个典型应用是云电脑，它将用户端的算力上移到云端。为确保和本地电脑一致的使用体验，本地用户的算力和热数据一般部署在本地，即边缘云位置，而管理功能和冷数据部署在中心云。并根据用户位置的变化，相应在多个边缘调配算力。

用户端操作云电脑流程如图2 所示，其中，T1 和T3是云电脑服务端基于RAP（速率自适应）协议从用户端接收指令和发送图像帧的时延，依赖传输网络的时延保障。T2 是云电脑服务端的程序处理时延，也包含图像渲染编码完成后编码和发送帧的时延，大体上和算力性能有关。以最少18 fps 即每秒18 个单帧为例，T2 所含的帧间隔是55 ms。若按1080 P 满屏算，T4 所含的解码和显示需要30 ms，T2+T4 的总时延达到85 ms。

图2 用户端操作云电脑流程

按从用户端发出操作指令到接收并显示的端到端时延100 ms 目标，传输网络的双向时延必须不超过15 ms。通过将算力下沉到靠近用户侧的位置，给业务处理端到端时延的贡献占比只有15%，而算力性能占比85%，仍然是主要部分。

同时，即使传输网络双向时延不超过15 ms 的低时延保障下，业务处理端到端时延100 ms 仍然超过如VR云渲染等实时类业务的时延阈值80 ms，即云电脑尚不具备开展实时类业务的可能。

两个算力泛在化的应用案例揭示，通过业务处理节点下沉有助于改善业务体验，但没有在整体时延指标的贡献占比中起到决定性作用，“算力性能”依然占主要部分。

1.2 “东数西算”政策下的算力综合化

2021 年上半年，国家发展改革委等部门联合印发文件《全国一体化大数据中心协同创新体系算力枢纽实施方案》，批复东部和西部各4 个区域启动建设国家算力枢纽节点，并规划10 个国家数据中心集群。至此，全国一体化大数据中心体系完成总体布局设计，“东数西算”工程正式全面启动[11]。

作为工业经济大国，数字经济的发展以工业经济为基础，数字经济将升级工业经济的发展模式。数字经济的背后是算力消耗，算力背后是电力，西部地区在算力和电力两方面都有资源禀赋，包括可再生能源丰富，便宜的土地、人力资源和适宜的气候，使得不仅有便宜的电力，还有便宜的算力。由此工业经济时代的资源不均衡性同样波及到数字经济时代，这是国家层面的“东数西算”算力规划和“算力高铁”的传输规划的原因。

为此，除建设更多的数据中心和购置更多的服务器等算力资源外，算力网络有两方面的构建工作：

（1）构建算力高速网络：包括拓宽东西部网络间的传输带宽、降低传输时延、减少传输费用，从而将西部地区便宜的算力供给东部，相比东部昂贵的算力资源，总体节省算力投资；
如图3 所示，左侧图是只有一个算力节点的场景，QoS（业务质量）在算力-传输曲线上移动，对应不同的算力价格C 和传输价格T。在QoS 确定的情况下，选择C+T 最小的点即是算力的位置。

（2）建设算力调度网络：算力需求主要来自东部，在“东数西算”规划下，算力一部分来自西部，一部分来自东部，由此产生不同区域和不同QoS 的算力如何组合，并搭配怎样的网络带宽资源，以及QoS 确定情况下如何在算力和传输网络之间分配投资等问题，这些使得算力调度成为高需求，以期实现在网络带宽资源和算力资源的均衡。如图3 所示，右侧图是算力多维空间的场景，以两维空间为例，即两个算力节点的情况下，至少有一个QoS 值在两个算力空间交汇，分别对应两个算力节点区域，形成C1+C2 的算力投资和T 的传输投资。

图3 算力多维空间

“东数西算”强调算力资源的投入产出效益，强调网络对算力的促进作用，实现综合效益最优。以东部需求为例，继续从两方面分析对业务质量的影响：

（1）从算力中心化角度理解，原来东部节点是中心节点，随着碳交易交价格的攀升，终有一天大量业务会迁移到西部节点，更多的算力节点部署在西部，实质是算力中心化区域的迁移过程，在不考虑节能和减排等正收益因素的情况下，以业务QoS 的时延指标判定，和迁移前相比，至少在业务质量是负收益因素。

（2）从算力本地化角度思考，东部节点相比西部节点是算力本地化节点，西部节点相比东部节点是中心化节点，可见这也是算力“逆中心化”方案。从算力本地化和泛在化部分的分析可知，业务质量得到改善，但其中算力性能的贡献仍占主要部分。

1.3 算力“逆中心化”的影响和算力效率

所谓算力效率，即单位算力性能在单位时间内的利用率，或称“算力Erl”，最高值是1，即百分百被使用。随着算力资源集约化程度提升，算力被共享的范围越大，算力Erl 越高，相应降低算力资源需求，算力资源利用率得以提升，因而算力集约化和共享化有利于提升算力效率。但算力“逆中心化”抵消集约化和共享化的作用，对业务质量和算力效率的影响呈现跷跷板效应，两者共同影响未必带来正收益。

为此，下文将重塑“算力集约化”以提升算力效率为出发点，基于超大规模云资源池讨论算力新供给模式，以期在算力非集约化、分散情况下提升算力共享水平，进而提升算力效率。

众所周知，云商基于依赖互联网和行业客户建立规模巨大的云网络，并携多年深谙互联网业务的固有优势，向应用本地化和泛在化领域突进，越来越接近用户终端，运营商的流量需求反倒有被蚕食的趋势。

因此，在流量价值见顶的背景下，相比云商以应用为导向、为用户提供一致性的业务体检，运营商需要多方面的算网改造，简称为“三新”，具体包括：

（1）新市场：向“算力市场”进军：从数据中心基础设施供应商向算力供应商转变，从流量运营向算力运营转变；

（2）新产品：打造“一朵云”产品：面向实时类业务和在东数西算国家政策的背景下，立足算力逆中心化或分散的算力网络架构，提升集约化和共享化水平；

（3）新服务：“算网一体化”服务：结合自身网络优势走出算网在基础设施和服务两个层面的融合之路，才能实现差异化竞争。

下文将围绕“新产品”，阐述如何打造“一朵云”产品方案和关键技术，从而构建面向应用的统一超大规模云资源池，实现算力供给新模式。

2.1 IaaS统一资源池

从业务应用和运营角度，构建逻辑上的一朵云，有两种多云管理方案建立IaaS 统一资源池，满足资源层面的统一管理需求：

（1）多租户：面向不同业务提供差异化的云资源池服务，既实现不同云资源的共享运营，又简单易行、接口标准和定制开发工作量小。

与云内划分多vDC 正好相反[12-13]，多租户方案将多个物理资源池通过租户方式融合成一个逻辑的资源池，即一朵云。如图4 所示，由云资源池-A 和云资源池-B 的两个物理资源池融合成一朵云，云资源池-B 的云管平台升级为统一云管平台。

图4 多租户方式下的IaaS统一资源池

该平台管理多云和多资源池的资源，提供统一的自服务和运营门户，支持多资源池接入管理和集中运维管理，如“云资源池-A”的“编排-A”作为云的一个租户编排云资源池-A 上的业务资源。该方案满足各种应用的上云需求，并支持在云资源池-A 部署某些应用，在云资源池-B 部署另一些应用，通过划分AZ 域实现云资源池内部或不同云资源池之间的安全隔离。

（2）多数据中心：通过数据中心的云管系统对接统一云管平台，实现多云和多类型云资源的统一呈现和统一入口[14]。

与多租户方式相比，单数据中心的资源池不是以租户方式成为统一云管平台管理的一个租户资源，而是将相关资源通过云管北向的资源，管理和服务接口被统一云管平台完全纳管。图5 中，租户1 申请配额时，统一云管平台将该租户的三个应用跨两个数据中心进行部署，其中APP-1 跨两个数据中心部署。单个数据中心只有该租户的一部分资源视图，只有在统一云管平台才有全局的资源视图。此外，每个数据中心的运营管理系统对接统一云管平台，包括订单管理，账单管理和服务管理等。统一云管平台的资源管理系统收集各数据中心的资源忙闲状态，以便在应用开通流程中申请相关资源池用于应用部署。

图5 多数据中心方式下的IaaS统一资源池

2.2 PaaS统一资源池

建立IaaS 统一资源池，便于应用在对资源位置无感的情况下申请算力资源，也有利于云管平台全局化的分配算力资源，以实现集约化和共享化的算力资源调配。但是该调用方式，不满足服务调用需求，不支持通过能力开放实现对底层复杂接口和技术的屏蔽。

为此，如图6，统一云管平台增加自服务门户功能，对外为租户提供各种应用的能力开放功功能，对内为各种应用服务提供统一编排管理，提高运营效率。具体包括：

图6 多数据中心方式下的服务调用

（1）运营管理：通过服务门户向用户提供统一的服务目录，包括服务订阅，服务查询，服务退订和服务配置变更等功能，并支持相关的计费模式，账户管理和订单管理等功能；

（2）应用云服务：通过统一云管平台和各数据中心的云管的资源管理模块，支持按需在各数据中心部署相关应用，并以服务形式在控制台呈现服务统一视图，提供ECS，VPC，vFW 和SLB 等多种基础云服务能力，以及文件存储、对象存储等存储服务，镜像服务和云主机备份等计算服务，当然一般也提供系统加固，漏扫，IPS 和WAF 等安全服务；

（3）服务共享：基于IaaS 统一资源池，易于在多个数据中心配置多份应用服务，以便统一编排、管理和运维，因而各数据中心的空闲应用可以以服务化方式开放给统一云管平台，对内实现服务共享，对外提供统一的应用云服务。

2.3 大规模部署算力资源开通和应用部署方案

当数据中心数量众多、分布位置各异时，按传统的单数据中心或单资源池部署服务器等算力资源的方式极大影响一朵云的运营和维护效率。为此，本文提出分布式云场景下超大规模云资源池的算力资源和应用部署的并行处理方案，相关产品架构和流程。

（1）全局化“云资源池开通和应用部署中心”

对外一朵云的场景下，内部有多个数据中心和多个云资源池，为统一管理这些资源池和应用部署一致性的便利，设计一个新产品：“云资源池开通和应用部署中心”。如图7 所示，该产品包括两部分功能：

a）云资源池开通中心：即从裸服务器到云资源池的建立过程，包括在云计算的控制节点和计算节点安装操作系统和云平台软件；

b）应用部署中心：根据应用请求发布镜像和应用部署落地，并将应用注册在云平台的服务系统，实现应用可服务可维护。

（2）分布式和分级化的“开通网关和部署网关”

类比单个超大规模资源池的计算节点数量众多，控制节点数量也相应增加的场景，多个数据中心和多个资源池场景可以等效为多个控制节点集群，每个集群内管理超大规模的计算节点。为此，采用分级管理方案，即在每个控制节点集群内设置多级开通网关和部署网关。图7 给出了两级管理的例子，在云资源池-1 的控制节点集群设置一级开通网关和一级部署网关，在云资源池-2 的控制节点集群设置一级开通网关和一级部署网关。设置规则有：

图7 多数据中心下的云资源池并行开通方法

a）开通网关和部署网关可以分开设立，也可以合设，也可以是不同的级别，以便控制节点集群内部达到负载均衡；

b）资源池内部，开通网关和部署网关一般在多个控制节点配置多份拷贝，不仅为负载均衡，也为容灾备份时使用；

c）跨资源池下，各级开通网关和部署网关可以是一个也可以是多个，不仅为灾备，也方便云资源池开通和应用部署中心和上一级网关实施“并行”开通和部署，也有利于资源调度。

（3）多云资源池的并行开通流程和应用并行部署流程

其一，介绍多云资源池的资源并行开通流程：

硬件服务器到位后、云资源池建立前，初始状态由人工设置云资源池开通指令，包括首批控制节点和所管理的云资源池集群，第二批控制节点和所管理的云资源池集群，直到第N 批控制节点和所管理的云资源池集群。如图8，具体开通流程如下：

a）云资源池开通中心向一级开通网关所在控制节点集群发送多云资源池批量开通指令；
然后一级开通网关根据指令完成该集群的控制节点的安装；

b）一级开通网关根据开通指令要求，自动执行所管理的云资源池内相应计算节点的安装并被控制节点纳管；

c）与上一步同时，一级开通网关向二级开通网关所在控制节点集群发送多云资源池批量开通指令；

d）二级开通网关根据开通指令要求，自动执行所管理的云资源池内相应计算节点的安装并被控制节点纳管；

e）最后，逐级向上反馈开通操作的结果，流程结束。

步骤d）也可以一级开通网关完成，此时需要在一级开通网关配置“管理宽度”参数包含下级的计算节点。此外，一级开通网关管理到下面多少级的云资源池由“管理深度”参数配置，通过指令接口同步信息。

为处理各级开通网关的处理异常，增加响应消息回溯流程。若二级开通网关没有响应开通指令或返回失败响应，则一级开通网关将同步信息给云资源池开通中心，以便人工干预。

其二，多数据中心和多云资源池下的应用并行部署流程，和资源池开通流程类似，如图8，不赘述。

图8 多数据中心和多云资源池下的应用并行部署方法

算力转型的着眼点是分散化的小规模数据中心代替超大规模数据中心，还是超大规模数据中心继续大显身手，本文没有从二选一角度下断言，而力求从业务质量和算力效率两个方面，从算力本地化和泛在化、东数西算的国家政策等角度深入分析其价值走向，思考怎样的算力供给模式能为运营商将“集约化和共享化”——云计算初始时期的优势贯彻下去。为此，从应用为牵引和以终为始的思考方式出发，提出分布式的超大规模云资源池以“一朵云”对应用呈现，构建算力供给新模式和关键技术方案，希望对5G 和云计算发展之路有所借鉴和参考。

猜你喜欢算力网关时延算力盗用：一种新型财产侵害*政法论丛(2022年3期)2023-01-08算力网络中基于算力标识的算力服务需求匹配数据与计算发展前沿(2022年6期)2022-12-22中国电信董事长柯瑞文：算力成为数字经济的主要生产力现代经济信息(2022年22期)2022-11-13“东数西算”背景下算力服务对算力经济发展影响分析数据与计算发展前沿(2022年6期)2022-03-14基于GCC-nearest时延估计的室内声源定位电子制作(2019年23期)2019-02-23信号系统网关设备的优化铁道通信信号(2018年10期)2018-12-06FRFT在水声信道时延频移联合估计中的应用系统工程与电子技术(2016年7期)2016-08-21简化的基于时延线性拟合的宽带测向算法现代防御技术(2016年1期)2016-06-01基于分段CEEMD降噪的时延估计研究电测与仪表(2016年17期)2016-04-11LTE Small Cell网关及虚拟网关技术研究移动通信(2015年18期)2015-08-24

相关热词搜索：供给，关键技术，新模式，