Cloud Native使能高效敏捷电信云网络
电信云网络建设思路将从“以设备为中心”到“以业务和体验为中心”转变,即在不依赖硬件基础设施的前提下,提升网络资源效率,打造以弹性、健壮和敏捷为核心特征的基础电信网络。

文/邓鳌
电信网络云化转型已成全行业共识
随着数字世界与现实世界加速融合,今天的电信市场正处于产业大变革期。一方面,人口红利渐逝、传统业务遭到冲击、流量营收陷入“剪刀差”,这些都已成为高悬于运营商头顶的“达摩克利斯之剑”。另一方面,全行业数字化蓬勃兴起、企业应用快速迁移云化、全联接和5G从梦想逐渐走向现实,也孕育出上万亿规模的新“蓝海”市场。
面对挑战和机遇,传统“竖井式/烟囱式”的网络架构成为运营商发展的桎梏。最大化网络效率,满足多样化的业务体验需求,快速响应长尾市场高度差异化的需求,是运营商实现商业成功的关键。融合NFV和SDN等新技术,通过电信网络云化转型,构建资源可全局共享、容量可弹性扩展、架构可灵活调整、能力可全面开放、业务可敏捷生成、运维可自动闭环的高效敏捷网络,成为越来越多基础电信运营商的共同选择。
电信网络云化不仅要延续通信行业的严谨可靠,更要引入IT行业的敏捷和灵活。NFV技术可有效实现网络设备硬件的标准化和虚拟化,但在软件架构、业务开发创新、运营与运维模式上还是传统盒子的发展方式,效率不高,更谈不上敏捷。
源于IT的Cloud Native作为大规模分布式网络软件设计和实现理念,被引入电信网络云化过程中,其根本目的在于吸纳IT行业的优秀实践,结合电信业务本身特点,更进一步从NFV到NFC,基于Cloud Native理念对虚拟网络功能软件进行系统优化重构,实现“全分布式、全自动化”的电信网络功能软件,构建真正高效敏捷的电信云网络。
以业务和体验为中心
在新的理念下,电信云网络建设思路将从“以设备为中心”到“以业务和体验为中心”转变,即在不依赖硬件基础设施的前提下,提升网络资源效率,打造以弹性、健壮和敏捷为核心特征的基础电信网络。
弹性:核心是网络级分布式架构,基于无状态设计、控制面和用户面分离、跨DC部署等关键技术,构建基于业务感知的弹性网络,其中资源按需提供,业务容量不受单一硬件物理限制,网络功能可动态快速生成并按需部署,以确保不同应用对体验的要求。
健壮:核心是冗余和智能运维,基于无状态设计、N-way冗余和跨DC部署以及基于大数据的主动故障发现与自动闭环控制等关键技术,构建去中心化的多点故障容忍系统和故障自愈机制,以实现不依赖于基础设施的高可靠性。
敏捷:核心是网络切片、服务编排、灰度发布,基于服务化解构、数据模型驱动、应用编排等关键技术,使得新网络功能可灵活组装,新网络业务可随时发布,新的功能特性可以在线定制,以实现不同行业诉求的快速响应。
基于Cloud Native电信云网络,运营商将获得空前的灵活性、效率、速度和弹性。秒级的网络扩缩容,分钟级的新业务快速上线,极致业务体验的保证,成倍的运营效率提升都能够轻松实现。
构建Cloud Native电信云网络
Cloud Native本身有着丰富的内涵,包含一系列IT关键技术和优秀实践,如微服务、DevOps、持续交付、敏捷基础设施等。但Cloud Native电信云网络的架构搭建和关键技术的选择不能完全照搬IT实践,在各种技术的引入和应用时,需回归商业本质考虑电信业务在应用场景、服务质量要求、开发及运营模式方面的差异化诉求,围绕弹性、健壮和敏捷,分层按需、循序渐进引入Cloud Native的关键技术。
虚拟化软件的微服务解构:在进行微服务级别的解构前应先进行数据面和控制面的分离,即程序和数据分离,将业务状态和会话数据从业务处理单元中分离出来,并存储在独立的分布式数据库中,实现业务处理单元的无状态设计,使得业务处理单元可以任意弹性伸缩,任意单个或多个业务单元故障业务无损,从而大幅提升虚拟化软件的弹性和健壮性。在此之上,根据业务的应用场景和网络模型对虚拟化软件进行微服务解构,解构的粒度并非越小越好,重点是放在可独立升级、可独立扩缩、可重用上。对于变化快、定制需求多的应用如IoT、企业通信,和功能相对稳定的应用如IMS/EPC,拆解后微服务的大小显然不同。
Telco DevOps平台的构建:服务化解构后,服务最小单元能够独立开发、扩缩、运行、隔离和修复。进一步通过DevOps平台和开发运维协同文化的引入,使能业务从开发到运行全自动化的持续迭代和上线,实现差异化需求的快速响应,以及新业务的敏捷开发上线。但与IT独立开发运营方式不同,运营商更多的是B2B交付模式,即厂商开发、运营商运营模式。在多数运营商并不擅长软件开发的背景下,需要构建适合运营商业务特点的Telco DevOps平台和流程。相对而言,Telco DevOps平台将需要更加完善的自动化运维、可靠性和安全能力,以及与现网运维运营系统的快速集成能力。而在流程方面,运营商不应以构建E2E的DevOps团队为目标,而应考虑如何更好地发挥自身对业务深入理解的优势,比如由厂商提供基础平台和基础微服务单元,由运营商根据业务场景对微服务单元进行按需编排以及适度的二次开发,就是一种比较好的方式。
基于大数据的智能运维系统:软硬件解耦及虚拟化软件服务化解构带来的不仅是灵活和敏捷,同时也增加了系统的复杂性,使运维变得更加困难。比如,分层解耦导致故障定界定位变得复杂,成百上千个VM和服务节点导致故障节点增多。随着云化网络规模的扩大,如果按照传统模式,人工运维成本将呈现几何级增长。因此,引入大数据和人工智能构建全自动化闭环控制智能运维系统,由系统自动搜集各种服务实例、硬件和软件的状态,根据策略进行分析和判断,给出网络纠错或者改进错误、修改配置、网络功能自愈的意见和行动措施,实现整个系统的业务自动编排和自治运行,提升运维工作的效率,保证业务7*24小时高效稳定运行,是构建Cloud Native电信云网络的必要条件。
容器技术的引入:容器作为轻量级虚拟化技术,在资源效率、性能、部署和启动速度、可迁移性等方面有着明显优势,但也存在着安全性问题。VM作为重型虚拟化技术,在安全性和资源隔离方面有明显优势,但在资源效率、性能等方面则相对偏弱。未来容器和VM两种虚拟化技术会并存,可根据应用本身特点进行选择。
综上所述,运营商基于Cloud Native理念,通过服务化解构实现“乐高”式的业务敏捷组装生成;通过Telco DevOps平台打通开发和运营,具备互联网模式的新业务开发速度;通过无状态设计和智能运维构建基于应用的多点故障容忍和自愈能力,实现基础设施无关的电信级可靠性,最终构建高效敏捷的电信云网络,端到端提升效率,获得商业成功。