从年初「东数西算」炸圈至今,已经过去整整半年,半年来的“战绩”如何?未来的前景怎样?主要玩家都有哪些?出现了哪些数据和算力应用新范式…
2022年2月,多部委联合发布8个《同意启动建设全国一体化算力网络国家枢纽节点的复函》,并规划了10个国家数据中心集群,得到了政府和央媒确认。
其中发改委高技术司对于东数西算工程的答记者问最清晰有意义,摘句总结一下:
▌西部地区资源充裕,特别是可再生能源丰富,具备发展数据中心、承接东部算力需求的潜力。
▌“东数西算”工程的意义就是:推动数据中心合理布局、优化供需、绿色集约和互联互通。
国家政策发布后,我们需要先解读和推演,才能更好的学习和实践。我对政策公告中的三个关键立场做了解读。
上述政策新闻的对象都是“数据中心”,但国家级政策的影响不止是一堆机房。公有云要合规经营,也要以IDC的名义申请B11类增值电信业务经营许可证,所以这里的“数据中心”就是要包括公有云。
▌解读2:推进全国数据中心的“适度集聚、集约发展”,这是要发挥规模效应而不是合并垄断。
该目标的行为指导是“提升整体算力规模和效率,打通数据高速传输网络,强化云网融合、多云协同,促进东西部算力高效互补和协同联动”。只要各个云节点聚积到了8大枢纽,可以同楼层不同产权,可以共用风火水电,可以云上做云多云互备,更能实现“适度集聚、集约发展”的目的。
以最早发布的《粤港澳大湾区枢纽启动》为例,我们要“引导温冷业务向西部迁移”,但也要在韶关高新区“积极承接广州、深圳等地实时性算力需求”。东部数据中心在满足绿碳和上架率等前提下,仍然要继续运行。
东数西算是一次大规模资源整合重分布,但重大资源整合并不是简单的排列组合,而是带了两个关键技术攻坚——“低碳节能”和“高延迟网络”。
这两个关键点带来的难题在全球范围内无解,根源上是过去的IT需求太娇气太昂贵了,我们从未想过计算机会如此耗电,网络延迟一直被当做“现象”而非“问题”。
▌网络搜索“中国数据中心耗电量”,可查到截至2020年底,数据中心耗电占全国总用电量的2.7%,预计2022年耗电量将达到2700亿千瓦时。
如果操作系统和业务应用层能为低碳节能和网络延迟做优化设计,东数西算数据中心能更广泛的应用、更环保的使用。
▌东数西算的“低碳节能”可以用服务器柔性错峰来化解,西部节点的“高延迟网络”是个应用架构难题。
▌为此做技术攻坚说“颠覆式创新”都太保守了,应该是“颠覆式重构”,国际上缺乏成功先例,国内巨头们也只停留在实验室概念阶段。
这些技术难题的主要工作是需求侧IT架构重构,只能交给云厂商用5年、10年甚至一代人的时间来解决。
如果中国云厂商借着“东数西算”的磨砺突破了这些技术限制,很快就会出现跨时区、跨半球冬夏季的云计算平台,中国云厂商就能更好的服务人类命运共同体。
▌数据中心是耗电大户,东数西算也多次提及电力能耗问题,电力资源有这几个特殊属性:
✓和硬件、软件、带宽相比,电力是货真价实的资源,砸钱并不能“快速凭空产生”能源。
✓电力资源很难像石油一样储存,也无法简便调整发电场的功率。国内有长距离输电技术和大范围电网,但电网跨国和跨海洋的难度,还是比铺设网络光缆难的多。
✓绿碳新能源比拼的是大国科技树而非地下有矿,对我国长期发展非常有利,但绿电的稳定性一直受到自然环境影响,很多绿碳电力浪费得很可惜。
▌现在的绿碳数据中心,制冷温控的能耗在迅猛降低,硬件的单位功耗亦步亦趋的降低,但这些节能手段是“支撑计算机的非计算机技术”。
IT技术常识是,底层资源盲目支撑上层业务效率很低,需求侧做优化效率更高。如果要从需求侧做到节能环保,云厂商需要开发出新的计算群集框架和操作系统优化。
✓现在的技术水平下,即使离线型计算群集,其设计思路仍然把断电当故障对待。我们需要研发出时而100%节点满载,时而99%节点灭灯,但始终能保持平滑工作的任务群集,群集内任务切分要细腻,结果合并要高效可累计。只有这样的软件群集才能错峰用好绿电。
✓冰存储通过硬盘批量下电来节能,但冰存储读取数据的延迟太久,更适合人工调档和批量导入导出。如果能增强存储数据的内容描述,针对大型计算任务做好存储读写优化,让存储读写数据的频率变得可控有序,此时冰存储才会又冷又快。
✓操作系统或者其他runtime要把“电力不足”或者“温度过高”当做“正常业务动作”,并为这个动作主动发起安全关机,当电力充足启动重启时还能重载旧状态或快速重建。
✓一条建设完成的链路,一次性建设成本很快就摊销完了,售出10M和1G带宽几乎没有成本波动。
✓光纤中光速的物理极限是每毫秒200公里,加上光纤布线和设备损耗,网络延迟没有跨数量级优化的空间了。
✓受限于网络长距离传输造成的时延,对于后台加工、离线分析、存储备份等对网络要求不高的业务,可率先向西转移,由西部数据中心承接。(本段有删减编辑但不曲解原意)
▌云厂商不能指望光纤网络的延迟减半,只能从计算机架构技术上降低对延迟的需求,让东西部节点的价值靠近直至拉平。
✓无论是多知名的互联网公司还是多重要的金融业务,挖掘机随手一掏就是停服停业的大新闻。我们习惯的“两地三中心”是“远端灾备中心”,“异地多活的活”是“快速复活业务”,本质就是远端那个灾备中心的网络延迟太高,远端中心拖累了本地双中心的可用性。
✓当前IT技术时代设计出的“高性能分布式群集”,主要关注内网带宽而忽略内网延迟,各种角色协商、宣告、容错、重负载机制都没做高延迟调优。长传光纤恰好是带宽管够而延迟较高,和旧环境反过来了,而一些大数据类任务是按分钟到小时异步输出任务结果,我们有可能研发出一种“跨广域网高性能分布式群集”技术。
✓东数西算大战略下,哪个中国企业能最先研发出“8地10中心+实时多活+高性能+通用架构”的技术,这个企业就能再造一个微软或者Oralce,代表中国IT业制定全球技术标准。
我认为,从国家统筹、运营商到云厂商、互联网公司甚至社会公益多方面考虑,东部热门区域应该涨价,东数西算的核心节点不要降价来吸引客户。
▌如果西部向东部特高压输电,2000公里的电力损耗低于10%;但因为2000公里的距离产生了25-40ms网络延迟,这导致西部节点云产品的价格比东部节点低了超过10%,这个经济账就不合算。
▌公网带宽是一种配置约束而非硬性资源,且公网带宽的控制归口在三大运营商,很容易做好基于“全国统一市场”的宏观调控,带宽政策调控的力度和敏捷性也远快于其他实体资源。
▌大部分点直播业务的操作延迟都是0.1甚至1秒起步的,这些业务的广域网延迟多30ms毫无影响。西部的大带宽节点,有能力让北上广用户像访问本地节点一样流畅追剧和刷短视频。现在客户对点直播网络延迟的畸形要求,只是云厂商恶性竞争带来的畸形评价标准。
▌西部节点相对东部节点降价,云厂商管理层看到的是采购部门找到廉价替代资源,技术部门只是配合采购部门做实施迁移,很难借此主张长周期技术革新规划。但如果东部节点的资源明确要逐渐涨价,云厂商才有动力逼着技术部门去推动东数西算相关的技术革新。
▌云厂商并不反对上游资源普遍涨价,各云平台最稳定的营收都来自资源转售,供应商降价才会威胁到他们的财报。两年前某运营商给带宽普遍调价,各云只是短期慌乱,但很快就适应了新环境。
中国互联网近十年的爆炸式增长,中国互联网网企能教育指导欧美同行,靠的是中国有一张规模够大技术够好的个人网络,靠的是足够便宜的4G套餐和家庭光纤。
你们一年在IDC上多支出几十亿,定向反哺5G部署和6G开发,这才符合社会公义和财富再分配。
中国运营商有充裕的IDC收入去补贴更便宜、更高效、规模更大的个人互联网,对互联网巨头们是长期收益远大于眼前支出。
我们今天在东数西算上拥抱绿碳、拥抱高延迟多出口做的技术创新,将来都能用到一带一路的海外双循环体系中。
✓2021年9月21日,国家领导人在联合国大会上宣布:“中国将大力支持发展中国家能源绿色低碳发展,不再新建境外煤电项目”。煤电和核电是最稳定的供电方式,发展中国家以后就要用波动的绿电。
✓海外很多地区处于动荡之中,断电断网都是常态;而且海外很多小国人口密度太低,不值得在当地建设数据中心;能稳定供电和覆盖足够网民的数据中心,可能跨越数个国家在千里之外。江南体育平台