新闻资讯

阿里云发布CIPU,国内首次全自研云计算技术体系形成 网友:给阿里点赞

2022-06-20 10:17:25   来源:中国工业新闻   浏览:195 评论(0

  数字经济时代,算力是底座。

  算力,简单理解,就是数据中心、云数据中心,再进一步,还有各种云服务。这些年,数据中心的技术发展非常快,但有一点没变,就是CPU为核心的计算体系架构。要更快的计算速度?ok,增加CPU。当然,这只是路径之一。

  互联网企业主导数据中心技术的发展。没别的,因为规模太大,以及各种技术、应用,无先例,只好自己干。

  6月13日,阿里云智能总裁张建锋在2022阿里云峰会上,正式发布CIPU(Cloud infrastructure Processing Units),是“为新型云数据中心设计的专用处理器,未来将替代CPU成为云计算的管控和加速中心”。



  网友说:给阿里点赞!阿里加油!


  那么,CIPU到底是个神马?

  云基础设施处理器CIPU(Cloud infrastructure Processing Units ),是阿里云为新型云数据中心设计的专用处理器,用于加速和管控计算资源,将替代CPU成为云时代IDC的处理核心。

  在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,管控阿里云全球上百万台服务器。

  CIPU的发布,意味着国内首次形成全自研云计算技术体系闭环。


  Back to Basic,定义下一代的云

  峰会上,张建锋表示,阿里云今年最重要策略是“B2B”,也就是“Back to Basic”,回到云计算的本质,坚持在技术的长征路上,不断取得新的突破。他认为,云计算进入了一个关键的突破期,“如果我们定义好下一代的云,中国云计算就有超车机会。”

  新发布的CIPU是一个全新的架构体系,从最底层的数据中心核心部件到最上层云原生软件,建立了完整的自研技术体系。

  “阿里云做到了软硬件完美结合,成为‘飞天+CIPU’支撑的云计算技术体系”,张建锋说,新型体系是技术长征路上的新的里程碑,这个新型的技术体系正在定义下一代云计算架构。



  在芯片层面,阿里云是全球支持CPU种类最多的云厂商,基于“一云多芯”战略对X86、ARM、RISC-V等多种架构进行适配,兼容飞腾、鲲鹏、AMD、Ampere等多种CPU,形成标准形态的算力输出。同时,阿里云针对云计算大规模、高并发特性,推出自研CPU芯片倚天710。目前,倚天710已在阿里云数据中心内部规模化部署,并顺利支撑2021年双11等多个核心业务。今年4月,基于倚天710的公共云 ECS实例已上线邀测。

  在网络层面,阿里云建设了全球最大规模的RDMA分布式高性能网络,CIPU对高带宽物理网络进行硬件加速,实现RDMA技术的普惠化。在存储层面,CIPU对存算分离架构的块存储进行加速,让云端存储比本地存储更快,并拥有极大规模的资源池。在计算层面,通过CIPU把虚拟化开销降到0,并提供硬件安全隔离功能。

  目前,阿里云在全球云计算的市场和技术水平均处于领先地位,在Gartner发布的年度报告里,阿里云的IaaS基础设施能力、产品能力获得了全球最高分。其中,在网络技术上,阿里云被权威机构AMiner评为全球十大最具影响力的网络研究机构。

  同时,新一代云计算体系不仅会对云、对数据中心内部产生影响,也会改变传统计算机终端形态、以及软件应用和开发界面。

  其中,对于计算机终端来说,阿里云推出的云电脑无影,将高算力工作从本地转移到云端,释放终端侧的高性能硬件需求。今年云峰会上,无影宣布升级全新ASP云流协议,支持开发者打造8K画质体验,并将时延控制在20毫秒内。

  张建锋表示,钉钉希望为企业数字化提供一个统一的软件界面,不用每个软件单独装一个APP。此外,钉钉提供了非常多的基础能力,例如通讯录、组织架构、权限控制、办公、文档、沟通等,并提供低代码这样的易用技术,可以让企业更快速地开发应用。截至2022年3月31日,钉钉已经服务2100万个企业和组织,这些企业在钉钉上开发的应用超过350万个。

  “云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。”张建锋表示。


  发布阿里云产业智能OpenTrek

  阿里云智能副总裁、行业解决方案研发部负责人曾震宇在会上发布“阿里云产业智能OpenTrek”,将阿里云多年来在多行业实践沉淀而来的产业智能化能力进行“封装”,让政府和企业客户可以充分挖掘行业数据的价值,高效可行地推进数字化转型。



  据介绍,阿里云产业智能OpenTrek包含了具备行业属性的数据平台和智能产品,以及联合合作伙伴在两者之上开发的行业解决方案。OpenTrek的核心是5大产业智能核心技术,它们代表5种典型的行业计算场景,分别是数字孪生、仿真推演、知识工程、决策优化和协同计算。OpenTrek通过构建行业数据中台,运用5大核心技术来融合和处理数据,充分激活数据要素的潜能,实现业务升级。

  作为全球产业智能的“拓荒牛”,阿里云将产业智能OpenTrek在制造、政务、交通等多个行业落地,帮助客户创造业务价值。

  1、工业智造:构建数字孪生 实现降本增效减排

  在制造行业,阿里云帮助上百家工厂构建工业数据中台,结合工业实时优化和过程控制两种能力打造工业智能化引擎,然后通过智能感知和数字化还原技术,建立工厂的三维数字孪生,通过可视化构建的方式为工业设备设定优化工艺参数,并且能够反控设备,实现降本、提质、增效、减排的业务目标。

  在一汽红旗繁荣工厂,阿里云利用数字孪生技术,实现工厂中的2万台设备的实时在线,完成现实生产在数字世界里的孪生实时联动,数字化支撑产线单车过程追溯、生产异常分析,并且可以完成对重点设备排查等复杂的生产任务。

  华新水泥被誉为是全国水泥工业的摇篮,通过利用阿里云的决策优化和协同计算技术,实现对生料磨、烧成系统、水泥磨等水泥生产全过程的关键设备过程控制与关键工艺参数的实时优化,让水泥产线的综合能耗能够降低4%。

  2、数字政务:一网通办+一网统管

  在政务领域,阿里云基于政务数据模型、智能引擎和智能应用三层逻辑,面向政务行业推出了“一网通办”和“一网统管”两个解决方案。

  其中,浙江省“一网通办”仅去年1年就为全国2000万群众完成7000万线上办件量,为浙江60%新生儿出生落户实现多件事1次办;“一网统管”覆盖90%城市治理场景,定义了2200多个事件处置流程与责权清单,帮助基层部门把跨层级、跨部门、跨业务等难处置事件的处理时间缩短31%。

  在湖北宜昌,阿里云实现了宜昌的城市数字孪生。通过结构化数据与空间数据融合计算,对宜昌主城区200平方公里的地上建筑、8类给水、排水、燃气、电力等地下管网,还有地面道路、车辆、事件等等,进行全视角动态数字化,为城市数字化决策提供立体化的数据依据。

  3、智慧交通:数字还原  预测治堵

  在交通领域,阿里云融合交通领域的各种数据,通过数字化还原技术,得到车辆的准实时位置和运动轨迹,形成全网交通数据模型。再叠加交通行业的智能化引擎,比如路口优化、交通组织优化等算法,得到交通态势,并且在第一时间发现交通拥堵、交通事故等问题,供相关部门及时准备应对措施。

  在北京冬奥会期间,阿里云基于数字孪生、知识工程和仿真推演技术,帮助北京交警局搭建了冬奥交通安保一体化平台,提升交通管理智慧调度能力,护航冬奥会赛事交通保障。在冬奥期间,实现处置效能提升10%,拥堵指数下降10%。

  在成都,阿里云利用数字孪生技术,帮助成宜高速的道路、车辆、交通设施设备、地貌以及气象等各种要素进行一比一的数字化还原。通过对全路段的数字仿真,可实现20多类交通事件快速识别,100多种交通管控策略自动推荐。经测算,高速孪生平台对车速预测准确率大于90%,帮助救援时间缩短50%,极大地保障了成宜高速有序通行。

  曾震宇表示:“产业智能并不是AI技术的堆砌,而是围绕着各行各业的数据要素建立起来的一个技术体系,它运用了各种数字化手段,以及具有行业属性的智能化技术,是高效可行的数字化转型实现路径。” 


  阿里云CIPU百科

  1、CIPU的三大特性

  网络:对高带宽物理网络进行硬件加速,通过建设大规模的eRDMA分布式高性能网络,实现RDMA技术的普惠化;

  存储:对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘;

  计算:快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。



  2、为什么要有CIPU?

  为了解决传统CPU计算体系架构的问题,需要对数据中心内部的云计算体系架构进行改革创新,从以CPU为中心的体系架构进入以飞天操作系统+CIPU为中心的体系架构。

  过去十多年,云计算技术发展经历了两个阶段:

  第一阶段是分布式技术,推动互联网企业从大机向分布式系统整个迁移;

  第二阶段诞生了资源池化技术,通过计算存储分离的架构,对资源统一的调度编排,提高云计算的可靠性和可用性。

  这两个阶段都是以CPU为中心的计算体系架构,解决了部分计算的需求。

  但云上客户的需求发生了巨大的变化,就像内燃机发明之后,人类对载具速度的想象力从马车时代进入了汽车时代。

  随着数据密集型计算越来越多,传统以CPU为中心的计算体系架构无法适应这一趋势:

  第一,以CPU为中心的架构导致了计算和网络传输的时延大;

  第二,大数据应用增多,导致数据中心内部数据迁移量增多,以CPU为中心的架构无法提供高带宽;

  第三,管理的基础设施规模越来越大,阿里云在全球27个国家和地区、84个可用区管理着超过上百万台服务器,基于CPU为中心的架构无法解决超大规模的复杂管理问题。

  3、CIPU带来哪些改变?

  基于CIPU和飞天操作系统的新一代云计算架构体系,无论是在分布式应用还是人工智能的场景测试中,都展现了优越的性能。



  存储方面,通过全硬件虚拟化和转发加速,存储时延最低可至30us(PLX),IOPS高达300万,存储带宽可达200 Gbps,全面超越市面上所有云产品,云端能提供比本地更安全可靠且高性能的存储能力。

  网络方面,基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。应用上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。

  计算方面,单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%。主流通用计算场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。同时,神龙计算平台可以提前预测80%的硬件故障,并进行无感热迁移规避,从而实现了业界领先的高可用SLA。

  过去13年,阿里云自主研发了飞天云操作系统,并构建出自研芯片、服务器、计算、存储、网络等软硬一体的新型计算体系架构。

  飞天是中国唯一自研云操作系统,将遍布全球的上百万台服务器连接成一台超级计算机,单集群可达10万台规模,千亿级文件数,EB级别存储空间。2018年,飞天获得中国电子学会15年来第一个科技进步特等奖。

  在2021年11月发布的Gartner IaaS + PaaS 综合解决方案记分卡中,阿里云被认为是所有被评估的全球供应商中得分第三高的解决方案,在计算、存储、网络、安全等核心能力中,阿里云也均获得最高分。

  4、一云多芯,发布第一颗CPU芯片倚天710

  传统IT时代围绕芯片建立IT生态,但云计算从根本上改变了这一模式,云操作系统可以将服务器芯片、专用芯片等硬件封装成标准算力,无论底层芯片是X86、ARM、RISC-V还是硬件加速,给客户提供的都是标准的、高质量的云计算服务。

  2021年9月,阿里云在云栖大会上发布了首款通用芯片倚天710。作为一款为云而生的芯片,倚天710针对云计算特点做了大量优化,性能超过业界标杆20%,能效比提升50%以上。

  架构层面,倚天710采用最新ARMv9架构,多达128核,主频最高3.2GHz,可同时兼顾性能和功耗。同时,集成了业界最领先的DDR5、PCIE5.0等技术,能有效提升芯片的传输速率,并且可适配云的不同应用场景。

  目前,倚天710已在阿里云数据中心内部规模化部署,并顺利支撑2021年双11等多个核心业务。今年4月,基于倚天710的公共云 ECS实例已上线邀测。

  5、自研服务器&操作系统

  阿里云在去年9月发布了自研的磐久服务器和龙蜥服务器操作系统。磐久服务器采用了最新型的模块化设计,可实现计算存储分离,包括了高性能计算系列、大容量存储系列、高性能存储系列等,拥有风冷、液冷等不同散热模式,服务器交付效率提升50%。

  针对云原生时代容器化、微服务、持续交付等特点,磐久系列采用软硬件融合方式实现极致性能,结合自研的MOC、FIC、AliFPGA、神盾卡等,满足云原生的创新开发对性能和稳定性的机制要求。在多核技术加持下,磐久系列的计算性能、IO吞吐、能效比的表现都居于业界领先水平。

  龙蜥定位于服务器端操作系统,支持 X86、ARM、龙芯(LoongArch)等多种芯片架构和计算场景,性能和稳定性经受住了历年双11的严苛考验,为云上典型场景带来40%的综合性能提升,故障率降低50%,兼容CentOS生态,支持一键迁移,并提供全栈国密能力。

  6、计算层:神龙

  为了解决服务器长久以来的虚拟化性能损耗的问题,阿里云自主研发了神龙架构。神龙与CIPU结合,可将虚拟化转移到专用硬件中进行加速,可将物理机的高性能与虚拟机的灵活性融为一体,虚拟化损耗几乎为零,性能比传统物理机更强劲,还可随时扩容,极大降低了客户的成本。神龙不仅解决了云上虚拟化性能损耗的痛点,更让云服务器的性能表现超越了传统物理机。

  基于神龙弹性计算集群,无论是在分布式应用还是人工智能的场景测试中,都展现了优越的性能,例如Redis性能提升了68%、MySQL提升了60%。在应用上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。高稳定性是算力作为基础服务设施的一个关键,在GPU服务器、CPU服务器和其他的异构服务器这些关键计算服务中,阿里云服务器的各项性能始终处于业界领先的水平。除此之外,神龙计算平台可以提前预测80%的硬件故障,并进行无感热迁移规避,从而实现了业界领先的高可用SLA。

  7、存储层:盘古

  盘古是阿里云自研的分布式存储系统,是阿里云底层的统一存储架构,采用了分布式系统先进的容错架构和柔性平台设计,具备弹性伸缩、自动负载均衡等能力,大幅提高了存储系统的可靠性和安全性,可支持块存储、对象存储、表格存储、文件存储、离线大数据处理等多种存储模式。

  在云存储技术演进的过程中,盘古引领行业从毫秒级存储向微秒存储的时代演进,推动面向数据中心ZNSSSD国际标准的发展,与WD共同提出NVMeZNS国际技术标准(NVMe2.0),是目前云计算业内最为先进的软硬一体深度融合的分布式存储系统。目前已经围绕盘古系统获得发明专利超过190件。

  今天,基于盘古系统,阿里云已建起全球最丰富的云存储产品家族,从公共云存储到混合云存储,从数据迁移到云上丰富的数据管理服务,为客户提供99.9999999999%的数据可靠性。全球部署规模已超100EB,凭借多层次防护、跨区域容灾等能力连续三年入选Gartner全球云存储魔力象限,被列为全球领导者地位。9月26日,盘古还入选了2021乌镇世界互联网大会·世界互联网领先科技成果。

  8、网络层:洛神

  洛神云网络是阿里云飞天云操作系统的核心技术平台,支撑起百万级的用户业务部署,让更多能够人体验到云计算带来的高效便捷服务;秉承“让网络更简单”的理念,提供了从万物上云网络、全球化网络到数据中心组网、应用交付网络覆盖用户云上网络全场景的产品和服务。

  洛神云网络经历12年的快速发展,从1.0时代发布国内首个VPC,再到2.0时代打造了全球领先的“三位一体“(软硬一体,超强性能;伸缩一体,无限弹性;云网一体,极致服务)创新型云网络架构。

  2021云栖大会上,阿里云重磅推出洛神云网络3.0新平台架构,主要特点包括:让中心云到本地云和边缘云都有一致性的云网络体验;通过全新的物联网云连接器和智能接入网关让万物都能上阿里云;全新升级的各类网元产品提升应用在云上的安全性和灵活性;全新发布的网络智能服务,为用户提供从规划到使用的智能助手;同时洛神云网络3.0也通过开放合作来赋能产业。

  9、自研数据库

  阿里自研的数据库起源于“去IOE”浪潮。2013年7月10日,淘宝核心系统中的最后一台Oracle数据库下线。这是“去IOE”非常重要的一个节点。经过三年的研发,阿里云于2017年9月发布了自主研发的云原生数据库PolarDB,并于2018年4月正式商用。

  阿里云提供了国内最丰富的数据库产品,除了智能化的企业级云数据服务RDS之外,阿里云自研了面向不同核心应用场景的云数据库产品,形成了以PolarDB、AnalyticDB、Lindorm为核心的面向在线交易处理、分析与多模、HTAP、物联网等不同场景的云数据库产品矩阵,满足客户不同业务场景的需求。

  作为阿里云自研数据库的明星产品,2021年,自研数据库PolarDB首次实现了内存与计算、存储的解耦,内存进一步池化,形成三层池化,使得弹性能力有数量级的提升。同时PolarDB还首次实现了多主架构,进一步提升可用性、并发处理、弹性能力,高效应对“双11”般的流量洪峰。

  10、绿色数据中心

  阿里云是国内最早实践绿色数据中心的厂商之一,目前阿里云自建的数据中心都已达到国家绿色数据中心标准,全年平均PUE小于1.3。

  从阿里巴巴自身减碳实践看,近年来已经有一系列成果。2020年9月,阿里仁和数据中心落地杭州,成为国内首座绿色5A级液冷数据中心,同时也成为了全球规模最大的全浸没式液冷数据中心。相比传统数据中心,其PUE最低可以达到1.09,每年可省电7000万度,足够西湖周边所有路灯连续点亮8年;而阿里巴巴张北数据中心则成为行业首个碳普惠试点项目,获评“2020年国家绿色数据中心”。(阿里云)


文章关键词: 云计算
返回顶部 关闭