京ICP备14002071号-1查看 »

×

企事录|英特尔SDI正在造就更加智能的云

关闭

viewpoint-2016081102-cover

“云计算”概念的普及,被广泛认为可以追溯到2006年亚马逊(Amazon.com)推出其EC2(Elastic Compute Cloud,弹性计算云)。

以IaaS(Infrastructure as a Service,基础设施即服务)为代表的公有云服务,需要消耗大量的数据中心、服务器、网络带宽等物理资源。亚马逊旗下的AWS(Amazon Web Services)在2014年公开了一组数据:一个包含5个AZ(Availability Zone可用区)的区域(美东区,当时其他区域的AZ不超过3个)内有多达82864个光纤束,AZ之间为城域DWDM(Dense Wavelength Division Multiplexing,密集波分复用)链路,延迟通常小于1ms,峰值流量达25Tbps;每个AZ由1个或更多的数据中心构成,有些AZ的数据中心达到6个,单个数据中心的服务器数量可以超过5万台。

近几年来,随着AWS业务的迅猛发展,亚马逊所拥有的服务器数量飞速增长,据分析已经超过了昔日的业内老大哥——Google拥有的服务器数量“还”不到200万台。

中美同此凉热。另一个电商巨头阿里巴巴,将发展重点放到云计算上之后,服务器采购量也是爆炸性增长,与正在发力腾讯云的腾讯每年各买十几万台服务器。腾讯在2015年底宣布,服务器拥有量超过50万台。

出货量占服务器市场90%以上的x86服务器,在亚马逊、谷歌、微软、Facebook和BAT等巨头的超大规模(hyper-scale,或者Web-scale)数据中心内,更是占据统治地位。开放的x86+Linux降低了系统构建的门槛,很大程度上消除了底层的异构问题,但在规模迅速蹿升到十万、百万的量级之后,如何管理庞大的基础设施、部署并调度应用,就成为必须面对的挑战。

编排源于智能

分布式应用是云计算时代的典型特征,规模不等的不同应用集群需要合并成一个大集群,形成共享的资源池,由一个被称为“编排”(Orchestration)层的资源统一调度系统,将所有硬件资源抽象为一台或多台超大型的计算机(集群),进行资源管理和分配。大型互联网公司都有这样的系统,如阿里有飞天5K,百度的Hadoop集群也早已达到上万台的规模。

Google的Borg是非常有名的例子,它负责接收来自于几千个应用程序所提交的作业,进行调试、启动、停止、重启和监控,这些作业用于不同的服务,可以跨上万台服务器有效的运行,并获得很高的可靠性和可用性(如4个9)。Borg隐藏了资源管理和故障处理的细节,让用户可以专注于应用开发。

85675579091844260

 

与其他层面的软件一样,很多编排层软件也因开源而得到更加广泛的应用。Mesos经受了Twitter的检验,Google则在Borg的基础上开源了Kubernetes(K8s),两者在容器市场(如Docker)上你追我赶,各有不少拥趸。

当然,大型云计算公司对相关技术推广的贡献远不止于此。身为OpenStack两大缔造者之一的Rackspace,也是拥有十万+量级服务器的公司。在最新的OpenStack(开发中的Newton版本)代码贡献榜上,Rackspace排名第五,紧随其后的是同为OpenStack基金会白金成员的英特尔公司。

若以模块来统计,代码流向最多的无疑是负责计算的Nova。Nova支持所有主流的hypervisor,不过,KVM(Kernel Virtual Machine,内核虚拟机)具有与生俱来的优势。KVM问世相对较晚,但自从2.6.20版并入Linux内核之后,就走上了发展的快车道,而其另一大“缺点”——需要硬件虚拟化扩展支持,在以英特尔至强(Xeon)为代表的现代处理器大行其道的近几年,也根本不算事儿。

image001

 

从2.6.21版内核以来,英特尔公司在Linux代码贡献量上的排名逐渐攀升,上图是2012年的统计。2013年英特尔公司仍排名第二,但2015年就完成了对Red Hat的超越,居于榜首

英特尔公司也投资了九州云(99cloud)、海云捷迅(awcloud)等OpenStack初创公司,推动OpenStack的生态发展和落地。

软件定义,基于硬件优化

云计算得以成功的一大基础,是标准化、开放的硬件平台。服务器自不必说,云计算服务的提供商们广泛使用基于x86的硬件替代原本需要专有存储系统或封闭的网络设备才能实现的存储和网络功能,这种软件定义基础设施(Software Defined Infrastructure,SDI)——包括软件定义网络(Software Defined Network,SDN)和软件定义存储(Software Defined Storage,SDS)——的风潮,也扩散到了企业级市场。

据IDC估计,在2016年第一季度,有17.3%的服务器级处理器(主要是英特尔至强)被用在存储、网络及嵌入式系统,而在2013年第一季度,这一比例只有8.8%,三年间几乎翻了一番。

但是,软件定义绝不意味着消灭硬件的差异化。在很多时候,通用性与效率之间是存在矛盾的,在大规模应用场景下尤为明显——百分之几的效率差异,乘以十万的量级,得到的数字,没有人会视而不见。于是,云计算巨头们纷纷加入定制的行列,针对自身的应用需求,量身打造优化的硬件平台。

2013年6月,英特尔公司宣称在当年定制了15款CPU,提到的用户包括Facebook和eBay。一年以后,英特尔公司数据中心事业部总经理Diane Bryant(柏安娜)表示,预计2014年定制解决方案的数量将超过前一年的两倍。当年晚些时候,AWS宣布推出基于定制版至强E5处理器的C4类型EC2实例,微软Azure云服务随即跟进。

同时,英特尔公司开始在标准至强E5处理器的封装里集成FPGA。这至少有两个用途:一是方便客户在批量定制之前先行测试不同的配置;二是与x86 CPU构成异构计算。FPGA在人工智能(AI)关键的机器学习算法等方面具有很高的效率,具有显著的加速效果。英特尔公司在2013年就与知名FPGA供应商Altera公司展开合作,进而于2015年6月初宣布斥资约167亿美元收购Altera。

2016年3月初召开的OCP峰会上,英特尔公司数据中心部门副总裁、云平台部门总经理Jason Waxman宣布,英特尔公司将提供配合下一代至强处理器和(Altera)Arria10 GX FPGA多芯片封装的软件开发库,可以下载到FPGA用于编程实现功能。英特尔公司计划贡献这些开发库到开源社区,推动FPGA开发生态系统在用户应用和新算法方面的创新,缩短这些加速解决方案推向市场的时间。未来的OCP设计也会考虑集成英特尔至强+FPGA的产品。

OCP即开放计算项目(Open Compute Project),是Facebook于2011年4月联合英特尔、Arista Networks、Rackspace、高盛发起的开源硬件组织,两大云计算巨头微软与Google先后于2014年和2016年加入,并贡献了各自的整机柜级别硬件架构设计。

国内的百度、阿里、腾讯(BAT)也在英特尔公司的支持下,于2011年11月成立了目标类似的天蝎项目(Project Scorpio),并吸引了三大运营商(中国电信、中国移动、中国联通)陆续加入,发展为开放数据中心委员会(ODCC)。目前,ODCC服务器工作组已在着手设计Purley(下一代至强平台的代号)服务器公板,以进一步推动服务器节点的标准化和通用化,改善整个生态系统的供应链效率。

正在发展中的5G对云计算未来发展的重要性不言而喻,而作为其推动者的电信运营商也希望云计算的开放、敏捷及高效能帮助他们加快这一进程。2016年1月底,OCP的电信项目正式成立;不到一个月以后,在巴塞罗那召开的全球移动大会(MWC)上,Facebook宣布成立电信基础设施项目(Telecom Infra Project,TIP),发起成员包括英特尔、诺基亚、德国电信、英国电信旗下的EE、菲律宾环球电信、韩国SK电讯在内共30家,共同开发下一代电信网络硬件。

image002

 

OCP的电信项目聚焦于电信行业的数据中心技术,TIP则不仅限于数据中心

整机柜服务器是OCP(Open Rack、服务器及存储项目)和天蝎项目在过去和未来一段时间内的工作重点,在工厂将机架式服务器预安装在机柜上作为整体交付只是其最初形态,在整个机柜的范围(Rack Scale)重新设计服务器才是其发展方向。现在,供电、散热、管理等非IT资源的池化已基本完成,业界正在致力于CPU、内存、存储等资源的池化。与通常在hypervisor层面实现的(服务器)虚拟化技术相比,这种硬件资源池化技术在更贴近硬件的固件(firmware)层面实现CPU、内存等资源的分配与组合,硬件资源的损耗可以低至忽略不计,更适合超大规模的云计算环境。

421580968430956142

 

天蝎整机柜项目的资源池化路线图,存储、I/O和内存的池化,由易到难

目前看来,在租用基础设施的场景中(如IaaS类的公有云),成熟的虚拟化技术可以提供足够的灵活性,而硬件效率上的损失可以接受。仍以前面提到的Borg为例,对运行在Google App Engine、Google Compute Engine(Google的云服务)中的外部软件,将使用托管的虚拟机,作为一个Borg任务在某个KVM进程中运行。但是,对Google自己的应用而言,虚拟化带来的效能损失是难以接受的。如果底层硬件具备资源分配与组合的智能,无疑将开辟一片新的天地。

谁来推动这一进程?如果说,英特尔公司是机架式服务器架构演进的事实意义上的主导者,那么,在整机柜时代继续扮演类似的角色,也是符合逻辑的。2013年,英特尔公司发布了RSA(Rack Scale Architecture,机柜级架构),旨在解决整机柜服务器的资源池化问题:整机柜提供物理实现,RSA提供逻辑实现。2016年,应用RSA理念的第一代产品开始批量涌现,戴尔DSS 9000和浪潮InCloudRack等整机柜加入了硬盘的池化,但主要是软件管理和接口的标准化。预计第二代的RSA机柜,会加入NVMe闪存的池化。

image003

 

戴尔与腾讯联合开发的RSA机柜级解决方案

云计算的基础设施,就这样一步步的走向智能化。

返回顶部