传统运维之“重”
传统网站的运维模式、业务和规模上虽然各有差异,但在结构上都很相似,从最底层的IDC数据中心、网络、服务器和系统等基础运维,到上层数据库、安全和产品等应用运维,需要环环相扣,层层覆盖。尤其对于一些小、微型开发者,麻雀虽小也要五脏俱全,各种运维任务如同一辆满载的货车,面对恶劣的路况激烈的市场环境,为了保持行驶速度,要不断加油和维修网站运维持续投入人力、物力,避免运维成为阻碍自身发展的瓶颈;另一方面,由于运维所具有的专业性、规模化和周期性等特点,使得运维投入所换来的产出往往又不如人意。传统网站的运维模式,令许多网站不堪重负。
开发者运维之“轻”
在云计算时代,对于开发者的变化是什么?随着开发者的网站“上云”,开发者的网站运维将变得很轻、很薄。开发者可以集中优势资源专注于自身产品的研发和运营,把这部分核心竞争力做重、做厚。而产品的绝大部分网站运维工作隐身在背后那朵云里,由云计算平台运营商实现。对于开发者而言,云计算时代的网站运维可以举重若轻,如同将原来满载的货车,换成了快捷的跑车,轻松上路。例如,阿里云某开发者客户,自行维护网站时,需要10人以上的专属运维团队,经常面临网站高可用性、安全事件和设备成本投入等挑战,迁移到阿里云平台后,应用弹性计算ECS、负载均衡SLB、云盾和关系型数据库RDS等产品,其10多人的运维团队资源得到释放,可以补充到产品研发和运营中;网站高可用性得到提升;成本控制更具弹性。
云计算平台运营商运维之“重”
开发者实现网站运维之“轻”,并不是网站运维的挑战在云计算平台上真的减轻,而是这部分工作由云计算平台运营商来提供更专业的运维保障服务。拨开云雾,我们会发现云背后所承载的运维实现构成了云计算平台运营商的运维之“重”。“重”在这里有两层含义。一是“量”之“重”,以阿里云为例,所有的云产品都运行在“飞天”大规模云计算平台上,运维在保障这个平台服务质量中扮演着核心角色,从运维人员组织、过程改进、系统优化到运维支撑自动化系统等,各个环节都紧密围绕云计算平台特性进行协同。如何实现云计算运维的最佳实践,所涉及的技术难度、优化改进和操作强度在“量”上非常之“重”。二是“责任”之 “重”,云计算平台的服务质量,直接关系到其上承载的万千开发者产品的可用性、口碑和生命力。过去3年,阿里云的开发者,包括我们的客户、合作伙伴,真正教会阿里云如何去实现一个云计算平台,让我们认识到所运营的云计算平台,如何关乎开发者切身利益,关乎生态系统的健康发展,责任“重”大。
云计算改变运维
云计算平台服务端的复杂性和创新性,对于运维是个全新的挑战,运维思路和方式都为之发生改变。这种改变不是简单的在传统运维上的优化,而是基于云计算特征孕育而生的运维重构;这种改变也并非一蹴而就,是随着云计算平台的发展过程不断演进,许多都没有最佳实践可循,是在摸着石头过河中不断积累经验。相对传统的网站运维,云计算平台运维的主要特征如下。
集群是基本运维单位:组成云计算平台的节点都是普通PC服务器,平台的高可用性,不再借助传统的高投入服务器硬件冗余方案RAID、网络双上连、双电源等实现,而是通过云计算平台自身的鲁棒性保障。这需要运维改变视角,从原来把服务器作为基本运维单位,转变为以集群作为基本运维单位。传统运维场景下的“及时”维修服务器,在云计算场景下,可以“轻松”定期维修。而这种“轻松”,并不是对运维需求的降低,而是基于对集群整体容量和健康状态的管理能力,即通过有效提炼和过滤各种服务器的个体运行状态,映射出集群的整体状态的能力。集群的容量管理、部署、监控、故障管理等运维任务,都必须以集群为单位进行。
大规模:单集群的规模,是衡量云计算平台能力的重要指标之一。对于生产环境而言,云计算集群也必须达到一定规模,才能实现云计算平台的高可用、低成本等真正价值。因此,在进行运维的规划和实现时,都要以满足大规模为必要条件。
可运维性是云平台基本属性:集群可运维性包括实现高效和大规模的部署、升级、迁移、扩容和故障管理等运维任务,是集群必须具备的能力。云平台从第一天设计开始,就必须包括该属性。开发团队和运维团队需要紧密协同,结合平台和运维特性加以实现。较之传统运维,云计算平台对于大规模集群的可运维性、可管理性等的要求高很多,是集群落地的刚性需求。
规范化:要在大规模下,实现集群部署、迁移、扩容等管理,依赖于从IDC设计、网络设计、服务器选型到云平台实现的全局统筹的规范化,这如同统一 “度量衡”,实现“车同轨,书同文,行同伦”。规范化构成了云计算One Infrastructure重要属性。基于One Infrastructure的实现,把一批服务器从A集群迁移到B集群,只是在集群管理系统上对配置的远程变更,而不需要物理服务器实际搬迁。
来源:天极网