容量管理的那些事

前几天在一个沙龙上,有朋友提出了对系统容量管理方面的一些疑问,平安科技的汪洋总做了十分精彩的阐述。这件事也让我回忆起了这些年在容量管理和容量模型上的一些往事。实际上做DBA工作的时候,经常会有客户问我,当前的硬件配置,可以支撑他们的业务多长时间,于是我就在网上寻找一些这方面的资料。后来一个基于二次曲线拟合模型的算法给我指出了一个方向,于是我就利用Oracle的一些负载方面的核心指标,通过二次曲线拟合的方式做一些Oracle数据库容量方面的预测,久而久之,在一个小圈子里有了一些名气。

2007年,HP的一个朋友突然找到我,问我有一个客户的容量管理方面的项目,愿意不愿意参加。我加入后才发现,这是一个由时任HP亚太区企业计算服务首席架构师Joshua Brusse爵士带队的ITIL咨询队伍,为平安保险做一个关于业务连续性、CMDB和容量管理的咨询项目。我在这个项目立担任的校色是针对数据库、中间件的容量管理设计一个可落地的模型。那个项目最后虽然并没有完成真正的模型落地,不过从这次和ITIL大师的合作中受益匪浅。特别是85年ITIL MASTER的Joshua,这个可敬的老头每有闲暇,就会毫无保留的给我们讲述ITIL中容量管理的一些概念和最佳实践,让我在这个两个月的项目中受益良多。那个项目结束后,我了解到容量管理的本质实际上是一种组织对有限的资金和资源的合理利用所必须开展的一种活动。容量管理的那些事

用一句话来概括容量管理的核心就是“建立容量模型,确保IT基础设施的容量以成本最有效和及时的方式满足不断变化的业务的需求”。这么的核心词是“成本最有效”,“及时的方式”,去满足“变化”的需求。从容量模型建设上看,我们必须从三个层次来考虑容量。容量管理的那些事

作为容量管理的依据是业务容量,企业的业务发展蓝图,业务增长计划等都是作为企业IT容量管理的基础,如果IT容量管理不考虑企业的业务发展规划,那么这个容量管理顶多也就是拍脑袋的产物。不过企业业务容量不能马上转化为服务器的数量以及存储的容量,首先要转化为服务容量。每个企业的IT系统的技术架构不同,开发商水平参差不齐,采用的应用架构也不同,因此业务容量首先要进行一次转换,转换为服务容量。通过服务容量,再进一步分解出可量化的因子,从而推导出资源容量。在实际工作中,我们可以采取下图的方法来完成容量模型的构建工作。容量管理的那些事

2008年,完成报告后,容量管理的事情就暂时告一段落了。随后几年虽然我还依然对这件事最终没有启动实体模型构建有些不甘,不过容量管理这项工作,是需要企业有大投入才能进行的,光靠我平时瞎摸是不会有啥成果的。2013年,国家电网信通部的汪处突然找到正在给国网做系统优化的我,问我有么有办法搞一套模型来规范国网信息系统建设时的资源申请,从而节约有限的IT设备采购资金。因为他刚刚做了一项摸底调查,发现国网目前在运系统中的数据库、中间件服务器的平均负载低于5%,甚至存在大量的系统,CPU负载常年低于1%。另外一方面,每次项目组申请资源的时候,根据埃森哲提供的计算公式,往往都能算出一个十分巨大的硬件资源配置需求。那次交流后,我十分兴奋,6年前那个没有完成的工作,可以继续下去了。于是我很快就写了一个方案,提出了一套工作方案。容量管理的那些事容量管理的那些事容量管理的那些事

这个项目历时半年多,经过在几个省公司的二十多套系统上的技术采样和分析后,我们完成了一个拟合模型。通过专业评估人员在待评估系统上利用类似系统上构建的二次函数模型进行计算后,可以获得待评估系统的容量数据估算。工作完成后,汪处对我们的工作比较认可,不过对于结果有点失望。他希望我们能够得到一个他们手下那些不是那么懂数据库中间件的人也可以便捷使用的模型,从而在计划审批中控制系统容量规模,节约投资,而我们构建的模型在使用时依然需要十分专业的人士参与。于是我们再次对模型进行简化和优化。最终形成了三个阶段评估模型。容量管理的那些事

这个简化后的模型,可研阶段的模型相对简单,准确性并不太高,不过因为简单易操作,客户最终选用了这个模型。让我意想不到的是,这个模型应用一年后,计划部门对这个模型十分喜欢,因为它十分有效,虽然这个模型并不能十分精准的预测IT资源容量,但是可以十分有效的控制IT采购投资,用这个模型测算后压缩投资的项目,没有一个项目因为资源容量配置不足而导致系统上线后出现性能问题,而计划部门每年可以利用这个模型十分有效的压缩IT采购规模。

概设阶段的模型当时被束之高阁,在数年后一个运营商朋友问我能不能针对概要设计评估系统的容量。因为他们有一个项目,目前正处于开发阶段,开发商提出的硬件配置要求太高,他们觉得不合理。于是我们开展了一个小项目,对这个系统做了一个评估,最后和开发商确认后,将硬件配置消减了一半。系统上线后,并没有出现资源不足的现象。通过这个评估,客户节约了100多万的硬件投资,我们收获了一个9万块钱的咨询项目。

随后这个故事被一个朋友传播到了中金网那里,他们也正在被每年缩减的IT资金和不断增加的资源开销所困扰。更重要的是,审计部门对他们每年的IT资源投资经常提出质疑,构建一个IT容量模型既可以规范IT资源的采购申请,又可以给审计部门提供合理的采购依据。于是我和他们做了一次交流,那次交流十分成功,大家也开始了项目立项的各种准备。正当我们准备开展这项工作的时候。中金网准备全面实施阿里云,阿里的专家告诉他们,上了云以后,容量管理就不需要那么精细化了,云平台上有IT资源使用的实时监控,资源不够,扩容云平台就行了。于是这个项目也就半途而废了。

2019年,一个已经上了云的客户突然找到我,为了贯彻国家“瘦身健体”的战略要求,他们需要对系统容量进行精益化的管理,找出低负载系统进行整合,僵尸系统予以下线,高负载系统设计扩容策略。于是我们在上线后系统容量模型的基础上,设计了“系统资源综合使用率模型”和“系统负载模型”,并制定了一系列策略。容量管理的那些事

IT容量管理是十分复杂的体系,每个企业可能会关注其中的一些方面。我们这些年陆陆续续做了一些工作和尝试,实际上还不是很深入。随着云计算的发展,容量管理的本质也在发生变化,不过对于大型企业来说,容量管理工作应该还是会不断继续下去,因为“以最有效的成本获得最及时的算力”永远是企业追求的目标。

发表评论

登录后才能评论
联系客服
联系客服
分享本页
返回顶部