腾博会官网

推动业务能力提升 ,腾博会官网为多云资源管理添利器

通过Bonree ONE ,腾博会官网助力中国海油建立多云平台的资源管理指标体系 ,对主机 、虚拟主机 、网络 、存储 、容器化服务进行动态资源监控 ,实现云平台基础设施资源的可量化分配与回收 。同时助力中国海油建立以业务为中心的应用系统SLO监测机制 ,为云上关键应用系统的资源消耗 、应用可用性 、服务质量提供可量化的监控数据 ,有效提升业务稳定性与运维效率

免费试用



背景分析


一 、云平台资源庞杂 ,难以从全局视角进行管理

中国海油云平台经过多年建设 ,形成了覆盖国内五中心 、海外三中心的多云架构 ,整体资源数量庞大且复杂 ,各云平台资源使用缺乏集中化展示与分析 ,全局管理难度高;


二 、业务资源消耗不清晰 ,缺乏集中化统计

中国海油云平台业务整体资源消耗缺乏集中化统计 ,无法对资源进行合理调整分配 ,难以进行业务ROI分析;


三 、闲置资源用量缺乏量化依据 ,间接造成资源浪费

中国海油各业务系统缺乏历史业务资源消耗的数据 ,进行容量申请时缺少资源基准和闲置资源用量的量化依据;


四 、系统监控指标体系不统一 ,缺乏全面的监控

中国海油各业务系统监控指标体系不统一 ,缺乏系统的全面的监控 ,难以建立标准的故障分类及资源评估体系;


五 、故障定位时间长 ,跨部门故障追踪困难

中国海油系统缺乏故障的回溯追踪能力 ,偶发故障数据无法留存 ,导致复杂故障的诊断定位时间长 ,影响MTTD(平均故障检测时间) ,在跨部门的诊断中 ,排查工具所生成的指标 、数据难以关联 ,故障追踪困难 。





应用场景


hhh

一 、建立统一资源监控体系标准 ,实现资源标准化分层


腾博会官网通过为中国海油建立统一的云平台资源监控体系标准 ,实现云平台的各类资源的标准化分层 ,并通过对各平台指标数据的采集 ,形成统一的监控视图及分析界面 。

IaaS层主要包含 :主机 、虚拟主机 、网络设备 、网络接口 、存储 、文件系统 、系统进程等7类主要实体;

PaaS层主要包含 :容器Cluster 、Nodes 、Workloads 、Jobs 、Services 、Pods 、Routes 、Images以及云服务等9类主要实体;

SaaS层主要包含 :云服务 、实例 、应用 、MQ 、DB 、API等6类主要实体 。





二 、对系统资源用量进行数据采集 ,定期评估资源使用效率


在腾博会官网的助力下 ,中国海油实现对各业务系统的资源用量数据采集 ,通过资源指标体系中的实体关系数据关联各业务系统的资源消耗 ,实现对各业务系统的资源动态监测及分析报告 ,定期评估各业务系统的资源使用效率 。同时 ,为主要资源类型建立业务属性标签(Tag) ,以实现各业务系统云资源用量的动态监测与分摊 。

IaaS层的主机 、虚拟机 、存储 、网络链路;

PaaS层的容器Pods 、工作负载 、服务 ,云服务的请求量;

SaaS层的进程资源用量 ,远程API调用量 ,数据库调用量 。





三 、建立容量规划报告 ,提高资源利用率


腾博会官网通过历史指标体系数据量化中国海油云平台的各类容量 ,以及业务系统的单位业务资源用量 ,建立云平台的容量规划报告 、业务系统的容量扩展评估规范 ,提高云平台的资源使用效率 。

按照各云平台的Core数量 、内存容量 、存储容量 、网络带宽 、云服务请求量 ,等类型的周期容量进行下一周期的线性与非线性容量预测及建议;

规范业务系统容量申请评估标准 ,各业务系统进行资源申请时 ,即时输出月 、季度 、半年度资源使用趋势 ,并基于单位业务资源消耗进行容量评估 。





四 、建立SLO监测体系 ,实现各业务系统全面的可观测性


腾博会官网以VALET模型作为各业务系统SLO监控的统一模型 ,并通过应用探针采集各业务系统的黄金指标作为SLI(服务水平指标) ,从而为中国海油建立SLO监测体系 。

以部门考核目标为标准 ,按照VALET模型设定关键用户旅程(Critical User Journey)SLO;

采用错误预算的阈值设置SLO报警 ,并推送至平台运维人员或业务用户 。





五 、增加应用组件指标采集 ,提升故障诊断能力


将腾博会官网ONE平台的应用探针作为ADDP的Agent采集端 ,在采集调用链(Tracing)的基础上 ,增加采集了应用组件指标(Metric) ,提升故障诊断能力 。

以业务部门为单位 ,提供自有应用系统的调用链追踪与分析功能权限 ,从而提升故障诊断能力;

实现对应用组件调用链(Trace) 、指标(Metric) 、堆栈信息(Log)的实时采集与留存;

针对异常请求 ,可实时检索异常请求在应用系统中所流转的各组件的指标数据 ,并通过堆栈信息对错误进行代码及分析 。





六 、打破部门数据孤岛 ,提升故障协同诊断效率


通过腾博会官网ITIM探针APM探针数据的集中采集 ,实现应用和基础资源的关联分析 ,并通过指标体系实现应用 、系统等各层级的SLI分层关联 ,统一故障诊断的界面入口与数据集成 ,从而提升故障协同诊断效率 。

统一故障协同分析界面 ,实现应用 、服务 、接口 、方法 、实例 、进程 、容器 、主机 、数据库的依赖关联;

通过分布式追踪能力 ,实现基于应用 、服务 、数据库的实体影响依赖关联;

通过标准化检测指标体系 ,以及实体类型与关系 ,形成统一的告警事件语言 ,并通过多种方式进行告警事件的收敛 ,降低告警冗余度 。





►►►为什么选择腾博会官网




一 、市场规模领先 :中国APM市场份额排名No.1 ,稳定为客户提供服务超过14年;

二 、具备全球竞争力的产品 :一体化智能可观测性平台Bonree ONE ,真正实现业务应用全链路可观测 。





►►►应用效果




一 、实现资源标准化分层 :将云平台的各类资源分为IaaS层 、PaaS层 、SaaS层 ,方便从全局视角管理;

二 、建立SLO监测体系 :以VALET模型作为各业务系统SLO监控的统一模型 ,实现全面可观测;

三 、缩短MTTD(平均故障检测时间) :实现故障回溯追踪 ,缩短平均故障检测时间;

四 、提升跨部门协调诊断能力 :实现应用和基础资源的关联分析 ,打破部门间的数据孤岛 。




行业案例集

相关产品

相关案例

客户案例

立即体验一体化智能可观测性平台

免费试用 邮件联系

欢迎拨打电话咨询

400-680-8085
微信 微信扫码 在线咨询