演讲嘉宾

中国Spark技术峰会

王 栋

分布式系统组件管理与性能监控资深专家

王栋,分布式计算专家,2008年毕业于西安交通大学软件学院,主要从事分布式和大数据平台的架构与开发工作,对大数据平台上的组件管理和性能监控有丰富的开发经验。

演讲主题

利用ELK来进行Hadoop集群负载性能监控

在Hadoop大数据集群的管理中,Ambari的引入大大简化了集群管理的复杂度,减轻了运维人员的工作量。但是在Hadoop集群管理中,Ambari所能提供的集群监控和管理功能主要针对集群中各个组件和服务的运行健康状况。而对于集群中负载运行的性能和健康情况,还缺乏高效,简洁,直观的监控方法。本案例主要针对Hadoop集群中的负载运行性能和健康状况监控,将ELK(ElasticSearch,Logstash和Kibana的缩写)集成到Hadoop集群管理工具Ambari中,利用ELK强大的数据收集,整理,存储,查询和数据可视化能力,开发出丰富的报表工具来对Hadoop集群运行中的MapReduce,Spark,Storm,HBase等负载进行监控,快速的将集群负载运行过程中的各种潜在问题以可视化的方式呈现给集群系统的管理人员或者应用的管理人员。帮助运维人员快速发现问题,方便定位问题,以便于采取及时有效的干预措施来保证整个Hadoop集群处于健康状态。集成过程中利用了Ambari的服务,组建管理功能来管控ELK的生命周期,还将ELK中的源数据与Ambari的Alert功能进行集成提供告警服务。