日志易饶琛琳:智能运维的三个发展阶段
近年来运维技术飞速发展,运维团队大多建设好了各种系统,虚拟化、容器化、持续集成等等。但是如何有效的利用这些系统最终实现站点的高可用、高性能、高可扩展?随着智能化技术的发展,为了解决上述运维领域的问题,智能运维的呼声越来越高。
在日志易产品总监饶琛琳看来,目前国内智能运维发展还处于一个探索阶段,要想尽快在智能运维领域有所突破,首先要重点做好监控系统和告警系统,并利用机器学习算法进行快速监控和排障。
饶琛琳对智能运维的发展,做了三个阶段的预测:
智能地判断告警
传统的 IT 运维需要管理大量的告警,极大地分散了企业的注意力,消耗运维人员大量的时间和创新力。想办法高效地解决一天收到几千封告警邮件的情况,把运维人员从纷繁复杂的告警和噪音中解脱出来, 是一个能够迅速产生价值的思路。
智能地判断告警,而不是依据经验设定阈值,设定告警阈值是一项耗时耗力的工作,需要运维人员在充分了解业务的前提下才能进行,还得考虑业务是不是平稳发展状态,否则一两周改动一次,运维工程师将会疲于奔命。
日志易刚刚发布的1.10.1版本,对告警的管理和统计做了很大改进,不同颜色代表不同等级告警,用户可以非常直观的看到不同优先级别的告警数量占比与处理进程。另外,为了应对告警风暴,日志易设有一套告警规则,根据告警属性分类收起,保证用户能够直观浏览到最新告警的概况。
日志易饶琛琳:运维的未来是智能运维
日志易的告警机制,不仅提供了丰富的告警类型,如基线告警、SPL(搜索处理语言Search Processing Language)告警,还针对企业版用户提供了告警转发接口,将日志易系统的告警通过HTTP接口POST给接收机器,从而非常方便的与客户现有的告警监控系统相集成。
智能地定位故障
现在的故障定位完全依赖于人的经验和CMDB的完备性,但维护一个复杂的CMDB本身又是大难题。智能运维应该可以从相关性分析等方面,辅助运维人员快速定位故障。
日志易1.10.1版本发布了一个新功能——基于聚类算法的日志模式发现。借助机器学习技术让运维更智能。
新版本在搜索界面上,添加了一个切换标签“模式”。根据搜索结果的数据间相似度,该功能采用聚类算法对日志进行聚类合并,形成一个个包含相似数据的数据集,方便用户在查看种类繁多的搜索结果时,进行快捷的模式行为分析。
通过算法快速帮助使用者找到数据中隐藏的规律,这将大大节省工作量,提高分析效率。
日志易饶琛琳:运维的未来是智能运维
基于自然语言处理的自动反馈机制
利用一些 NLP(自然语言处理)技术,对自然语言写成的故障报告进行处理,自动反馈到智能运维系统里。这一点可能是更遥远的一个设想,但会是将来发展的一条道路。
到日志易官网了解更多智能运维文章。