AIOps 行业研究
励石创投是一家专注于初创期风险投资和扩展期成长投资的风险投资机构,重点投资于运作主体在中国及美国市场的初创型及成长型企业。励石创投以“成为一家有价值、受尊敬、并具有国际影响力的投资机构”为愿景,结合其自身LP及产业链资源,通过对资本和管理的帮助,促进企业创新与成长。励石创投重点关注人工智能、企业服务、消费升级等领域的投资。
摘要:随着企业业务越来越多元化,企业的IT系统变得越来越复杂。IT系统往往是业务系统、公有云、私有云等耦合在一起,再加上APM、NPM等监控工具采集的数据,如此庞大的一个系统,由人力运维显然变得越来越现实,而以深度学习为代表的人工智能技术在设定的算法规则下处理十分擅长处理这种海量的重复的数据,因此未来传统的运维必然会向着智能运维(AIOps)演进。
一 传统运维
1.概念
OneAPM创始人何晓阳将传统运维分为三个部分,这里我们可以借鉴一下:
- 他认为,ITOM可以分成一个中心,两个基本点:一个中心指的是以IT运维为中心,
一个是“监”,monitoring,一个是“控”,management。另外还有一个是自动化工具,automation。
- 监:AP/APM/NPM
- 控:ITAF/ITSM等工具
2.ITOM市场格局:
- 老牌Big Four:ITOM市场属于基础软件范围,门槛高,面对的都是大客户,所以从历史上来说,基本都是大公司的天下,行业内将该领域的四家大公司成为“Big
Four”,分别指的是IBM/HP/CA/BMC。这四家公司再加上Microsoft占据了ITOM行业的半壁江山个,他们在ITOM的各个细分领域都有产品;
- 新兴势力:2000年以后,随着互联网及移动互联网的发展,应用程序开发和部署开始向着分布式发展,现代语言Python、Scala等开始成为开发者追捧的对象,Big
Four的产品笨重难用,因此在某些细分领域逐渐被新兴公司超越。尤其是SaaS的兴起,使得新兴创业公司如New Relic、Service Now等几乎获得了全部的新型用户群。但即便如此,Big
Four的产品在中国,到目前为止依然占据主流市场地位。
3.ITOM之监控领域
-
在美国,监控领域市场是由四个子领域组成的,分别是应用性能监控APM、基础服务可用性和性能监控AP、网络性能监控NPM和大型机性能监控MT。在中国从创业的角度说,我们可以忽略掉大型机的性能监控,因为这个领域的门槛太高,目前全球大型机市场硬件+软件每年40亿美元的市场,IBM和CA一家一半,其他人基本为0,所以说中国的监控市场,基本就是APM、NPM和AP。
3.1应用性能监控——APM
- 定义:应用性能监控,指的是对运行用户业务的应用程序的性能进行监控。
- 行业格局:在国外这个领域的主要Player有两种,一种是Big
Four,另一种是单独的APM公司。后者的代表是Dynatrace(前Compuware)、Appdynamics和New
Relic,其中Dynatrace和Appdynamics主要面向大型用户的IT运维,而New
Relic偏向于开发者。国内APM市场是近年来才开始热起来的,而国内IT环境太差,中国的IT有部署水平低、环境复杂、并发量巨大等特点,此前拓荒的外企,Quest、CA
wily等都成了先烈。2014年前后,三家中国企业进入了APM这个领域,这三家都是创业公司,分别是OneAPM、听云和监控宝(云智慧),市场在这几家公司的推动之下逐渐热了起来,VC/PE也纷纷进场,但市场起来的真正原因还是因为移动互联网的发展。
- 那么,APM究竟能做什么?
- 终端用户体验。APM首先关注的是终端用户对应用性能的真实体验,该项监测的是真是用户切实体验到的性能。
- 应用架构映射。该项监测的是企业的应用架构图,通过APM可以很轻松的做出应用的完整架构以及链路情况。
- 应用事务分析。该项监测的是用户与应用交互的操作事务。
- 深度应用诊断并形成分析报告。
3.2 网络性能监控——NPM
-
定义:NPM不仅能够监控网络流量和网络基础设施的情况,还能优化设备性能(Gartner定义)
- 发展情况:NPM的发展经历了以下三个阶段:
- 第一阶段:单机版抓包分析工具。当时企业普遍是10M网络,Sniffer Pro(Network General 公司产品,后被Netsout收购)、Network
Monitor等抓包软件便已够用,这时候主要比拼的是解码能力(支持的协议多少);
- 第二阶段:性能管理时代。随着互联网的发展,网宿普遍进入百兆,很快又进入千兆,抓包软件性能已经不能满足企业的需求,这时候Net
General率先推出了24*7不间断抓包的硬件版本探针。这个软件可以将数据包不间断的抓取下来,对这些数据进行分析没生成各维度的KPI,从而进入性能管理时代
- 第二阶段:性能管理时代。随着互联网的发展,网宿普遍进入百兆,很快又进入千兆,抓包软件性能已经不能满足企业的需求,这时候Net
General率先推出了24*7不间断抓包的硬件版本探针。这个软件可以将数据包不间断的抓取下来,对这些数据进行分析没生成各维度的KPI,从而进入性能管理时代
- 第三阶段:性能和功能持续提升的阶段。互联网应用爆发,企业网络交互数据成指数增长。
- NPM的功能:
- 网络及应用性能可视化:通过采集分析客户端与服务器端的交互数据,细化分析访问过程中每个步骤的时延,区分网络时延和应用时延(全景图);
-
访问关系梳理:基于服务器之间真实的访问流量,自动识别前端哪个程序访问我,我访问哪些后端服务,并可生成服务器访问调用拓扑图,帮助用户快速了解服务器之间的访问与依赖关系。在业务梳理、数据中心搬迁、网络及应用变更等场景下,可为用户提供真实准确的数据支持;
- 故障定位:可通过对网络链路的监控,发现并定位故障根源
APM、NPM领域项目竞争情况
领域 |
项目 |
投资机构 |
团队 |
备注 |
APM
|
听云 |
汉能、真格、梅花 |
陈麒麟(北师,信诺瑞德)、郭晓航(30年经验)、陈靖华(东南大学,20年经验) |
当前APM领域营收最高的企业,2018年营收增长 |
博睿 |
—— |
李凯 |
APM领域净利润最高的企业,2018年上市被否,目前仍在寻求上市机会 |
OneAPM |
成为、经纬、启明 |
何晓阳(北理、东方通)、陈旭(东方通)、刘延飞(阿里) |
从新三板摘牌以后,市值已经低于1亿,非产品、销售导向的公司 |
云智慧 |
红杉、戈壁、宽带、华山 |
刘洪涛(原网宿CEO)、殷晋(清华)、郭欣(腾讯) |
目前在代理Akamai的cdn产品,营收很高。
在AIOps领域落地很少,APM产品主要为监控宝(适合中小企业,客单价很低 |
NPM
|
科来 |
达晨、中金、同高 |
林康(NPM领域从业多年) |
其产品延续了Net Scout的产品体系,产品按功能划分,已经不适合国内的IT环境
|
天旦 |
君联、华兴 |
—— |
同上,产品延续netscout产品体系,且其产品偏银行领域,其他领域落地较少 |
智维盈讯 |
励石 |
F5、Netscoout、Sniffer等企业经历 |
—— |
|
|
|
企业经历 |
—— |
综上并结合细分领域项目的发展来看,APM在国内资本化运作的较早,赛道里面跑出了听云、博睿、云智慧三家比较有影响力的企业;NPM领域业务发展的并不晚,但资本化运作的时间比较短,几家NPM公司的融资轮次也比较靠前,并未形成足够大的市场优势,未来赛道的竞争会比较激烈。
二 AIOps——智能运维
1.当前企业运维现状
上图截选了企业IT系统的部分环节,从图中我们可以看出随着企业业务的多元化,其IT系统也变得越来越复杂。如此庞大、复杂多变的软硬件系统,发生故障是不可避免的,但运维需要保障上层业务可靠高速高效安全的运转。如何及时地发现故障、止损、修复和规避,单纯靠人力去运维显然是不可行的。而以深度学习为代表的人工智能技术在应对这种繁杂的场景时显得游刃有余。
2.传统运维的必然走向——智能运维(AIOps)
- 当前,面对复杂的运维场景,企业已经有非常多的监控工具,包括APM、NPM、日志等,采集和存储了海量的、价值极高的各种监控数据,当遇到突发事件的时候,可以基于这些数据做出准确快速的决策。
- 而处理海量、高速、多样的数据并产生高价值,正式机器学习的专长,未来传统运维必然会走向基于机器学习的智能运维(AIOps)
3.AIOps定义
-
AIOps,即Artificial Intelligence for IT
Operations,智能运维,将大数据和人工智能或者机器学习功能结合在一起的软件系统,以增强和部分替换广泛的IT操作过程和任务,包括可用性和性能监事、事件相关性和分析、IT服务管理和自动化。
-
AIOps需要具备:①数据能力(指的是APM、NPM、日志等数据的处理能力);②学习和并联分析能力;③多场景的部署和交付能力(关键)
4.AIOps的技术流派
-
当前,业界存在着两个技术流派,分别是以智能算法切入AIOps的企业和从传统运维角度切入AIOps的企业。
-
从智能算法切入的项目有:必示科技(明势、顺为、高榕)、云兴维智(联想、明势)、擎创科技(元璟、晨晖)、灵犀云(君联),该类项目重算法,大多数学院派出身,很多都是导师带着博士生完成的demo。其数据来源端大多采用ELK,开源的日志,性能消耗较大。项目在落地时,交付周期长。
-
从传统运维切入AIOps领域的项目有:Ncompass、云智慧、天旦、科来、日志易等。该类项目从传统ITOM领域转型做AIOps,监控是看见本领,而算法是短板。
- 综上,两个技术流派各有缺陷,但两者存在很强的互补性,目前两个流派也在进行积极的合作。
三 总结
-
1.由于企业IT系统的复杂化,AIOps必然是未来运维的演进方向;
-
2.AIOps的研究任重道远,离真正达到无人运维还非常遥远,但短时间内通过AIOps减少人工成本,缩短故障排除时间是很有前景的
-
3.无论从算法切入AIOps还是从传统运维切入,两个技术流派各有缺点,但其长处却能互补;
- 4.现阶段来看,全球并没有任何一例完全由AIOps企业打造的标杆案例,企业的客户更多是采购了产品的某些模块,而最终的AIOps平台则是由客户自己拼合;
-
5.建议关注:①算法流派,建议关注有较强人工智能背景的团队;②传统运维流派,建议关注APM、NPM领域以产品为导向,在客户公司形成较好口碑的企业。
关注励石创投!