Skip to content

AIOps

AIOps是什么?

AIOps是人工智能在IT操作中的应用。它是ITOps的未来,将算法和人工智能结合在一起,为企业所依赖的It系统的状态和性能提供全面的可见性。

简单地说,AIOps是机器学习(ML)和数据科学在IT运营问题上的应用。AIOps平台结合了大数据和ML功能,以增强和部分替代所有主要的IT运营功能,包括可用性和性能监视、事件关联和分析、以及IT服务管理和自动化。

AIOps的好处是什么?

  • 采用AIOps的主要好处是,它使it操作达到最终用户期望和需要的速度和敏捷程度。依赖于脆弱的基于模型的过程,将专业化增加到不连接的孤岛中,最重要的是,太多的重复的手工活动,使得it操作人员很难跟上不断增长的速度和对时间的需求。
  • AIOps消除了噪音和干扰,使忙碌的IT专家能够专注于重要的事情,而不会被无关的警报分散注意力。
  • 通过跨多个数据源关联信息,AIOps消除了孤岛,并提供了跨整个IT环境(计算、网络和存储、物理、虚拟和云)的整体视图。
  • 不同专家和服务所有者之间的无摩擦协作加快了诊断和解决时间,最大限度地减少了对最终用户的干扰。
  • 高级机器学习在后台捕获有用的信息,并将其用于进一步改进对未来情况的处理。

AIOps是如何工作的?

AIOps处理现有的数据源,包括传统的IT监视、日志事件、应用程序和网络性能异常等等。来自这些源系统的所有数据都由一个数学模型处理,该模型能够自动识别重要事件,而不需要费力的手动预过滤。第二层的算法分析这些事件,以识别相关事件的集群,这些事件都是同一潜在问题的症状。

这种算法过滤大大降低了IT运营团队必须处理的噪音水平,还避免了在将冗余票据路由到不同团队时可能出现的工作重复。相反,虚拟团队可以动态组装,让不同的专家围绕一个跨越技术或组织边界的问题“蜂拥而至”。现有的票务和事件管理系统可以利用AIOps功能,直接集成到现有流程中。

AIOps还通过允许在有或没有人工干预的情况下触发工作流,从而提高了自动化程度。ChatOps功能使现有的自动化和编配功能成为正常的协作诊断和修复过程中不可或缺的一部分。随着机器学习系统变得越来越精确和可靠,在不需要人工干预的情况下,就可以触发常规的、易于理解的操作,从而在用户受到影响或甚至意识到任何问题之前,潜在地解决问题。

人工智能如何帮助运营人员?

变化的速度和数量要求日常任务的自动化,以便为不那么频繁、不可预测和高价值的活动保留有价值的人类智能。AIOps将战术活动的自动化与专家用户的战略监督相结合,而不是浪费IT运营人员的时间和专业知识来“保持灯光明亮”。

AIOps中的“人工智能”并不意味着人工操作员将被自动化系统取代。相反,人类和机器一起工作,算法增强了人类的能力,使他们能够专注于有意义的事情。

如何启动AIOps计划

  • 不要等待。熟悉AI和ML的词汇和功能,即使AIOps项目不是迫在眉睫。优先级和能力会发生变化,所以您可能比预期更快地需要它。
  • 明智地选择初始测试用例。从小事做起、获取知识并在此基础上迭代,可以使转换计划受益。采用相同的方法来合并AIOps以获得成功。
  • 发展并证明你的能力。通过展示简单的技巧来为你的同事和领导揭开AIOps的神秘面纱。确定技能和经验的差距,然后制定一个计划来填补这些差距。
  • 自由的实验。尽管AIOps平台通常是成本高且复杂的产品,但是大量的开源和低成本的ML软件可以帮助您评估AIOps和数据科学应用程序和用途。
  • 超越它。利用组织中可能已经存在的数据和分析资源。数据管理是AIOps的一个重要组成部分,而且团队通常已经很熟练了。业务分析和统计分析是任何现代组织的关键组成部分,许多技术跨越了问题领域。
  • 尽可能标准化,尽可能现代化。通过采用一致的自动化体系结构、基础设施即代码(IaC)和不可变的基础设施模式,准备您的基础设施以支持最终的AIOps实现。

如何将AIOps与您当前的工具集成

AIOps与现有的工具和流程进行集成,将以前被锁定在不相连的孤岛上的信息、见解和功能整合在一起。公司在不同的地方为不同的目的使用多种不同的监控工具。每一个对于特定的团队或功能来说都是有价值的,但是对于其他感兴趣的人来说就不那么容易获得了。AIOps通过在所有工具、团队和领域之间提供无缝的共享可视性,使得单个工具能够蓬勃发展,而不是通过将费力的工具合理化活动(这些活动试图将单个的需求硬塞进一个放之四海而皆准的解决方案中)。

以同样的方式,AIOps通过确保只创建真实的、可操作的事件并避免重复来改进和支持ITSM。没有必要抛弃每个组织基于itil的过程中所蕴含的经验。相反,AIOps解决并消除了用户对ITSM的许多不满,这是由于ITIL固有的顺序性。 最后,AIOps还引入了自动化,集成了编配和运行手册,并使操作人员可以直接以部分或完全自动化的方式使用它们。多年来,IT组织通常已经开发了大量的自动化解决方案库,但是需要确保它们只由正确的条件触发。AIOps确保了这一点,最小化风险,最大化自动化领域现有投资的价值。

关于人工智能和机器学习你需要知道什么

AIOps中的AI不是一般的智能。相反,一组专门的算法只专注于特定的任务。不同的算法可以从嘈杂的事件流,找出重要的警告,识别从不同来源之间的警报相关性,组装正确的专家团队诊断和解决情况,提出基于过去的经验的可能的根本原因和可能的解决方案,学习反馈以改善随着时间的推移不断。

聚类和关联是最复杂和最关键的步骤,需要多种不同的方法。历史模式匹配和实时识别的组合有助于IT运营团队识别重复出现的问题和网络新问题。可以通过引用外部数据源(如有)丰富原始的监视事件;这种充实有助于交付更好的相关性,以及服务影响信息。

AIOps关键特性

Gartner的AIOps平台市场指南列出了AIOps平台的11个关键需求。要真正有价值,AIOps平台应该在所有这些领域都具有强大的能力。单一用途的工具只对定义非常狭窄的用例有用。 - 存储:历史数据的摄入和索引 - 流:实时数据的捕获、规范化和分析 - 日志:从软件或硬件生成的日志文件中捕获和准备文本数据 - 度量:可以立即应用时间序列和更一般的数学操作的数据 - 线数据:包数据,包括协议和流信息,被捕获并提供给访问和分析 - 文档文本数据:人类可读文档的摄取、解析、语法和语义索引 - 自动模式发现和检测:在描述相关性的数据流中识别数学或结构模式的能力,然后可以用来识别未来的事件 - 异常检测:使用模式首先确定什么构成正常的系统行为,然后确定偏离正常的系统行为 - 因果分析:根本原因的确定,使用自动模式发现分离真正的因果关系,并引导操作员干预 - 前提:上面定义的功能可以在客户的前提下交付,而不需要访问任何远程组件 - 云:上面定义的功能可以在云中交付,不需要在本地安装任何组件

只有能够吸收所有这些数据类型、应用这些不同类型的分析并根据客户的需求进行部署的解决方案才能满足Gartner对AIOps平台的所有需求。

谁在使用AIOps?

大型复杂的企业依赖IT来开展业务 拥有广泛IT环境、跨越多种技术类型的公司已经面临复杂性和规模的问题。当这些被严重依赖于它的商业模式混合在一起时,AIOps会对公司的成功产生巨大的影响。尽管这些组织可能在许多不同的行业中,但是它们共享一个共同的规模,并且变化的速度非常快,因为对业务敏捷性的需求反过来又产生了对IT敏捷性越来越多的需求。

  • DevOps的团队
    正在采用DevOps模型的公司,或者已经采用DevOps模型的公司,可能很难在不同的角色之间保持一致。将开发和操作系统直接集成到一个整体AIOps模型中,可以消除在该接口上可能出现的许多摩擦。通过确保开发团队更好地理解环境的状态,并反过来使得DevOps团队能够了解开发人员的修改,使得部署到生产环境更加顺利, 所以这个整体视图确保整个项目的成功,而且增加的灵活性和响应性。

  • 云计算
    向云计算的迁移会带来自身的挑战,尤其是在规模伸缩方面,将其大规模迁移到云计算可能是不可取的。这些混合模型结合了各种形式的IT基础设施交付,可能很难操作。通过跨所有基础设施类型交付整体视图,并帮助操作人员理解变化太快而无法记录的关系,AIOps消除了混合云平台操作的大部分风险。

参考:

https://www.gartner.com/smarterwithgartner/how-to-get-started-with-aiops/
https://www.moogsoft.com/resources/aiops/guide/everything-aiops/
https://resolve.io/what-is-aiops
https://www.bmc.com/blogs/what-is-aiops/

熟悉Moogsoft AIOps平台:
人工智能用于IT操作(AIOps)是一种可扩展的方式,可以简化企业IT的复杂性,并帮助操作人员快速识别和纠正影响重要服务性能的问题。 https://info.moogsoft.com/rs/092-EGH-780/images/moogsoft_everything_you_need_to_know_aiops.pdf