SW/DevOps

DevOps : AIOps 및 MLOps에 대한 심층 분석

얇은생각 2023. 7. 2. 07:30
반응형

DevOps 환경을 모니터링하고 관리하는 것은 복잡합니다. 새로운 분산 아키텍처(예: Kubernetes)에서 생성되는 데이터의 양 때문에 DevOps 팀은 고객 요청에 효과적으로 대응하기 어렵습니다. 따라서 DevOps의 미래는 지능형 관리 시스템을 기반으로 해야 합니다. 인간은 일상적인 운영에서 방대한 양의 데이터와 컴퓨팅을 처리할 수 없기 때문에 인공지능(AI)은 팀이 애플리케이션을 개발, 제공, 배포 및 관리하는 방법을 계산, 분석 및 변환하는 데 중요한 도구가 될 것입니다.

 

기계 학습 운영

기계 학습 운영(MLops)은 기계 학습(ML) 프로젝트의 라이프사이클 관리를 말합니다. 이것은 현대 기계 학습 응용 프로그램 개발의 핵심 개념이며, 그 목적은 기계 학습 응용 프로그램의 교육, 배치 및 유지보수를 원활하고 효율적으로 만드는 것입니다. MLOps는 특정 기술의 집합이 아니라 신뢰할 수 있고 잘 작동하는 기계 학습 모델을 구축하는 데 초점을 맞춘 활동을 포괄하는 용어입니다. 여기에는 개발 작업 관행과 프로젝트 팀의 작업 방식이 모두 포함됩니다. 기본적으로 머신러닝 애플리케이션 개발을 위한 모범 사례로 기능합니다.

MLOps 원칙을 적용하면 데이터 과학자는 머신 러닝 모델의 핵심 개발에 집중할 수 있고, MLOps 관행은 데이터 클리닝, 품질 관리 및 모델 버전 관리와 같은 작업을 처리할 수 있습니다.

MLOps를 적용하면 비즈니스 소유자와 고객에게 동등한 이점이 있습니다. 자동화는 개발 속도를 높여 결과를 가속화하고 기계 학습 모델의 신뢰성을 높입니다. 따라서 개발 시간이 단축되어 최종 결과 제공 시간이 단축되고 비용 효율성이 향상됩니다. 마지막으로, 자동화된 품질 관리는 의도한 대로 작동하도록 보장되고 테스트된 보다 안정적인 솔루션을 보장하여 배치 결함의 위험을 줄입니다.

 

 

머신러닝 모델의 라이프사이클

머신 러닝 프로젝트의 라이프사이클은 기존 애플리케이션과 다릅니다. 그림 1의 다이어그램은 프로덕션에서 기계 학습 프로젝트를 배포하기 위한 단계를 자세히 설명합니다:

 

기계 학습 모델 라이프사이클

 

  • 데이터 추출 - 다양한 소스에서 데이터 수집
  • 탐색적 데이터 분석 – 데이터 형식 이해
  • 데이터 준비 – 데이터를 쉽게 처리할 수 있도록 데이터 정리 및 처리
  • 모델 교육 – 데이터를 처리하기 위한 모델 생성 및 교육
  • 모델 검증 및 평가 – 테스트 데이터에 대한 모델 평가를 통해 성능 검증
  • 모델 버전 관리 – 모델 버전 출시
  • 모델 배치 – 운영 환경에 모델 배치

 

MLOps의 핵심 요소

모델을 배포, 관리 및 모니터링할 수 있는 몇 가지 머신 러닝 프레임워크가 있습니다. 예를 들어, KubeFlow는 Kubernetes 플랫폼에서 모델 관리를 간소화하는 툴킷입니다. 툴킷은 다음과 같이 구성되어야 합니다:  

  • 데이터 세트 또는 모델의 변경 사항을 추적하기 위한 버전 제어
  • 중앙 집중식 데이터 및 자주 사용되는 기능에 대한 기능 저장소
  • 교육에서 모델의 성능을 모니터링하는 추적기
  • 최적의 하이퍼 파라미터 세트를 사용하여 모델을 자동으로 교육하는 도구
  • 운영 환경에 모델을 배치하는 플랫폼
  • 운영 환경에 배치된 머신 러닝 모델을 추적하고 통제하는 모니터링 도구

 

인공지능 운영이란

"인공지능 운영"(AIOps)이라는 용어를 만든 Gartner는 이를 빅데이터 및 머신러닝을 활용하여 이벤트 상관 관계, 비정상적인 이벤트 식별, 원인 및 결과 파악과 같은 IT 운영 작업을 자동화하는 것으로 정의합니다. AIOps는 빅데이터, 분석, 그리고 IT 시스템과 애플리케이션에서 생성된 방대한 양의 데이터를 실시간으로 분석하는 AI 알고리즘을 제공합니다. 이 데이터에는 로그 파일, 성능 메트릭 및 보안 이벤트 등이 포함됩니다. AI 알고리즘은 이 데이터를 처리하여 패턴을 식별하고, 이상 징후를 감지하며, IT 팀이 사고를 신속하게 해결하고, 잠재적인 문제가 발생하기 전에 예방할 수 있는 통찰력을 생성합니다.

또한 AIOps 솔루션은 이벤트 상관 관계, 근본 원인 분석 및 사고 해결과 같은 수동 작업을 자동화하여 IT 팀이 보다 전략적인 이니셔티브에 집중할 수 있도록 지원합니다. 또한 AIOps는 조직이 문제 해결 시간을 단축하고, 다운타임을 줄이며, 전반적인 IT 운영 효율성을 향상할 수 있도록 지원합니다. 그것은 AI의 힘을 발휘하여 팀이 더 빠르고 더 스마트하게 작업할 수 있도록 도와줍니다.

효율적인 워크플로우 디지털화를 지원하는 AIOps의 핵심 기능은 다음과 같습니다:

  • 프로세스 최적화 – 시스템 간의 연결 및 효과를 포괄적으로 이해함으로써 기업 전체의 효율성을 향상시킵니다. 문제를 식별한 후에는 프로세스를 개선하고 지속적으로 모니터링할 수 있습니다.
  • 성능 분석 – 추세를 검토하고 필요에 따라 필요한 개선을 수행하여 성능 병목 현상을 예측합니다. 
  • 예측 인텔리전스 – 머신 러닝을 활용하여 사고를 분류하고 해결책을 제안하며 중요한 문제를 사전에 경고합니다.
  •  AI 검색 – 시맨틱 검색 기능을 통해 정확하고 개인화된 답변을 제공합니다.
  • 구성 관리 데이터베이스 – 디지털 라이프사이클 전반에 걸쳐 제품을 연결함으로써 IT 환경에 대한 가시성과 함께 의사 결정을 강화하여 팀이 영향과 위험을 이해할 수 있도록 지원합니다.

 

 

AIOps의 핵심 요소

AIOps의 정의는 기업마다 IT 운영에서 AI 솔루션을 구현하기 위한 고유한 요구와 접근 방식을 가지고 있기 때문에 기업마다 다릅니다. AIOps의 주요 목표는 실시간 문제를 효율적으로 식별하고 대응하는 것입니다. AIOps의 일부 핵심 구성 요소는 IT 운영에서 AI 구현을 지원할 수 있습니다:

  • ML 기반 패턴 검색 – AIOps 또는 IT 분석에는 패턴을 식별하는 작업이 포함됩니다. 머신 러닝은 컴퓨터의 계산 능력을 활용하여 IT 데이터에서 이러한 패턴을 식별합니다.
  • 이상 탐지 – 정상적인 동작의 변화로 인해 다운타임이나 고객 환경의 저하와 같은 비정상적인 시스템 동작이 발생할 수 있습니다. AIOps를 사용하면 일반적인 활동에서 벗어난 부분을 감지할 수 있습니다.
  • 예측 가능한 통찰력 – AIOps는 IT 운영에 예측 가능성을 도입하여 IT 직원들이 문제가 발생하기 전에 사전에 해결할 수 있도록 지원하여 궁극적으로 서비스 데스크 티켓 수를 줄입니다. 
  • 자동화된 근본 원인 분석 – 통찰력만으로는 충분하지 않습니다. 행동을 취하는 것은 중요합니다. 기존 IT 관리에서 직원은 시스템을 모니터링하고 필요에 따라 조치를 취합니다. 그러나 IT 인프라 문제의 양이 증가함에 따라 직원들은 특히 여러 시스템이 관련되어 있고 근본 원인 분석에 시간이 걸릴 수 있는 경우 문제를 적시에 관리하고 해결하기가 어려울 수 있습니다. AIOps는 백그라운드에서 이 프로세스를 자동화합니다.

 

AIOps 도구 세트

AIOps 툴은 여러 소스에서 데이터를 수집하여 IT 운영에 대한 포괄적인 뷰를 제공합니다. 애플리케이션 로그와 같은 데이터를 수집하고 시스템 성능을 측정하여 IT 정보의 사일로를 해소하고 소프트웨어, 하드웨어 및 클라우드 문제 간의 격차를 해소합니다. AIOps 솔루션은 자동화를 지원하기 위해 근본 원인 분석, 이벤트 상관 관계 및 클라우드 매핑을 위한 툴을 제공하여 IT 운영을 지원합니다:

  • 지능형 관찰 가능성 – AIps는 상황별 정보, AI 및 자동화를 사용하여 고급 모니터링 기술을 사용하여 IT 문제를 완벽하게 이해합니다. 실행 가능한 통찰력을 갖춘 정확한 근본 원인 분석이 제공됩니다.
  • 지속적인 자동화 – 구축, 구성 및 관리에 대한 수작업을 줄이고 사용자 및 비즈니스에 미치는 영향과 관련하여 문제의 심각성을 자동으로 식별 및 평가합니다. 지속적인 검색, 간편한 배포 및 자동 종속성 매핑을 실현할 수 있습니다.
  • AI 지원 – 오류 없는 효율적인 근본 원인 분석을 수행합니다. AI 엔진이 모든 측면에 통합되어 정확하고 재현 가능한 결과를 얻을 수 있습니다.

 

MLOps와 AIOps의 차이점

현대 애플리케이션의 아키텍처가 점점 복잡해지고 있는 것과 더불어 이러한 디지털 경제의 요구는 IT 운영의 역할을 훨씬 더 복잡하게 만들었습니다. 그 결과, ML과 AI가 등장하여 일부 수동 비즈니스 프로세스를 자동화하여 효율성을 높였습니다.

MLOps와 AIOps는 모두 동일한 최종 목표인 비즈니스 자동화를 제공하는 것을 목표로 합니다. MLOps는 모델 구축과 구축 사이의 간극을 메우는 반면, AIOps는 실시간으로 문제를 지원하고 대응하며 운영 팀에 분석 기능을 제공하는 데 중점을 둡니다. AIOps는 빅데이터와 머신러닝을 결합하여 성능 모니터링, 이벤트 분석, 상관 관계 및 IT 자동화를 자동화합니다.

 

AIOps  대  MLOps  대  DevOps

 

반면 MLOps는 머신 러닝 모델을 효과적으로 만드는 데 필요한 교육 및 테스트 데이터 관리에 중점을 둡니다. ML 모델을 모니터링하고 관리하는 것이 중요합니다. 다시 말해, MLOps는 프로세스를 표준화하는 반면 AIOps는 기계 모니터링을 자동화합니다.

AIOps와 MLOps를 적절하게 실행하는 데 필요한 팀과 능력에는 분명한 차이가 있습니다. 두 분야를 모두 지원할 수 있는 리소스를 결정하기 위해 교차하는 위치를 고려해 볼 가치가 있습니다.

 

 

결론

전 세계의 조직들은 운영 효율성을 개선하기 위한 수단으로 자동화 기술을 점점 더 많이 찾고 있습니다. 이는 기술 리더들이 MLOps와 AIOps에 점점 더 관심을 갖고 있음을 나타냅니다.

기계 학습 시스템은 DevOps 시스템의 다양한 부분에서 속도, 발견된 결함, 굽기 속도 등의 데이터 수집을 단순화할 수 있습니다. MLOps는 모델의 지속적인 통합 및 배치를 관리합니다. 사용자는 중요한 패턴을 조명하고 데이터를 활용하여 의미 있는 정보를 추출할 수 있습니다. 또한 이러한 모델의 안정성과 안정성을 보장하기 위해 지속적인 모델 교육과 감시를 의미합니다. AIOps는 DevOps 효율성을 가속화하는 데 중요한 역할을 할 수 있습니다. 빅데이터와 머신러닝을 활용해 이벤트 상관관계, 원인과 결과 파악, 비정상적인 이벤트 파악 등의 작업을 자동화하는 것으로 정의됩니다.

즉, MLOps와 AIOps가 함께 작동할 수 있습니다. 인공지능은 즉각적인 개발 및 운영 주기를 가능하게 하고 이러한 기능에 대한 강력한 고객 경험을 제공함으로써 성능을 향상시키는 데 도움이 될 것입니다. 기계 학습을 통해 기업은 통합 횟수, 통합 간 시간, 성공률 및 통합당 결함과 같은 메트릭을 수집할 수 있으며, 이러한 메트릭은 정확하게 평가되고 상관 관계가 있을 때만 가치가 있습니다.

반응형