일상/IT

모니터링 작업 설정을 위한 IT 서비스 구축 사례, 설명, 예시

얇은생각 2023. 6. 1. 07:30
반응형

이 게시물에서는 비즈니스 KPI에 부정적인 영향을 미치기 전에 문제를 사전에 해결하는 강력한 모니터링 작업을 설정하는 데 도움이 되는 주요 팁을 살펴봅니다.

최근 몇 년 동안, MLOps라는 용어는 종종 도구와 기술의 맥락에서 논의되는 AI 세계의 유행어가 되었습니다. 그러나 MLOps의 기술적 측면에 많은 관심이 있지만 종종 간과되는 것은 운영의 중요성입니다. 특히 생산 및 모니터링에서 기계 학습(ML)에 필요한 작업에 대한 논의가 부족한 경우가 많습니다. AI 성능에 대한 책임, 관련 이해 관계자에 대한 적시 경고, 문제 해결에 필요한 프로세스 설정과 같은 것들은 특정 도구 및 기술 스택에 대한 논의에서 종종 무시됩니다.

ML 팀은 전통적으로 높은 테스트 점수를 얻기 위한 훈련 모델에 중점을 두고 연구 지향적이었습니다. 그러나 모델이 실제 비즈니스 프로세스 및 애플리케이션에 구현될 준비가 되면 프로덕션 지향 운영을 구축하는 문화가 부족합니다. 결과적으로 모델의 결과와 성능에 대한 책임이 누구에게 있는지에 대한 명확성이 부족합니다. 적절한 운영이 없다면, 가장 진보된 도구와 기술조차도 AI 기반 프로세스의 건전한 거버넌스를 보장하기에 충분하지 않을 것입니다.

 

모니터링 작업 설정을 위한 IT 서비스 구축 사례, 설명, 예시

 

1. 책임문화 조성

앞서 언급한 바와 같이, 데이터 과학 및 ML 팀은 전통적으로 연구 지향적이었으며 실제 비즈니스 관련 결과가 아닌 모델 평가 점수로 측정되었습니다. 이러한 환경에서는 솔직히 아무도 충분히 신경 쓰지 않기 때문에 모니터링이 올바르게 수행될 수 없습니다. 이러한 상황을 해결하려면 AI 모델 구축을 담당하는 팀이 소유권을 갖고 해당 모델이 설계한 비즈니스 기능을 제공하는 데 성공하거나 실패한 것에 대해 책임을 져야 합니다.  

이를 달성하는 가장 좋은 방법은 생산 지향 KPI를 기반으로 개인과 팀의 성능을 측정하고 통제된 테스트 환경이 아닌 모델의 전체적인 성능에 대한 소유권을 촉진하는 환경을 만드는 것입니다.

일부 팀원들은 연구에 집중할 수 있지만, 실험에서 좋은 테스트 점수를 얻는 것만으로는 모델의 생산 성공을 보장할 수 없다는 점을 인식하는 것이 중요합니다. 이 모델의 궁극적인 성공은 실제 비즈니스 프로세스 및 애플리케이션에서의 효율성에 있습니다.

 

 

2. 릴리스 체크리스트의 "모니터링 계획" 부분을 작성

AI 기반 애플리케이션의 지속적인 성공을 보장하기 위해 모니터링 방법을 계획하는 것은 간과해서는 안 되는 중요한 요소입니다.

건전한 엔지니어링 조직에서는 항상 새로운 구성요소가 출시될 때마다 모니터링 계획을 수립해야 하는 릴리스 점검표가 있습니다. AI 팀은 그 패턴을 따라야 합니다. 모델 구축을 담당하는 담당자 또는 팀은 모델이 전체 시스템에 어떻게 적합한지를 명확하게 이해하고 발생할 수 있는 잠재적인 문제를 예측할 수 있어야 하며, 문제가 발생할 경우 누가 경고를 받아야 하고 어떤 조치를 취해야 하는지를 식별할 수 있어야 합니다.

일부 잠재적인 문제는 데이터나 개념 변화와 같이 연구 중심적일 수 있지만, 기능 파이프라인이 손상되거나 타사 데이터 공급자가 입력 형식을 변경하는 등 고려해야 할 다른 많은 요인이 있습니다. 따라서 이러한 문제가 발생할 경우 가능한 한 많은 문제를 예상하고 효과적으로 대처할 수 있는 계획을 세우는 것이 중요합니다.

예상치 못한 잠재적인 문제가 남아 있을 가능성이 매우 높지만, 여전히 아무것도 하지 않는 것보다는 무언가를 하는 것이 낫습니다. 일반적으로 처음 80%의 문제는 20%의 작업으로 예상할 수 있습니다.

 

 

3. 대기 시간 교대 설정

팀의 규모와 사용자가 관리하는 모델 또는 시스템의 수에 따라 팀 구성원 간에 책임을 공유하는 것이 필요하거나 도움이 될 수 있습니다. "호출" 순환을 설정함으로써, 모든 사람들은 문제가 발생하는 순간에 처리할 수 있는 최소한 한 명의 지식 있는 사람이 있다는 것을 알고 안심할 수 있습니다.

문제를 처리하는 것이 반드시 문제를 즉시 해결하는 것을 의미하지는 않습니다. 때때로, 그것은 시도하고 나중으로 미루거나 문제를 해결하기 위해 가장 잘 준비된 사람을 깨우는 것을 의미할 수 있습니다. 경우에 따라 기존 엔지니어링 팀과 온콜 로테이션을 공유하는 것도 옵션이 될 수도 있습니다. 그러나 이것은 사용 사례에 따라 다르며 모든 팀에서 가능하지 않을 수 있습니다.

접근 방식과 상관없이, 팀이 새로운 문제를 잘 처리할 수 있도록 담당자가 활용할 수 있는 공유 지식 기반을 구축하는 것이 필수적입니다.

 

 

4. 공유 기술 자료 설정

정상적인 모니터링 작업을 유지하려면 시스템 작동 방식과 주요 구성 요소를 자세히 설명하는 액세스 가능한 리소스가 있어야 합니다. 여기서 위키와 플레이북이 나옵니다. Wiki는 시스템의 아키텍처, 데이터 원본 및 모델 종속성을 포함하여 시스템의 문서화를 위한 중앙 위치를 제공할 수 있습니다. 플레이북은 발생할 수 있는 일반적인 문제나 사고를 처리하기 위한 특정 절차를 문서화하는 데 사용할 수 있습니다.

이러한 리소스를 배치하면 지식 공유를 촉진하고 팀의 모든 구성원이 문제를 신속하게 해결하고 해결할 수 있습니다. 또한 시스템을 신속하게 파악할 수 있는 새로운 팀원의 온보드 작업을 보다 원활하게 수행할 수 있습니다. 또한 절차와 프로토콜을 잘 문서화하면 문제 발생 시 다운타임을 줄이고 응답 시간을 단축하는 데 도움이 될 수 있습니다.

 

 

5. 사후 처리 시행

모니터링은 반복적인 프로세스입니다. 잘못될 수도 있는 모든 것을 미리 예측하는 것은 불가능합니다. 그러나 문제가 발생하여 탐지되지 않거나 너무 오랫동안 해결되지 않은 경우에는 문제를 철저히 분석하고 근본 원인을 파악하는 것이 중요합니다. 근본 원인이 파악되면 구축된 모니터링 계획을 그에 따라 수정하고 개선할 수 있습니다.

사후 처리는 앞서 논의한 바와 같이 성공적인 모니터링 운영을 위한 핵심 요소인 책임 문화를 구축하는 데도 도움이 됩니다.

 

 

6. 효과적인 모니터링을 위한 올바른 툴 확보

건전한 모니터링 운영의 필요성을 확인하고 문화적 고려 사항을 해결한 후에는 팀원들에게 해당 모델이 제공하는 비즈니스 기능에서 모델의 성능을 책임질 수 있는 적절한 도구를 제공하는 것이 중요합니다.

 , 근본 원인 분석 및 문제 해결을 위한 기능과 함께 문제(일반적으로 소규모로 시작되는 문제로 인해 어려움이 있음)에 대한 적시 경고를 지원하는 툴을 구현하는 것을 의미합니다. 티켓팅 시스템뿐만 아니라 이슈 추적 및 관리 기능과 같은 기존 도구와의 통합도 팀원 간의 원활한 조정 및 협업을 위해 필수적입니다. 올바른 툴에 투자하면 팀이 소유권과 책임을 모두 가질 수 있으며, 궁극적으로 비즈니스의 결과를 개선할 수 있습니다. 

 

 

결론

이러한 지침을 따름으로써 AI 팀이 성공적인 프로덕션 지향 운영을 위해 설정될 것임을 확신할 수 있습니다. 모니터링은 책임, 적시 경고, 문제 해결 등과 관련된 MLOps의 중요한 측면입니다. 시간을 들여 건전한 모니터링 관행을 수립하면 지속적인 개선이 가능합니다.

반응형