A crowded market…

옵저버빌리티 시장에서는 상용 솔루션은 물론, 오픈소스 프로젝트를 기반으로 하는 솔루션들의 등장으로 치열한 경쟁이 벌어지고 있습니다. 대형 상용 솔루션 벤더들은 메트릭 모니터링 솔루션뿐만 아니라 로그, 보안, 데이터베이스, APM 서비스, AI/ML 작업과 같은 모니터링 서비스를 제공하여 시장 지배력을 유지하려고 합니다.

이러한 대규모 상용 솔루션 벤더와 경쟁하기 위해 여러 신생 기업들은 대시보드 모니터링 및 애플리케이션 추적에 관한 창의적인 아이디어를 통해 차별화를 목표로 하고 있습니다. 또한 오픈 소스 기반 서비스 제공 업체는 Prometheus의 장기 스토리지 문제를 포함하여 OSS 프로젝트의 한계를 극복하는 관리형 서비스를 출시하고 있습니다. 예를 들어 Honeycomb.io의 “BubbleUp” 기능이 제공하는 향상된 추적 기능, Logz.io의 Kibana 및 Grafana와 같은 시장 선도 대시보드의 동시제공, Chronosphere가 제공하는 M3 기반 롱텀 데이터 저장 기능이 있습니다.

클라우드 네이티브 기반의 서비스들이 본격적으로 사용됨에 따라 옵저버빌리티 시장도 치열하게 경쟁하고 있습니다. 그렇다면 NexClipper가 이 시장에 진입하려는 이유가 무엇인지 궁금할 것입니다.

Still many challenges

마이크로서비스 및 오픈소스 기술로 대표되는 클라우드 네이티브 기술의 급격한 확산은 혁신적인 기술 및 낮은 도입 가격등으로 기업들에게 매력적으로 다가 옵니다. 이러한 기술을 이용하여 상업적인 서비스를 운영하기 위해서는 유지 보수의 자동화 및 장애 등을 예방할 수 있는 모니터링 등 운영에 필수적인 옵저버빌리티 솔루션이 필요하지만, 상대적으로 손쉬운 도입단계 이후에 발생하는 부족한 오픈소스 프로젝트에 대한 제한적인 기술지원, 기술지원 인력 부족 등의 운영단계의 어려움은 도입기업의 몫이 됩니다.

기본적으로 옵저버빌리티 대상(Target)을 식별하고 메트릭을 수집하는 솔루션이 있어야 하며, 더 나아가 수집 대상의 추가, 모니터링 규칙의 변경 등을 용이하게 관리할 수 있는 솔루션이 필요합니다. 모니터링 대상 및 Kubernetes cluster의 숫자가 증가하게 되면, 운영의 복잡성은 증가하고, 시스템의 장애를 수집하는 프로세스 자체에 오류가 발생할 가능성 역시 증가하게 됩니다. 이에 고가용성 (High Availability)을 확보한 옵저버빌리티 솔루션이 필요하며, 대용량의 메트릭 및 로그 정보를 관리하기 위한 장기정보 관리 체계 또한 필요하게 됩니다.

Why observability with NexClipper?

NexClipper는 Prometheus, Loki, Tempo, Grafana와 같은 OSS 프로젝트를 기반으로 하는 옵저버빌리티 서비스입니다. 설치부터 운영까지 다양한 작업을 자동화함으로써 고객은 베어메탈은 물론 프라이빗 및 퍼블릭 클라우드에서도 손쉽게 서비스를 활용할 수 있습니다. 또한 메트릭, 로그 및 트레이싱이 통합되어 사고의 원인을 식별할 수 있습니다. 기능을 자세히 소개하는 다음 기사를 곧 기대해 주세요! 오늘 NexClipper가 어떻게 많은 문제를 극복하는지 대해 모두 알아보겠습니다.

1. Distributed cloud resource management

NexClipper는 분산 클라우드 환경에서의 리소스 관리에 중점을 둡니다. 리소스 관리의 자동화 및 표준화는 옵저버빌리티 확보 뿐만 아니라 다른 DevOps 운영에도 필수적입니다. 이러한 리소스들의 효율적인 Kubernetes 클러스터 자원관리를 위한 솔루션이 Sudory입니다.

NexClipper의 OSS 프로젝트인 Sudory는 NexClipper의 Sudory Server에서 지시하는 서비스 요청을 각 Kubernetes 클러스터에 있는 Sudory Client가 비동기적으로 가져와 실행하는 Kubernetes 실행서비스입니다. 서비스 실행 요청을 위해, Sudory Server 측에서 Kubernetes API, Helm, http 서비스 기반의 워크플로우 템플릿과 특정 Kubernetes 클러스터가 선택되며, Kubernetes 클러스터 안의 Sudory Client는 해당 서비스요청을 가져와 실행하고, 결과를 서버에 제공하게 됩니다.

2. Intelligent metric operation

NexClipper의 MetricOps는 메트릭 기반 지능형 운영을 가능하게 합니다.

알림을 수신해야 하는 그룹 및 수신 채널을 손쉽게 관리할 수 있도록 도와주며. 필요한 리소스에 대해서만 알림을 받는 것도 가능합니다. 또한 옵저버빌리티 스택에서 발행한 알림, 관련 메트릭/로그, 장애 해결이력 등을 통합 제공하여 장애 해결을 용이하게 합니다. 이러한 장애 해결 과정을 이력화하여 사용들에게 제공하여, 유사한 장애가 미래에 발생했을 때 이를 해결하는 데 도움이 될 것입니다.

축적된 정보는 NexClipper에 추가될 AI/ML 기반 운영의 기반이 됩니다. 향후 추가 될 ML 기반의 MetricOps 는 알람 및 알람간 규칙을 정의하여, 심각한 장애로 추정되는 건에 대해서는 능동적으로 장애 티켓을 발행하고, 설정에 따라 적극적 장애해결 대안을 제시하거나 직접 시스템이 실행하는 AI/ML Ops 기능을 제공할 예정입니다.

3. Unlimited supply of service monitoring

NexClipper ExporterHub는 Github의 Exporter들을 리뷰, 검증하고, 이중 우수한 Exporter를 Helm Chart 를 통해 자동설치를 지원하고 Prometheus Alert 규칙 설정 및 즉각 사용이 가능한 Grafana 대시보드를 제공합니다.

ExporterHub에 존재하는 Exporter Set은 NexClipper가 직접 설치 및 검토한 후, 해당 Exporter의 주요 metric 및 alert 규칙, Grafana 대시보드 사용한 내용을 리뷰 문서로 첨부하여, 모니터링 전반에 대한 내용을 사용자가 손쉽게 이해할 수 있도록 도와 드릴 것입니다. 또한 NexClipper 사용자들을 위한 전용 helm value 파일을 제공하여, 설정의 변경없이 즉각 특정 서비스의 옵저버빌리티 서비스를 제공할 수 있도록 할 것입니다.