일상/IT

데이터 스트리밍 환경

얇은생각 2023. 9. 18. 07:30
반응형

데이터 스트리밍은 이동 중인 데이터를 처리하기 위한 새로운 소프트웨어 범주입니다. 아파치 카프카는 10만 개 이상의 조직에서 사용하는 사실상의 표준입니다. 많은 벤더가 카프카 플랫폼 및 클라우드 서비스를 제공합니다. 아파치 플링크 및 SaaS 제공과 같은 많은 보완적인 스트림 처리 엔진이 등장했습니다. 그리고 펄서 및 레드판다와 같은 경쟁 기술은 시장 점유율을 확보하려고 노력합니다. 이 블로그 게시물은 기존 솔루션 및 시장 동향을 요약하기 위해 2023년의 데이터 스트리밍 풍경을 탐구합니다.

 

데이터 스트리밍 풍경  2023  데이터 스트리밍은 새로운 소프트웨어 범주

 

 

데이터 기반 애플리케이션은 새로운 블랙입니다. 이 접근 방식은 수익을 늘리고 비용을 절감하며 위험을 줄이거나 고객 환경을 개선함으로써 전체 목표로서의 비즈니스 가치를 높입니다.

데이터를 처리하고 분석하기 위해 많은 소프트웨어 범주와 관련 데이터 플랫폼이 존재합니다:

데이터베이스: 트랜잭션 워크로드를 저장하고 실행합니다.

데이터 웨어하우스: 구조화된 과거 데이터를 처리하여 반복되는 보고서 및 고유한 통찰력을 만듭니다.

Data Lake: 반복되는 보고서와 고유한 통찰력을 생성하기 위해 일괄 처리를 통해 정형 및 반정형 또는 비정형 빅 데이터 세트를 처리합니다.

Lakehouse: 데이터 웨어하우스와 데이터 레이크를 혼합하여 하나의 플랫폼에서 모든 데이터를 처리합니다.

데이터 스트리밍: 정지 상태의 데이터를 저장하고 분석하는 대신 이동 중인 데이터를 지속적으로 처리하고 통신 패러다임 전반에 걸쳐 데이터 일관성을 제공합니다.

 

물론 이러한 데이터 플랫폼은 종종 약간 겹칩니다. 나는 사용 사례와 그것들이 어떻게 서로를 보완하는지 탐구하는 완전한 블로그 시리즈를 했습니다.

데이터 웨어하우스 대 데이터 레이크 대 데이터 스트리밍친구, , 프랑스?

데이터 웨어하우스 및 데이터 레이크로 데이터 수집을 위한 데이터 스트리밍

데이터 웨어하우스 현대화: 레거시 온프레미스에서 클라우드 네이티브 인프라로

사례 연구: 데이터 웨어하우스 현대화를 위한 클라우드 네이티브 데이터 스트리밍

 

 

클라우드 네이티브 데이터 웨어하우스 구축을 통해 얻은 교훈

 

비즈니스 가치별 데이터 스트리밍 사용 사례

 

데이터 스트리밍에 대한 사용 사례는 모든 산업에 걸쳐 존재합니다:

비즈니스 가치별 데이터 스트리밍 사용 사례 비즈니스 가치를 추가하는 것은 모든 기업에 매우 중요합니다. 이렇게 많은 잠재적 사용 사례가 있으므로 점점 더 많은 소프트웨어 공급업체가 제품에 카프카 지원을 추가하는 것은 놀랄 일이 아닙니다. 내 블로그에서 가장 좋아하는 산업을 검색하여 많은 사례 연구 및 아키텍처를 찾으십시오. 또는 시작할 산업 전반에 걸친 아파치 카프카의 사용 사례에 대해 읽으십시오.

 

 

2023년 데이터 스트리밍 환경

데이터 스트리밍은 데이터 플랫폼의 별도 소프트웨어 범주입니다. 많은 소프트웨어 공급업체가 이 범주를 중심으로 전체 비즈니스를 구축했습니다.

데이터 스트리밍 환경을 보면 대부분의 공급업체가 Kafka를 사용하거나 프로토콜을 구현하는 것이 사실상의 표준이 되었음을 알 수 있습니다.

지난 몇 년 동안 이 범주에서 새로운 소프트웨어 회사가 등장했습니다. 그리고 데이터 시장의 여러 성숙한 플레이어는 플랫폼 또는 클라우드 서비스 생태계에서 데이터 스트리밍에 대한 지원을 추가했습니다.

아파치 카프카는 아마존 S3 S3 객체 스토리지의 사실상 표준인 것처럼 데이터 스트리밍에 대한 사실상의 표준입니다. 대부분의 소프트웨어 공급업체는 데이터 스트리밍 플랫폼에 카프카를 사용합니다. 그러나 카프카 이상의 것이 있습니다. 일부 공급업체는 카프카 프로토콜(Azure Event Hubs) 또는 완전히 다른 API(Amazon Kinesis)만 사용합니다.

다음 데이터 스트리밍 풍경 2023은 관련 제품 및 클라우드 서비스의 현황을 요약한 것입니다:

2023년 데이터 스트리밍 풍경 참고: 이것은 프레임워크, 클라우드 서비스 또는 공급업체의 완전한 목록이 아닙니다. 공식적인 연구 환경이 아닙니다. 이 다이어그램에 선호하는 기술이 없다면 고객, 잠재 고객, 파트너, 분석가 또는 더 광범위한 데이터 스트리밍 커뮤니티와의 대화에서 볼 수 없습니다. 1~2년 후에는 이 다이어그램에서 더 많은 로고를 볼 수 있을 것입니다. 아직 데이터 스트리밍 시대의 시작이기 때문입니다.

또한 일반 데이터 스트리밍 인프라에 중점을 두고 있습니다. 시계열 데이터베이스, 기계 학습 엔진 또는 관찰 가능성 플랫폼과 같은 특정 시나리오에 대해 스트리밍 데이터를 사용하고 분석하기 위한 훌륭한 솔루션이 있습니다. 이들은 보완적이며 종종 스트리밍 클러스터에 즉시 연결됩니다.

 

데이터 스트리밍 플랫폼 평가 기준

 

비즈니스 프로젝트 또는 엔터프라이즈 아키텍처 전략에 적합한 기술을 평가하기 위해 다음과 같은 네 가지 측면을 사용하는 것이 좋습니다:

클라우드 네이티브: 솔루션이 확장 및 축소에 탄력적인가요? 완전히 관리/서버가 없는 것인가요, 아니면 클라우드에 호스팅된 여러 서버 인스턴스만 있는 것인가요?

DevOps, GitOps, 테스트 기반 개발 및 유사한 원리를 사용하여 개발, 운영 및 테스트 프로세스를 자동화할 수 있습니까?

완료: 이 솔루션은 필요한 모든 기능을 제공합니까? 데이터 스트리밍에는 메시징 또는 데이터 수집 이상의 기능이 필요합니다. 그러면 커넥터, 데이터 처리, 거버넌스, 보안, 셀프 서비스 등을 제공합니까?

어디서나: 솔루션을 사용할 수 있습니까? 클라우드 전용? 모든 필수 클라우드 서비스 공급자가 지원됩니까? 데이터 센터 또는 에지(: 데이터 센터 외부)에 구축할 수 있는 옵션이 있습니까? 지역, 클라우드 또는 데이터 센터 간에 데이터를 공유하려면 어떻게 해야 합니까? 지원되는 사용 사례(: 통합, 재해 복구, 하이브리드 통합 등)는 무엇입니까?

지원: 솔루션이 성숙하고 성능이 검증되었습니까? 귀사의 사용 사례나 업계에 공개 사례 연구가 제공됩니까? 공급업체가 제품을 완전히 지원합니까? SLA는 무엇입니까? 특정 기능은 상용 엔터프라이즈 지원에서 제외됩니까? 이러한 측면을 평가해야 한다는 것은 유감스러운 일입니다. 여전히 일부 공급업체는 데이터 스트리밍 클라우드 서비스를 제공하고 약관에서 지원을 제외합니다(많은 사람들이 클라우드 서비스에서는 읽지 않습니다).

다양한 범주에 대해 자세히 알아보고 선도적인 기술인 네이티브 아파치 카프카부터 시작하겠습니다...

 

 

Apache Kafka는 데이터 스트리밍의 실질적인 표준

선두업체이자 사실상 표준인 Apache Kafka와 관련 공급업체 및 SaaS 제품부터 시작하여 Apache Kafka Amazon S3가 객체 스토리지의 사실상 표준인 것처럼 데이터 스트리밍의 사실상 표준이 되었습니다:

데이터 스트리밍 세계를 탐험할 때 아파치 카프카 생태계를 살펴보지 않을 방법은 없습니다.

 

 

 

Apache Kafka 채택 및 성장

지난 몇 년간 아파치 카프카 커뮤니티의 성장은 인상적입니다. 다음은 제이 크렙스가 2022 10월 텍사스 오스틴에서 열린 데이터 스트리밍 컨퍼런스 "현재차세대 카프카 서밋"에서 발표한 몇 가지 통계입니다:

Apache Kafka를 사용하는 100,000개 이상의 조직

41,000명 이상의 카프카 미팅 참석자

32,000개 이상의 스택 오버플로 질문

아파치 카프카를 위한 12,000 지라

>31,000개 이상의 공개 직업 목록은 카프카 기술을 요청합니다

 

그리고 Maven을 사용하여 Kafka Java 클라이언트 라이브러리를 다운로드하는 활성 월간 고유 사용자의 증가를 확인해 보십시오:

데이터 스트리밍 환경 1

 

 

Apache Kafka 벤더: 자체 관리 대 클라우드 제품

새로운 소프트웨어 회사들은 데이터 스트리밍에 중점을 두고 있습니다. 그리고 IBM Amazon과 같은 전통적인 업체들은 지난 몇 년간 시류에 편승했습니다. 간단히 말하면, Apache Kafka에는 세 가지 종류의 제품이 있습니다:

다음은 각 공급업체에 대한 몇 가지 참고 사항을 요약한 것입니다.

아파치 카프카: 데이터 스트리밍의 사실상의 표준. 방대한 커뮤니티가 있는 오픈 소스. 이 목록에 있는 모든 공급업체는 이 프로젝트에 의존합니다.

Confluent: Confluent Platform(자체 관리) Confluent Cloud(클라우드 프로바이더 전체에서 완전히 관리 및 사용 가능)를 통해 어디서나 데이터 스트리밍을 제공합니다.

클라우드: 카프카를 자체 관리 제품으로 제공합니다. 카프카, 하둡, 스파크, 플링크, NiFi 등과 같은 많은 데이터 기술을 결합하는 데 중점을 둡니다.

레드햇: 오픈시프트를 통해 Kafka를 부분 관리 클라우드 오퍼링으로 제공하고 Kafka Kubernetes에서 자체 관리합니다. Kafka Apache Camel과 같은 다른 오픈 소스 프레임워크를 포함하는 통합 포트폴리오의 일부입니다.

티비코: 리눅스 및 윈도우용 카프카를 제공합니다. 이상한 제품(카프카 전문가들이 알고 있듯이 카프카는 윈도우에서 잘 작동하지 않습니다)과 최소한의 문서.

AWS: 아마존 MSK(부분 관리)와 아마존 MSK 서버리스(전체 관리)로 두 개의 별도 제품을 제공합니다. 카프카 지원은 MSK 제공에서 제외됩니다. AWS에는 수백 개의 클라우드 서비스가 있으며, 카프카는 해당 광범위한 스펙트럼의 일부입니다. AWS 클라우드에서만 사용할 수 있습니다.

Instaclustr Aiven: 클라우드 공급자 전반에 걸쳐 부분적으로 관리되는 카프카 클라우드 오퍼링. 제품 포트폴리오는 오픈소스 기술의 다양한 호스팅 서비스를 제공합니다. Instaclustr은 또한 온프레미스 인프라를 위한 ()관리형 오퍼링을 제공합니다.

마이크로소프트 애저 HD 인사이트. 애저의 하둡 인프라의 일부. 다른 사용 사례를 위한 것은 아닙니다. 애저 클라우드에서만 사용할 수 있습니다.

렌즈 및 컨덕터: 카프카 클러스터를 관리하고 모니터링하기 위한 도구. 다른 공급업체와 보완적입니다.

이는 비교가 되지 않습니다. 몇 가지 메모가 포함된 목록입니다. 좋아하는 공급업체에 대한 평가를 직접 만드십시오. 필요한 항목을 확인하십시오. 클라우드 네이티브? 완료? 모든 곳에서 지원?

 

 

Kafka 호환 오픈소스 프레임워크 및 SaaS

일부 공급업체는 오픈 소스 Apache Kafka에 의존하지 않고 다른 이유로 자체 구현을 구축했습니다. Kafka 프로토콜 호환성은 제한적입니다(마케팅으로는 알 수 없지만). 이로 인해 클러스터에 대해 기존 Kafka 워크로드를 운영하는 데 위험이 발생하고 운영 및 실행에 차이가 날 수 있습니다(좋을 수도 있고 나쁠 수도 있음).

다음은 각 공급업체에 대한 몇 가지 참고 사항을 요약한 것입니다:

아파치 펄서: 아파치 카프카의 경쟁자.

스토리와 사용 사례는 비슷하지만 다른 아키텍처(Kafka는 하나의 분산 클러스터 - 2022년에 사육사 의존성을 제거한 후), Pulsar는 세 개의 분산 클러스터(Pulsar Broker, Zookeeper, Bookkeeper)입니다.

스트림 네이티브: 아파치 펄서의 주요 공급업체입니다. 자체 관리되고 완전히 관리되는 솔루션을 제공합니다. 카프카용 스트림 네이티브 클라우드는 베타 버전이며 생산 준비가 되지 않았습니다.

DataStax: 데이터베이스 중심 제품 포트폴리오에 통합된 Pulsar 제품입니다. 스트리밍 제품이 단순한 마케팅인지 아닌지 잘 모르겠습니다. Pulsar 기반의 아스트라 스트리밍 클라우드 서비스를 사용해보고 싶다면 Apache Cassandra 기반의 멀티 클라우드 DBaaS를 참조하십시오.

레드판다: 자체 관리 및 완전 관리 제품을 제공하는 데이터 스트리밍 시장의 새로운 진입자. C++로 카프카 프로토콜을 구현하는 흥미로운 접근 방식입니다. 적절한 사용 사례와 차별화 요소를 찾을 수 있다면 시장 점유율이 약간 필요할 수 있습니다. 오늘날 저는 레드판다가 성숙도 곡선의 초기 단계이고 아파치 카프카에 비해 비즈니스 문제 해결을 위한 부가 가치가 없기 때문에 카프카 토종 제품의 대안으로 보지 않습니다.

애저 이벤트 허브: 성숙하고 완전히 관리되는 클라우드 서비스입니다. 서비스는 한 가지를 수행합니다. 카프카 프로토콜을 통한 데이터 수집(제한된 호환성 포함). 따라서 완전한 스트리밍 플랫폼은 아니지만 아마존 키네시스 또는 구글 클라우드 펍서브와 더 유사합니다. 애저 클라우드에서만 사용할 수 있습니다.

Kafka 프로토콜을 다시 구현하는 공급업체의 진술을 주의하십시오. 이러한 공급업체의 대부분은 Kafka 프로토콜 호환성을 과대 평가합니다. 또한 "벤치 마케팅"(, 경쟁업체보다 성능이 좋은 달콤한 지점이나 틈새 시나리오를 선택하는 것)은 실제 Apache Kafka에 대한 차별화 요소를 "증명"하기 위해 가장 좋아하는 마케팅 기법입니다.

 

 

데이터 스트리밍은 Apache Kafka 이상

Apache Kafka는 데이터 스트리밍의 실질적인 표준이지만 많은 보완적이고 경쟁력 있는 기술이 존재합니다.

전 세계와 모든 산업에서 이 소프트웨어 범주의 성장으로 인해 오늘날 훨씬 더 많은 기술이 등장합니다. 정말 좋은 소식입니다. 데이터 스트리밍은 여기에 머무르며 성장할 것입니다.

일부 제품은 Apache Kafka 생태계와 상호 보완적이고 경쟁력이 있기 때문에 데이터 스트리밍 환경의 일부로서 이러한 상황을 탐구하기는 어렵습니다.

 

 

일부 데이터 스트리밍 기술은 카프카와 경쟁력

경우에 따라 Apache Kafka 또는 다른 기술이 올바른 선택인지 평가해야 합니다. 다음은 몇 가지 오픈 소스 및 클라우드 경쟁업체입니다: 

아마존 키네시스: 데이터를 AWS 데이터 저장소로 섭취. 특정 문제에 대한 성숙한 제품. AWS에서만 사용 가능.

구글 클라우드 펍 서브: GCP 데이터 저장소로 데이터 섭취. 특정 문제에 대한 성숙한 제품. GCP에서만 사용 가능.

프라베가와 헤이즐캐스트 제트: 스트림 처리를 위한 오픈소스 프레임워크. 오픈소스 세계에는 카프카와 플링크 이상의 것이 있다는 것을 보여주기 위해 이것들을 추가했습니다. 그러나 시장의 견인력은 거의 보이지 않습니다.

Amazon Kinesis Google Cloud PubSub은 특정 클라우드 스토리지에 데이터를 "그냥" 수집하고 싶다면 우수한 클라우드 서비스입니다. 다른 사용 사례가 없다면 이러한 도구가 올바른 선택일 수 있습니다(규모에 맞는 가격 책정 및 기타 제한 사항이 적합하다면).

아파치 카프카는 훨씬 더 유연하고 전략적인 데이터 스트리밍 플랫폼입니다. 많은 프로젝트가 여전히 데이터 섭취로 시작하고 첫 번째 파이프라인을 구축합니다. 그러나 다른 데이터 싱크에 동일한 이벤트 스트림에 액세스하거나 카프카 스트림 또는 아파치 플링크와 같은 도구를 사용하여 강력한 스트림 처리를 제공하는 것은 상당한 이점입니다.

 

 

일부 데이터 스트리밍 기술은 카프카와 상호 보완적

각 스트림 처리 프레임워크 또는 클라우드 서비스에는 트레이드오프가 있습니다. 모든 사용 사례에 적합한 단일 크기는 없습니다. 다음은 Apache Kafka를 보완하는 몇 가지 성숙하고 새로운 기술입니다: 

Apache Flink: 선도적인 오픈 소스 스트림 처리 프레임워크인 Kafka Streams(Apache Kafka의 일부)와 함께. 고급 기능에는 ANSI SQL 지원 및 스트림 및 배치 워크로드를 위한 API가 포함됩니다.

디코딩 가능 및 이머록: 두 개의 새로운 클라우드 서비스. 매우 초기 단계. 아파치 플링크 위에 데이터 스트리밍 클라우드 서비스를 구축하는 것은 탁월한 전략적 조치라고 생각하기 때문에 여전히 추가했습니다. 기업의 기존 카프카 인프라와 결합하면 엄청난 잠재력이 있습니다.

스파크 스트리밍: 아파치 스파크의 스트리밍 부분. 나는 여전히 100% 확신할 수 없습니다. 카프카 스트림과 아파치 플링크는 스트림 처리를 위한 더 나은 선택입니다. 그러나 기업에서 스파크 클러스터의 거대한 설치 기반은 채택을 넓힙니다.

데이터브릭스: 아파치 스파크 뒤의 선도적인 공급업체. 실시간 데이터 비즈니스에 더 많이 참여하거나 적어도 더 많은 것을 시도하고 있습니다. 나는 플랫폼을 좋아하지만 "하나의 빅 데이터 호수 내에서 모든 것을 수행"하는 것에 대한 레이크하우스 이야기에 대해 확신할 수 없습니다

 

 

카프카 없이 아파치 플링크와 스파크 스트리밍

이러한 기술의 대부분은 아파치 카프카를 보완합니다.

그러나 Flink와 같은 스트림 처리 프레임워크나 Databricks와 같은 클라우드 서비스는 Kafka를 섭취 계층으로 필요하지 않습니다. 다른 옵션도 있습니다...

Flink, Spark 등은 다른 스트리밍 플랫폼에서 데이터를 소비하거나 데이터 저장소에서 직접 데이터를 소비할 수 있습니다. 그러나 후자를 주의하십시오. 스트림 처리를 위해 Flink 또는 Spark Streaming을 사용하면 괜찮습니다. 그러나 S3 개체 저장소에서 데이터를 읽는 것이 가장 먼저 한다면, 그것은 휴식 상태의 데이터입니다. 휴식 상태의 데이터로 스트림 처리를 하지 마십시오.

, 나중에 데이터를 되돌리기 위해 데이터베이스나 데이터 레이크에 데이터를 저장하지 마십시오. 작년에 컨퍼런스와 고객 미팅에서 본 거의 모든 스파크 스트리밍 예 및 사례 연구는 이와 같았습니다. 그것은 스트림 처리를 위한 안티 패턴입니다!

명확히 하기 위해: S3 또는 다른 데이터 저장소에서 Kafka Streams, Flink 등으로 구축된 스트림 처리 애플리케이션으로 데이터를 수집해도 무방합니다. 이 데이터는 풍부화와 같은 작업을 위해 상태 저장 백엔드에 사용될 수 있습니다. 스트림 처리 애플리케이션은 단순히 실시간 데이터 피드에 관한 것이 아닙니다. 또한 이러한 실시간 피드와 (이미 수집된) 기록 데이터를 연관시킵니다. 이는 덜 자주 업데이트되는 메타데이터 또는 비즈니스 데이터(: SAP ERP 시스템에서)에 대한 일반적인 접근 방식입니다.

 

 

데이터 스트리밍 환경에서 Kafka 스트림과 KSQL이 누락된 이유

나는 의도적으로 카프카 스트림과 KSQL을 데이터 스트리밍 환경에 넣지 않았습니다. 둘 다 카프카 네이티브 스트림 처리 기술입니다.

카프카 스트림은 카프카 커넥트와 마찬가지로 오픈 소스 아파치 카프카의 일부입니다. 따라서 아파치 웹 사이트에서 카프카를 다운로드하면 자바 라이브러리가 포함됩니다. 이미 카프카 로고가 있는 데이터 스트리밍 환경에 포함되어 있습니다. 스트림 처리를 위해 카프카 스트림 외에 다른 프레임워크가 필요한지 항상 자문해야 합니다. 중요한 이점은 단일 기술, 공급업체, 인프라입니다.

많은 공급업체가 Kafka Streams Kafka Connect를 제외하거나 집중하지 않고 불완전한 Kafka만 제공합니다. 대신 자체 통합 및 처리 제품을 판매하고자 합니다.

KSQL은 스트리밍 SQL로 스트림 처리를 제공하기 위한 카프카 스트림 위에 있는 추상화 계층입니다. 카프카 네이티브도 좋은 도구입니다. 컨플루언트 커뮤니티 라이센스가 제공되며 무료로 사용할 수 있습니다. 따라서 카프카 스트림과 마찬가지로 카프카의 일부로 보고 별도의 제품으로 데이터 스트리밍 환경에 명시적으로 넣지 않았습니다. 그러나 물론 사용 사례를 위해 플링크, 디코드블 등과 비교하여 평가해야 합니다.

 

 

데이터 스트리밍 시대는 이제 시작...

데이터 스트리밍 풍경 2023은 새로운 소프트웨어 범주가 어떻게 등장하고 있는지 보여줍니다. 우리는 여전히 매우 초기 단계에 있습니다. 고객, 파트너 및 커뮤니티와의 대부분의 대화에서 다음과 같은 진술을 듣습니다:

그 가치를 알고 있지만, 아직 거기에 있지 않습니다. 우리는 이제 첫 번째 데이터 스트리밍 파이프라인을 구축하는 것으로 시작하여 향후 몇 년 동안 더 고급 스트림 처리를 추가할 로드맵을 가지고 있습니다.

데이터 스트리밍은 패러다임의 변화이기 때문에 긴 여정입니다. 이벤트 스트리밍에 대한 Gartner Magic Quadrant와 데이터 스트리밍에 대한 Forrester Wave도 머지않은 장래에 볼 수 있기를 바랍니다. 새로운 범주를 만드는 데는 시간이 걸립니다

반응형