[BIG DATA] 머신러닝을 위한 오픈 플랫폼 CDSW(Cloudera Data Science Workbench)

빅데이터 오픈 플랫폼 중 하나인 머신러닝을 위한 CDSW(Cloudera Data Science Workbench)에 대해 살펴보겠습니다. 엔터프라이즈 용으로 구축된 CDSW인 안전한 셀프 데이터 사이언스 플랫폼에 대한 소개 그리고 탄생 배경, 개요까지 짚어보겠습니다. 

 

 

 

CDSW(Cloudera Data Science Workbench)

 

CDSW는 다수의 확장 가능한 ML응용프로그램을 구축, 트레이징, 배포하는 애자일 플랫폼으로, 머신러닝 접근 전략에서 보면 다수의 머신러닝 Model을 생성하여 서비스를 배보할 수 있는 플랫폼을 제공하고 있습니다. 

 

CDSW를 통해 팀 생산성을 촉진하는 기업형 데이터 사이언스 도구로 활용할 수 있으며, 전문가 가이드, 서비스 및 교육을 통해 신속한 가치 파악이 가능하기에 Data Science 도구로서 각광받고 있답니다.

 

 

 

 

CDSW 배경

 

조금 쉽게 이해하기 위해 CDSW가 나온 배경을 한 번 살펴볼까요? CDSW가 필요하게된 이유는 데이터 분석 부서와 <-> 데이터 관리 부서의 다른 시각 차이가 그 배경이 되었는데요. 데이터 분석 부서는 유연성을 가진 분석 환경을 요구하는 반면, 데이터 관리 부서는 보안, 거버전스, 비용 등 관리적 측면의 관점이 주였습니다. 

 

 

 

CDSW는 Docker와 Kubernetes 기능을 이용하여 서로 다른 관점을 모두 충족하게 되었습니다. 그리고 CDSW는 전형적인 Data Science 흐름에 적극 활용할 수 있습니다. 데이터 사이언스 전체 흐름을 보면 먼저 Data Engineering을 통한 데이터 수집과 전처리 -> Data Science 단계에서는 데이터 처리 및 분석과 모델 트레이닝 -> Production 단계에서는 모델을 배포하고 서비스 배치, 리포트를 받아 서비스를 제공하는 단계입니다. 이처럼 CDSW는 Data Sscience부터 Producing 까지 데이터 전 영역에 도움을 주는 솔루션입니다. 

 

 

 

CDSW 개요 

 

CDSW는 오픈플랫폼으로 Cloud 와 On-premise 어느 환경에서나 설치가 가능합니다. 연구부터 배포까지 분석 프로젝트의 전체 라이프 사이클을 지원하며 Git 등을 이용하여 팀 협업이 손쉽게 가능합니다. 또한, Spark, R, Python 등 다양한 분석 실행 화경을 제공합니다. 이로 인해 엔터프라이즈에서 요구하는 복잡한 니즈를 모두 수용할 수 있으며, 유연한 Data Science 환경을 경험할 수 있습니다. 

 

 

 

엔터프라이즈 환경을 지원하는 CDSW는 셀프-서비스 데이터 분석 플랫폼을 지향합니다. 분석가에게는 각자에 맞는 분석 환경을 제공하고 각 분석가는 Workbench로 분석 스크립트를 작성, Job을 통한 자동화, 실험(Experiments)을 통한 Model Training과 평가 Model 기능을 통해 머신 러닝 프로젝트 수행을 가속화하여 서비스를 배포할 수 있습니다.

 

 

 

 

 

 

 

 

 

클라우데라(CLOUDERA)

 

여기서 잠깐! CDSW 제공하는 클라우데라에 대해 잠깐 알아보고 가도록 하겠습니다:) 

클라우데라는 지난 1월 호튼웍스(HORTONWORKS)와 합병 이 후  오픈소스 데이터 솔루션 분야에서는 글로벌 넘버원 기업으로 굳건히 자리를 잡은 기업으로 성장하였습니다. 최신 오픈소스 기술을 기반으로 첨단 데이터 관리, 분석, 머신 러닝 플랫폼 등을 제공하고 있습니다.

 

클라우데라 엔터프라이즈는 현존하는 데이터 플랫폼 중 가장 빠르고 손쉬우며 안정적인 보안성을 제공하는 제품을 공급하고 있습니다. 이러한 클라우데라 솔루션을 통해 대량의 데이터를 효율적으로 수집, 보관, 처리 및 분석하여 첨단 분석 기능을 활용할 수 있습니다. 

 

클라우데라가 제공하는 플랫폼은 100% 오픈소스 기반이기에 이전보다 훨씬 저렴한 금액으로 구축이 가능하며, 이를 기반으로 빠르고 유연한 비즈니스 의사 결정이 가능합니다. 그리고 총판 파트너인 코오롱베니트와 함께라면 최적의 솔루션 구축이 가능하답니다.

 

 

  • 김기백 2020.06.25 12:15 댓글주소 수정/삭제 댓글쓰기

    CDSW CDP CDF 등 플랫폼 없이 개별적으로 오픈소스 기반이기에 임팔라 스파크 NIFI 등을 다운받아 사용할 수 있나요
    라이센스 비용이 상당해서 도입하기 꺼려집니다.

    • 코오롱베니트 2020.06.29 10:00 댓글주소 수정/삭제

      아파치 오픈소스이기에 무료로 사용은 가능합니다. 그러나 설치 시 서비스 별 dependency 설정을 모두 개별적으로 해줘야하기 때문에 어려운 부분이 많이 있습니다.
      관리측면에서도 서비스 모니터링, 운영 관점에서 많은 제약이 있습니다. 그리고 CDSW는 클라우데라 자체 분석 플랫폼이기 때문에 무료로 사용 불가합니다.