[BIG DATA] 머신러닝을 위한 오픈 플랫폼 CDSW 특장점

이전 글에서 CDSW의 개요를 짚어봤다면 오늘은 CDSW 특장점과 주요 아키텍처에 대해 살펴보겠습니다.

 

 

 

CDSW 특장점

 

<source: CLOUDERA>

 

CDSW는 독립된 프로젝트 기반으로 생성하여 분석 환경을 제공하며 각 독립된 환경에서는 Python, R, Scala 등 다양한 언어를 Workbench를 통하여 분석 스크립트를 작성하고 분석을 진행할 수 있습니다.  

 

Job은 경량화된 Job model pipline scheduling을 통한 model을 트레이닝 모니터링하여 job 히스토리를 남길 수 있습니다. 실험(Experiments) 단계에서는 모든 훈련에 필요한 환경 구성 파라미터, 의존성, 모델 코드의 스냅샷 버전을 생성이 가능하게 되었습니다. 마지막 Model 단계에서는 데이터 분석과 만드는 model을 REST API형태로 배포 및 서비스를 제공하게 됩니다. 

 

 

 

 

CDSW 아키텍처

 

CDSW는  Docker와 Kubernetes를 기반으로 분석가 별로 각자 독립된 분석 환경을 제공합니다. 컨테이너 기반의 데이터 분석 환경으로 격리된 채로 재현 가능한 사용자 환경을 경험해보실 수 있습니다.

 

이러한 환경 하에 CDSW는 GPU 공유를 통해 사용이 가능하며 CDH(Cloudera Data Hadoop)에 있는 Impala, Hadoop, Spark 기능을 사용할 수 있습니다. 

 

CDSW는 Edge Node에 설치한 CDSW를 통해 하둡 플랫폼 내에 저장된 데이터에 접근이 가능하며, GPU 기반의 딥러닝모델 트레이닝 환경을 제공합니다.  또한, CDSW 기존의 Hortonworks도 지원하는데, CDSW on HDP로 저장된 데이터에 접글할 수있게 됩니다. Hortonworks 데이터 플랫폼 기반으로 CDSW 기능을 사용할 수 있습니다.

 

 

<source: CLOUDERA>

 

CDSW 포탈 화면입니다.

CDSW를 사용하고 있는 Sessions 수, Job, Model, CPU 사용 현황을 볼 수 있으며, 생성된 프로젝트 목록을 할 수 있습니다.  해당 프로젝트의 현황을 볼 수 있는 CDSW 포탈 화면은 간편한 사용자 지원 환경에서 노출됩니다.

 

 

CDSW 데모 화면

 

이 외에도 CDSW API 사용량 등을 매뉴얼하게 만들 수 있습니다. 또한 레포트 기능을 통해 분석 결과 공유까지 가능하며 소스 코드 리스트까지 확인할 수 있습니다. 그리고 CDSW는 Workbence 를 코드 작성이 가능하며, 실시간으로 데이터 분석 환경을 실행하여 코드를 테스트 분석을 진행할 수 있습니다.