본문 바로가기

MLOps 시스템 구축 연구 기록

데이터 시스템

데이터 파이프라인 비교 

  CDC 파이프라인 로깅 파이프라인 ETL 파이프라인
목적 데이터베이스 데이터
실시간 동기화
로그성 비정형 데이터 수집 외부 데이터의 이전 적재
특징 손쉬운 사용
데이터베이스 데이터와 동일한
형식의 데이터 이관 용이
형태가 없는 데이터, 큰 대역폭의 데이터 전송에 용이 CDC 파이프라인 및
로깅 파이프라인 이외의
모든 데이터 이전에 적용
데이터 테이블, 정형 데이터 비정형 데이터
주로 텍스트
정형, 비정형 데이터
CSV, 오디오, 비디오,
이미지 etc
제약 데이터베이스 외의 지원불가
데이터베이스 binlog/WAL log
요구
데이터의 무결성 검증 어려움
데이터 후처리 비용 높음
데이터 전처리 비용 높음
도입 및 관리 비용 높음

 

Google이 제시한 ML Pipeline 내의 데이터 시스템

 

피처 스토어

 

  오프라인 피처 온라인 피처
목적 모델 학습 및 검증 단계에서 
사용하는 피처를 보관
모델 서비스 단계에서 사용하는
피처를 보관
특징 모델 학습에 필요로 하는 데이터 취합
(서비스 로그 데이터로부터 피처 적재)
모델 추론에 필요로 하는 데이터 업데이트
(서비스 피처를 특정 시간, 길이 동안 유지)
소스 외부 업로드 학습 데이터
서비스 로그 데이터 (Entire data)
이전 추론에서 사용한 데이터
초기 Load된 오프라인 피처 일부
제약 데이터 처리가 비교적 느림 데이터의 정밀한 필터 적용 어려움
Time series 데이터에 부적합