데이터 파이프라인 비교
CDC 파이프라인 | 로깅 파이프라인 | ETL 파이프라인 | |
목적 | 데이터베이스 데이터 실시간 동기화 |
로그성 비정형 데이터 수집 | 외부 데이터의 이전 적재 |
특징 | 손쉬운 사용 데이터베이스 데이터와 동일한 형식의 데이터 이관 용이 |
형태가 없는 데이터, 큰 대역폭의 데이터 전송에 용이 | CDC 파이프라인 및 로깅 파이프라인 이외의 모든 데이터 이전에 적용 |
데이터 | 테이블, 정형 데이터 | 비정형 데이터 주로 텍스트 |
정형, 비정형 데이터 CSV, 오디오, 비디오, 이미지 etc |
제약 | 데이터베이스 외의 지원불가 데이터베이스 binlog/WAL log 요구 |
데이터의 무결성 검증 어려움 데이터 후처리 비용 높음 |
데이터 전처리 비용 높음 도입 및 관리 비용 높음 |
Google이 제시한 ML Pipeline 내의 데이터 시스템
피처 스토어
오프라인 피처 | 온라인 피처 | |
목적 | 모델 학습 및 검증 단계에서 사용하는 피처를 보관 |
모델 서비스 단계에서 사용하는 피처를 보관 |
특징 | 모델 학습에 필요로 하는 데이터 취합 (서비스 로그 데이터로부터 피처 적재) |
모델 추론에 필요로 하는 데이터 업데이트 (서비스 피처를 특정 시간, 길이 동안 유지) |
소스 | 외부 업로드 학습 데이터 서비스 로그 데이터 (Entire data) |
이전 추론에서 사용한 데이터 초기 Load된 오프라인 피처 일부 |
제약 | 데이터 처리가 비교적 느림 | 데이터의 정밀한 필터 적용 어려움 Time series 데이터에 부적합 |
'MLOps 시스템 구축 연구 기록' 카테고리의 다른 글
초분광 시스템의 트렌드와 최신 경향은 어떠한가. (2023-2024) (0) | 2024.12.10 |
---|---|
모델 학습 파이프라인 24-11-11 (0) | 2024.11.11 |