메타데이터 (Metadata) 관리 및 포맷 JSON, YAML
메타데이터 관리는 데이터의 출처, 형식, 구조 및 기타 속성에 대한 정보를 체계적으로 관리하는 것을 의미한다. 메타데이터를 통해 데이터의 추적 가능성을 높이고, 데이터 검색과 사용을 용이하게 할 수 있다. 메타데이터 관리는 다음 단계들로 구성된다.1. 메타데이터의 정의메타데이터의 종류와 구조를 정의해야 한다. 일반적으로 메타데이터의 종류와 구조에는 데이터 형식, 구조, 크기, 용도, 소유자, 수집 및 갱신 주기, 처리 시간 등이 있다.2. 메타데이터 수집메타데이터를 수집하는 방법을 정의한다. 자동화 도구를 사용해 메타데이터를 수집하거나, 데이터 소스에서 직접 수집할 수 있다.자동화 도구: Apache Atlas, Google Data Catalog 등직접 수집: 수작업으로 메타데이터를 입력3. 메타데이터..
2024. 11. 13.
데이터옵스 (DataOps)와 데이터 파이프라인 (Data Pipeline)
데이터옵스 (DataOps)데이터 운영을 최적화하는 방법론을 말하며, 데이터 파이프라인의 효율성과 품질을 향상시키는 것이 목표임.데이터 파이프 라인 자동화, 지속적인 데이터의 배포, 데이터 파이프라인 모니터링, 데이터 품질 관리 등이 포함됨데이터 파이프라인데이터옵스에서 데이터 파이프라인은 데이터의 수집, 처리, 분석, 저장, 배포 과정을 자동화하고 최적화하는 일련의 단계들임.데이터 수집다양한 데이터 소스에서 데이터를 수집하고, 데이터를 정기적으로 추출하거나 실시간으로 수집할 수 있음데이터 저장데이터 레이크 : Raw 데이터를 저장하는 대용량 저장소데이터 웨어하우스 : 정제된 데이터를 저장하고, 분석 및 보고 목적으로 사용할 수 있는 저장소데이터 처리데이터 정제 : 결측값 처리, 중복 제거, 데이터 정규화..
2024. 11. 13.