해당 포스트는 itdaily 기획특집 중 하나인 데이터 계보(Data Lineage) 관리에 대해 정리한 내용을 소개합니다.
데이터 계보(Data Lineage) 관리?
- 조직 내에서 데이터의 수집과 저장, 이동과 통합, 분석, 폐기에 이르는 모든 라이프 사이클을 추적하는 것
- 특정 데이터가 어떤 시스템에서 생성됐고 어느 DB에 저장됐는지, 이후 어떤 과정을 거쳐 현재는 어디서 활용되고 있는지 등을 투명하게 확인해 실시간으로 파악하는 것을 목적으로 함
데이터 리니지 절차
- 선제적 도입보다는 데이터 거버넌스 수립부터 해야 함
- 데이터 거버넌스는 조직 내에서 데이터의 정확성을 확보하고 품질을 높여 가치를 창출하기 위해 수행하는 모든 기술과 정책을 의미
- 국내에서 데이터 거버넌스를 갖추기 위해 가장 먼저 시작한 것은 메타데이터 관리였으며, 다양한 시스템에서 생산되는 '값'들을 가치 있는 '데이터'로 만들기 위해 해당 값의 성질을 정의하는 요소
- 메타데이터를 관리함으로써 특정한 값의 나열에 공통된 의미가 부여되고, 이를 손쉽게 결합하거나 조직 내에서 공유하면서 가치를 창출할 수 있으며, 전사적인 데이터 분석을 위해서는 반드시 갖춰져 있어야 함
관련 링크
[1] [데이터 리니지①] 데이터 생애 추적 위해 거버넌스부터 갖춰야
[2] [데이터 리니지②] 현행 시스템 파악이 우선…분명한 구축 목표 수립 필요