Katalog Danych (Data Catalog)

W dzisiejszym świecie dane odgrywają kluczową rolę, jednak ich interpretacja może być utrudniona ze względu na ilość różnorodność struktur danych (ustrukturyzowane/nieustrukturyzowane dane).

Według metodologii DAMA, aby uporządkować ten potencjalny ‘chaos’, potrzebujemy jednolitego i zaufanego źródła informacji, z którego wyciągniemy wszystkie interesujące nas informacje w wygodny i przyjazny sposób – takim rozwiązaniem jest m.in ‘Katalog Danych‘, który zawiera informacje pochodzące zarówno z tzw. ‘Słowników Biznesowych’ (Business Glossary) jaki i obszaru zarządzania ‘Metadata’ a które to obszary są częścią tzw. ‘DAMA Wheel

Jednym z obszarów jest obszar ‘METADATA’, który to pokrywa m.in obszar ‘Słowników Biznesowych’ (Business Glossary)

Tutaj warto przypomnieć, iż ‘Słowniki Biznesowe’ oraz ‘Metadata‘ są również jednym z elementów ‘Diagramu Kontekstowych’ (Generic Contect Diagram) , które służą pomocą przy wdrażaniu poszczególnych obszarów z punktu widzenia potrzebnych środków w zakresie: Ludzi, Procesów i Technologii

20230818_dama_2

Co to jest Katalog Danych?

Katalog Danych jest to scentralizowane rozwiązanie, które umożliwia Waszej firmie dostęp do najbardziej aktualnych i wiarygodnych informacji biznesowych. Winien być traktować jako “produkt”, posiadający swojego dedykowanego właściciela, który dba o cały cykl życia tego produktu

Dzięki Katalogowi Danych, zarówno użytkownicy biznesowi, jak i techniczni, mogą łatwo wyszukiwać, żądać i otrzymywać zestawy danych potrzebne do codziennych zadań biznesowych, zarządzania projektami oraz generowania raportów analitycznych. Katalog Danych gwarantuje przejrzystość definicji danych i prezentuje szczegóły dotyczące zasobów w łatwo przyswajalny sposób.

Ponadto Katalog Danych może być powiązany z innymi elementami zarzadzania danymi takimi jak: Jakość Danych (Data Quality) , Ochrona Danych Osobowych (Data Privacy) , Proces Przepływu Danych (Data Lineage), Zarządzanie Danymi Podstawowymi i Referencyjnymi (MDM / RDM) lub Procesami Biznesowymi (BPM) etc., dlatego Katalog Danych powinien być kluczową częścią ‘Strategii Danych’ kążdej organizacji.

Katalog Danych może być utrzymywany w sposób ‘ręczny’, albo w pól-zautomatyzowany, aby odzwierciedlać to co dzieje się z danymi w przedsiębiorstwie.

Dlaczego potrzebujemy Katalogu Danych ?

  1. Do wydajnego wyszukiwania i filtrowania informacji – katalog danych umożliwia łatwe wyszukiwanie interesujących nas informacji takich jak: definicje, właścicielstwo systemów i danych na różnych poziomach szczegółowości
  2. Do efektywniejszych czynności związanych z dbałością o jakość danych – dzięki informacją zawartymi w Data Katalogu jesteśmy w stanie zrozumieć, czego dotyczy zidentyfikowany błąd, kto jest właścicielem, gdzie się pojawia, a obsługa wymiany informacji pomiędzy użytkownikami zwiększa efektywność i komfort pracy z danymi
  3. Do zwiększenie świadomości danych – szeroki dostęp do danych dla całej organizacji eliminuje potencjalną możliwość duplikowania danych i przyspiesza procesy wewnętrzne umożliwiając lepszą współpracę w organizacji

Jak działa Katalog Danych ?

Katalog Danych może łączyć się z różnymi źródłami danych, wyodrębniać z nich potrzebne informacje (metadata) oraz przechowywać je w uporządkowany sposób, co ułatwia filtrowanie i lokalizowanie szukanych elementów. Wyodrębnione informacje nazywamy ‘metadata’, które często są określane jako „dane o danych”.

Jakie rodzaje ‘metadata’ Katalog Danych może przechowywać

Przykłady ‘metadata’ określanych jako ‘biznesowe’:

  • Terminy i definicje biznesowe
  • Tytuły i opisy
  • Tagi zdefiniowane przez użytkownika
  • Zasady biznesowe
  • Właścicielstwo danych
  • Numer incidentu związanego z problemem danych

etc.

Przykłady ‘metadata’ określanych jako ‘techniczne’:

  • Typy danych zdefiniowane w źródle danych
  • Nazwy schematów, partycji, tabel, kolumn i atrybutów
  • Informacje o kluczach
  • Prawa dostępu, grupy i role
  • ID modelu ‘przepływu danych’

etc.

DMBOK wielokrotnie odnosi się do pojęcia ‘metadata ‘np. w sekcji ‘6.2 Documentation of Metadta Solutions’ , a przez to do ‘Katalogu Danych’, który może być również zawany ‘Repozytorium Metadata’, przyczym tutaj nazewnictwo jak i sama implementacja zależy od danej firmy i ogólnie przyjętych zwyczajów

Przykład użycia Katalogu Danych

Automatyzując Katalog Danych możemy pobierać informacje z różnych dostępnych żródeł np. Snowflake, a nastepnie przypisać właścicielstwo danych, połączyć wprowadzone definicje bezpośrednio z zaimportowanymi danymi (business & technical metadata), zaimplementować reguły potrzebne do monitorowania jakości danych, śledzić i reagować na zidentyfikowane anomalie przez model uczenia maszynowego (ML), wprowadzić pożądane klasyfikacje danych, zarzadzać przydzielonymi zadaniami, a następnie zintegrować zebrane informacje z innymi platformami np.

  • narzędzia raportujące (BI)
  • narzedzia umożliwiające śledzenie przepływu danych (Lineage)
  • narzedziami typu Export – Transfer – Load (ETL)
  • platformami do zarządzania ‘danymi jako produkt’ (data product)

etc.

budując w ten sposób ‘Fabrykę Danych’ (Data Factory)

Wykorzystanie danych z Katalogu Danych wraz z diagramem ‘Przepływu Danych’

Z uwagi na fakt, iż aby w pełni zrozumieć i wykorzystać wiedzę w zakresie tego, co dzieje się z naszymi danymi, Katalog Danych powinien być w pełni zintegrowany z innymi narzędziami do zarządzania danymi jak np. do zarządzania Jakością Danych, Śledzenia Przepływu Danych, Raportowania bądź zarządzania danymi z punktu widzenia RODO (GDPR).

Warto zwrócić uwagę na fakt, iż obecnie niektóre Katalogi Danych posiadają powyższe funkcjonalności zaimplementowane jako dodatkowe moduły, ale wciąż niektóre elementy mogą wymagać zewnętrznych integracji.

Mając zintegrowane informacje jesteśmy w stanie w sposób bardziej efektywny m.in rozwiązywać problemy związane z jakością danych.

Podsumowanie

Patrząc na rosnące zapotrzebowanie na demokratyzację danych i udostępnianie danych, Katalog Danych dobrze wpasowuje się w ten koncept, włączając w to takie funkcjonalności jak przygotowywanie danych, monitorowanie jakości danych, a także klasyfikację danych opartej na sztucznej inteligencji.

Obecnie na rynku jest wiele rozwiązań na różnym stadium rozwoju produktu, aczkolwiek cel jest jeden: ‘Make the data great again’ ! 🙂

#DAMAPoland, #DAMA, #DataGovernance, #DataQuality, #DataLineage, #DataUniverse, #DataManagement

One Response

Add a Comment

Your email address will not be published. Required fields are marked *

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.