Na pierwszy rzut oka mogłoby się wydawać, że nie ma nic kontrowersyjnego w stwierdzeniu: „chcę mieć w swojej organizacji dane wysokiej jakości”. Podejmując działania w tym kierunku musimy odpowiedzieć na kilka pytań, m.in: w jaki sposób mierzyć jakość danych? Kiedy jest ona wystarczająco dobra i jakie mierniki należy wziąć pod uwagę?
Po co nam wymiary jakości danych?
Rozważmy prosty przykład. W naszym systemie CRM, wykorzystywanym jako główne źródło wiedzy o kliencie, każdy rekord klienta ma uzupełnione prawidłowe dane osobowe (imię, nazwisko) i kontaktowe (adres, nr telefonu, e-mail…). Czy to oznacza, że te dane są wysokiej jakości?
Niekoniecznie. Adresujemy tylko jeden aspekt jakości danych – dokładność (dane są zgodne z rzeczywistością / zbiorem referencyjnym). Wiemy też, że nie ma braków w podstawowych atrybutach opisujących klienta – ale dane wciąż mogą nie być kompletne, jeśli nie dla wszystkich klientów zostały one wprowadzone (lub zaimportowane) do systemu. Nie wiemy też, czy w danych klientów nie ma duplikatów (unikatowość)…
Widzimy zatem, że określenie (i poprawa!) poziomu jakości danych wymaga doprecyzowania, w jakiej osi analizy się poruszamy. Z pomocą przychodzą wymiary jakości danych. Data Management Body of Knowledge (DMBOK) definiuje je po prostu jako „mierzalne cechy lub charakterystyki danych”. Wymiary jakości danych określają ramy, które służą do wyznaczenia konkretnych, mierzalnych wskaźników, które możemy wdrożyć i monitorować. Słowo wymiar pojawia się nie bez powodu – nawiązuje do fizycznych właściwości obiektów, takich jak wysokość, szerokość, głębokość. Co ważne, wymiary mogą dotyczyć zarówno modelu danych (encje, atrybuty) jak i samych wartości.
Jakie wymiary jakości danych wyróżniamy?
Trzy wymiary jakości danych wymieniliśmy już przy okazji przykładu z danymi klientów: dokładność, kompletność, i unikatowość. Należy zaznaczyć, że nie ma jednej, oficjalnej listy wymiarów. Przykładowo, w publikacji2 holenderskiego oddziału DAMA (DAMA NL) wyróżniono ich aż 65! Niezależnie od tego jak je nazwiemy i podzielimy, wymiary odpowiadają na podobne pytania: czy mamy wystarczająco dużo danych, czy są one prawidłowe, jak dobrze pasują do siebie, itp. Podstawowe wymiary jakości danych zdefiniowane w DMBOK to:
- Dokładność (Accuracy): Dokładność odnosi się do stopnia, w jakim dane poprawnie odzwierciedlają rzeczywistość. Często jest trudna do zmierzenia; można to robić m.in. poprzez powtórne zbieranie danych, ręczne potwierdzenie ich poprawności (dane klienta podczas rozmowy z klientem), lub porównując je do referencyjnych źródeł (baza PESEL, REGON itp.).
- Kompletność (Completeness): Kompletność oznacza, że wszystkie wymagane dane są obecne. Można ją mierzyć na poziomie zestawu danych, rekordu lub kolumny. Ważne jest, aby określić, które dane są obowiązkowe, a które opcjonalne.
- Spójność (Consistency): Spójność oznacza, że wartości danych są jednolite w obrębie jednego zestawu danych oraz między różnymi zestawami. Może to dotyczyć zarówno formatowania, jak i relacji między danymi w różnych rekordach.
- Integralność (Integrity): Integralność danych odnosi się do ich kompletności, dokładności i spójności. Obejmuje m.in. integralność referencyjną, która zapewnia, że klucze referencyjne są zgodne między powiązanymi rekordami.
- Rozsądność (Reasonability): Rozsądność ocenia, czy rozkład danych jest zgodny z oczekiwaniami. Na przykład, czy rozkład sprzedaży w regionie geograficznym jest zgodny z wiedzą o klientach w tym obszarze w oparciu o rynkowe benchmarki/raporty.
- Aktualność (Timeliness): Miary aktualności są rozumiane w kontekście oczekiwanej zmienności, czyli tego, jak często dane prawdopodobnie będą się zmieniać i z jakich powodów. Aktualność danych odnosi się do tego, czy wartości danych są najbardziej aktualną wersją informacji.
- Unikalność (Uniqueness): Unikalność zapewnia, że każdy podmiot w zestawie danych występuje tylko raz.
- Ważność (Validity): Ważność oznacza, że wartości danych są zgodne z określonymi regułami. Mogą to być wartości z określonego zbioru, zakresy wartości lub wartości spełniające określone reguły biznesowe.
Szersze spojrzenie na jakość danych
Wiemy już, że jakość danych należy mierzyć przez pryzmat różnych wymiarów. Jeśli więc podejmiemy działania, które pozwolą nam poprawić jakość w opisanych powyżej wymiarach, zbliżymy się do osiągnięcia wysokiej jakość danych…
…chyba, że znajdziemy się w takiej sytuacji jak Dilbert:
Nawet najbardziej dokładne, kompletne, i spójne dane trudno będzie nazwać danymi wysokiej jakości, jeśli ich używalność będzie niska (np. z powodu braku metadanych i możliwości interpretacji). Niektóre charakterystyki wymiarów mogą być mierzone w sposób obiektywny (dokładność, kompletność), a inne silnie zależą od kontekstu, a nawet konkretnych przypadków użycia. Te „miękkie” wymiary jakości danych (za DMBOK) to m.in.:
- Użyteczność (Usability): Czy dane są zrozumiałe, proste, istotne, dostępne, łatwe do utrzymania i na odpowiednim poziomie precyzji?
- Elastyczność (Flexibility): Czy dane są porównywalne i kompatybilne z innymi danymi? Czy posiadają przydatne grupowania i klasyfikacje? Czy można je przekształcić na inne cele? Czy są łatwe do przekształcania?
- Zaufanie (Confidence): Czy są wdrożone procesy zarządzania danymi, ochrony danych i bezpieczeństwa danych? Jaka jest reputacja danych i czy są one zweryfikowane lub możliwe do zweryfikowania?
- Wartość (Value): Czy istnieje uzasadniony stosunek kosztów do korzyści związanych z danymi? Czy są one optymalnie wykorzystywane? Czy zagrażają bezpieczeństwu lub prywatności ludzi, bądź odpowiedzialności prawnej przedsiębiorstwa?
Łatwo wyobrazić sobie sytuację, w której te same dane mogą mieć inną użyteczność z punktu widzenia różnych interesariuszy. Menedżer sprzedaży może być zainteresowany uśrednioną kalkulacją wartości sprzedanych produktów (YTD) per klient i nie potrzebuje do tego precyzji do grosza – dopuszczalne jest pewne zaokrąglenie. Z drugiej strony, pracownik działu księgowego potrzebuje absolutnej precyzji i szczegółowych danych odnośnie każdej transakcji.
Dyskutując o jakości danych zawsze bierzmy pod uwagę istotność danych. Tych w organizacjach jest ogrom – należy skupić się na tych, które są najważniejsze i mają największy wpływ (jakkolwiek go zdefiniujemy) na biznes i naszych interesariuszy. Bez uwzględnienia ich perspektywy, możemy mieć mnóstwo „dobrych”, ale nieprzydatnych danych. Ważne jest również określenie pożądanych wartości dla mierników w różnych wymiarach jakości danych, gdzie dane będą wystarczająco dobrej jakości dla naszych potrzeb. Nie chodzi bowiem o osiągnięcie najwyższej jakości danych jako cel sam w sobie, lecz takiego poziomu, który pozwoli spełnić nasze wymagania…