JST_DAMA

Ład danych w administracji samorządowej – wyzwania, możliwość, konieczność

Wnioski i materiały z webinarium przygotowanego przez: Jarosław Banaś, Karol Berłowski, Andrzej Burzyński, Arkadiusz Dąbkowski, Filip Dzięcioł, Wojciech Łachowski w ramach współpracy DAMA Chapter Poland oraz sieci Analityków danych miejskich prowadzonej przez Instytut Rozwoju Miast i Regionów.

Niewidzialna ręka urzędów JST

Ogromne wolumeny danych wpływające na organizację życia każdego mieszkańca w Polsce są przetwarzane w urzędach Jednostek Samorządu Terytorialnego (JST) czyli w urzędach miast, województw, powiatów, gmin. JST gromadzą i przetwarzają dane nie tylko w zakresie bezpośrednio dotyczącym osób fizycznych np. danych meldunkowych, ale prawie w każdym zakresie dotyczącym naszego otoczenia np. architektury, transportu, edukacji, ochrony środowiska, bezpieczeństwa, wodociągów i wielu innych. Dane te służą podejmowaniu decyzji wpływających na organizację życia lokalnej społeczności np. dotyczące lokalizacji szkoły lub tras autobusów. Wybrane dane są przekazywana do rejestrów rządowych stanowiąc podstawę do decyzji na poziomie całego kraju lub Unii Europejskiej. Wybrane dane są udostępniane publicznie stanowiąc źródło referencyjnych danych dla wielu firm. Przetwarzanie danych w JST jest uregulowane licznymi branżowymi przepisami.

Ile Ładu danych jest w JST?

Według badań Unii Europejskiej w 2024 r. Polska zajęła 2 miejsce w badaniu dojrzałości otwierania danych państw UE, co może świadczyć znakomitym zarządzaniu danymi w polskiej administracji publicznej.

Źródło: Open data in Europe 2024 | data.europa.eu

Nieliczne dostępne krajowe badania zarządzania danymi w JST (naukowe oraz kontrole Najwyższej Izby Kontroli) koncentrują się najczęściej na zarządzaniu bezpieczeństwem informacji. Zgodnie z rozporządzeniami w sprawie Krajowych Ram Interoperacyjności od  2012 r. wszystkie JST powinny posiadać wdrożone Systemy Zarządzania Bezpieczeństwem Informacji (SZBI). Mimo tego obowiązku tylko ok 44-75% JST (w zależności od badanej grupy w okresie 2012-2024 r.) wdrożyło SZBI, a przy tym w większości niekompletnie. Wymagania ww. Rozporządzenia dla SZBI są oparte o normę ISO 27001 i są spójne z elementami bezpieczeństwa Ładu Danych opisanymi w Data Management Body of Knowledge (DMBoK). Obszar bezpieczeństwa jest jednym z fundamentów Ładu Danych. Części wspólne wymagań ww. Rozporządzenia oraz Ładu Danych obejmują kluczowe konieczności: określenia ról, przypisania odpowiedzialności, prowadzenia ewidencji (metadanych), określenia zasad dostępu i wielu innych regulacji organizacji pracy z danymi. Powyższe oznacza że badania zarządzanie bezpieczeństwem informacji mogą być wskaźnikiem wdrażania Ładu Danych w urzędach, a ich dostępne wyniki świadczą o znacznych problemach.

O Ładzie danych interaktywnie

Podczas webinarium „Czy Ład Danych w samorządzie jest możliwy?” przedstawiciele DAMA Poland Chapter podjęli dyskusję nad problematyką wdrożenia Ładu Danych w JST. Webinarium zostało zorganizowane 25.04.2025 jako spotkanie w ramach sieci Analityków danych miejskich prowadzonej przez Instytut Rozwoju Miast i Regionów. O potrzebie organizacji spotkania świadczy frekwencja – webinarium zainteresowało 156 przedstawicieli z 70 jednostek samorządowych.

Podczas spotkania Wojciech Łachowski przedstawił korzyści jakie może przynieść Ład Danych w JST, w tym: lepsze decyzje, transparentność, większa efektywność, rozwój usług cyfrowych. Zidentyfikował także główne bariery wprowadzania Ładu Danych w JST analogiczne do generalnych problemów transformacji cyfrowej JST, m.in. brak środków finansowych, opór przed zmianami, problem z zapewnieniem odpowiednich kompetencji, niejasne przepisy, dług technologiczny, zła organizacja pracy. Karol Berłowski rozwinął wybrane problemy. Działalność JST jest wręcz przeregulowana przez liczne, niespójne lub nawet sprzeczne przepisy branżowe. Powyższe jest m.in. przyczyną rozległego problemu ustalenia jednolitej definicji dla jakości danych i operacyjnego właścicielstwa danych. Znaczące nieustrukturyzowanie danych powoduje komplikacje technologiczne zarządzania. JST mają trudność aby pozyskać specjalistów i zaoferować warunki pracy konkurencyjne lub zbliżone wobec sektora prywatnego.

Źródło: opracowanie W. Łachowski, K. Berłowski

Mimo wielu problemów w niektórych urzędach podejmuje sią zaawansowane działania w celu usprawnienia zarządzania danymi czego przykładem jest Urząd Miasta Krakowa

Fundamenty

Podczas spotkania Filip Dzięcioł uwzględnił podstawy teoretyczne wskazując na kluczowe aspekty Ładu Danych wg. DMBoK, takie jak strategia, polityka, standardy, nadzór. Omówił podstawowe obszary Ładu Danych: architektura, modelowanie, składowanie i operacje, bezpieczeństwo, integracja i interoperacyjność, zarządzanie zawartością, dane główne i referencyjne, hurtowanie i analityka, metadane, zarządzanie jakością. Zaznaczył problematykę wdrożeniową w organizacji która już przetwarza dane, przedstawił koncepcję wdrożenia piramidy Aikena oraz wskazał rekomendacje implementacyjne.

Źródło: opracowanie F. Dzięcioł

Sprawdzone rozwiązania

Problemy są podobne w każdym urzędzie. Bazując na swoich doświadczeniach jako eksperta Urzędu Komisji Nadzoru Finansowego, potwierdzonych przykładami z realizacji podobnych projektów w administracji publicznej oraz instytucji finansowych, Andrzej Burzyński przedstawił praktyczne możliwości wdrożenia Ładu Danych. Rozpoczęcie wdrożenia można zacząć od pryncypiów uzgodnionych z kierownikami poszczególnych obszarów merytorycznych. To zapewnia identyfikację rzeczywistych potrzeb i umożliwia określenie ogólnej polityki zarządzania danymi, z której będą wynikały zasady zarządzania danymi. Potrzebne jest uwzględnienie ludzi – ról i odpowiedzialności, potrzeb procesów oraz modelu informacyjnego który usprawni dostęp do potrzebnych danych. Ogólne dokumenty strategiczne są niezbędne do realizacji działań w postaci projektów i usług. Konieczne jest zaangażowanie kadry kierowniczej, w tym najwyższego szczebla, z uwagi na potrzebę wprowadzenia struktury organizacyjnej zarządzania danymi – przypisania odpowiedzialności dla poszczególnych osób za zarządzania danymi, np. w poszczególnych komórkach merytorycznych właścicieli danych. Potrzebne jest powołanie zespołu prowadzącego zagadnienia wdrażania Ładu Danych, skupiającego kompetencje w tym obszarze, stanowiący wsparcie dla pozostałej części jednostki. Zespół wspiera rozwiązywanie szczegółowych problemów np. zarządzania jakością danych. Inne niezbędne działania to m.in. wdrożenie katalogu danych, zidentyfikowanie obszarów tematycznych danych, opracowanie definicji, określenie danych referencyjnych, opracowanie zasad przepływu danych. Wprowadzenie Ładu Danych nie wymaga znaczącego zwiększenia zatrudnienia lub radykalnej zmiany sposobu działania lecz skoordynowania i uspójnienia bieżącej działalności. Wprowadzenie może nastąpić małymi krokami w drodze ewolucji oraz pracy zespołowej całej organizacji. Podmioty przetwarzające dane dla swojej bieżącej działalności mają już pewne elementy organizacyjne które można wykorzystać, zmodyfikować lub rozwinąć w celu osiągnięcia Ładu Danych. Istnieje dużo gotowych metodyk i narzędzi informatycznych wspierających działania. 

Źródło: opracowanie A. Burzyński

Wsparcie jest dostępne

Podczas spotkania omówiono potrzeby zarządzania danymi w JST, problemy oraz ich teoretyczne i praktyczne rozwiązania na prawdziwych przykładach. Przykłady rzeczywistego wdrożenia Ładu Danych w polskiej administracji publicznej stanowią dowód że jest to dostępna i już sprawdzona metoda zarządzania także dla podobnych podmiotów – Jednostek Samorządu Terytorialnego. Arkadiusz Dąbkowski wskazał że gotowe wzorce zarządzania danymi można znaleźć w DMBoK, a kompetencje można rozwijać w społeczności DAMA Poland https://damapoland.org/.

Ład danych odpowiedzią bieżące potrzeby JST

Wobec planowanych zmian w przepisach dotyczących bezpieczeństwa informacji w JST (nowelizacji Ustawy o z dnia 5 lipca 2018 r. o krajowym systemie cyberbezpieczeństwa) wprowadzanie zmian zarządzania danymi w obszarze bezpieczeństwa danych staje się dla JST koniecznością. Zmieniając sposób zarządzania danymi w obszarze bezpieczeństwa, JST muszą wprowadzić wewnętrzne regulacje i podjąć działania skutkujące jednoczesnym wprowadzeniem elementów Ładu Danych. Te elementy stanowią znakomity przyczółek do objęcia Ładem Danych także innych obszarów, jak np. dokumenty strategiczne, jakość, zarządzanie danymi podstawowymi i referencyjnymi. 

źródło: pixabay.com

Nagranie z webinarium jest dostępne na youtube:

Źródła przywoływanych badań:

  • D. Lisiak-Felicka, M. Szmit, Systemy Zarządzania bezpieczeństwem informacji w administracji samorządowej w Polsce – badanie empiryczne, „Przegląd Organizacji”, TNOiK 2023
  • D. Lisiak-Felicka, M. Szmit, Zarządzanie Bezpieczeństwem Informacji w Urzędach administracji samorządowej. Główne problemy, „Współczesny człowiek wobec wyzwań: szans i zagrożeń w cyberprzestrzeni aspekty społeczne-techniczne-prawne”, praca zbiorowa pod redakcją A. Kamińska-Nawrot, J. Grubicka, Uniwersytet Pomorski w Słupsku, Słupsk 2021
  • A. Sobczak, Ład danych jako element wdrażania koncepcji otwartego rządu, Roczniki Kolegium Analiz Ekonomicznych nr 46/2017, Kolegium Analiz Ekonomicznych Szkoły Głównej Handlowej w Warszawie,
  • https://data.europa.eu/en/publications/open-data-maturity/2024
  • https://www.nik.gov.pl/kontrole/P/18/006
  • https://www.nik.gov.pl/kontrole/P/24/004

IMG_0086

🔊 Jak budować organizację opartą na danych?

W najnowszym odcinku podcastu Sofixit „Tworzenie organizacji opartej na danych jako klucz do zwiększenia jakości danych oraz jakości systemów sztucznej inteligencji” przyglądamy się temu, dlaczego data-driven business to przyszłość każdej firmy.

Gościem odcinka jest Paweł Lubiński, Head of Data Science w GC ENERGY, ekspert w dziedzinie sztucznej inteligencji, który dzieli się swoimi spostrzeżeniami na temat kluczowej roli jakości danych w tworzeniu skutecznych systemów AI.

W rozmowie poruszane są największe wyzwania transformacji cyfrowej, sposoby skutecznego wdrażania podejścia data-driven oraz to, jak organizacje mogą wykorzystać potencjał danych, by zwiększyć swoją konkurencyjność. Paweł wskazuje także, jakie korzyści mogą osiągnąć firmy, które potrafią efektywnie zarządzać swoimi danymi i dlaczego jakość danych jest fundamentem dla rozwoju sztucznej inteligencji.

🎧 Posłuchaj i dowiedz się, jak przekształcić swoją organizację w data-driven enterprise!

👉 Spotify

👉 YouTube z napisami po angielsku

Sofixit to firma technologiczna tworząca innowacyjne rozwiązania w obszarze danych i sztucznej inteligencji. Więcej na www.sofixit.pl.

Dama 1600 x 900 px (1)

🔊 Czy każda DATA musi być BIG? 

W tym odcinku podcastu Sofixit „Czy każda DATA musi być BIG? I czy bez zmiany mindset’u możliwe są jakościowe i etyczne projekty w obszarze zarządzania danymi?” poruszany jest temat, jak podejście do danych wpływa na jakość projektów. 

Gościem odcinka jest Wiktoria Gromowa-Cieślik, doświadczona liderka technologiczna, która dzieli się swoimi spostrzeżeniami na temat roli zmiany sposobu myślenia w zarządzaniu danymi oraz znaczenia etyki w projektach data-driven. 

W rozmowie poruszane są pytania, czy każda „data” musi być „big”, jakie wyzwania niesie za sobą podejście do zarządzania danymi w różnych organizacjach oraz dlaczego przyszłość widzi w rozwiązaniach chmurowych. Wiktoria opowiada również o swojej misji wspierania kobiet w technologii i inspiruje do nowego spojrzenia na świat danych. 

To odcinek, który może zmienić sposób myślenia o tym, jak tworzyć bardziej etyczne i wartościowe projekty data-driven. 

🎧 Nie przegap tej inspirującej rozmowy! 

👉 Spotify
👉 YouTube z napisami po angielsku

Sofixit to firma technologiczna tworząca innowacyjne rozwiązania w obszarze danych i sztucznej inteligencji. Więcej na www.sofixit.pl

Dama Łukasz Wróblewski

Jak najlepiej ulokować zespoły danych w organizacji?

:loud_sound:

W najnowszym odcinku podcastu Sofixit przyglądamy się temu zagadnieniu w rozmowie „Gdzie obecnie powinniśmy pozycjonować obszar Data w organizacjach?”

Gościem odcinka jest Łukasz Wróblewski, menadżer z wieloletnim doświadczeniem w obszarze danych, który dzieli się swoimi spostrzeżeniami na temat różnych modeli organizacyjnych dla zespołów odpowiedzialnych za dane. 

Prowadzący omawiają zalety i wyzwania wynikające z umiejscowienia tych zespołów w działach IT, biznesowych lub jako oddzielnej jednostki organizacyjnej. Rozmowa dotyczy także kluczowych kompetencji zespołów danych, roli odpowiedniego sponsora projektów oraz sposobów na efektywne budowanie współpracy między działami biznesowymi a IT. 

To wartościowa rozmowa dla liderów, menedżerów i wszystkich, którzy zastanawiają się, jak najlepiej wykorzystać potencjał danych w organizacji. 

🎧 Zapraszamy do słuchania! 

👉 Spotify

👉 YouTube z napisami po angielsku

Sofixit to firma technologiczna tworząca innowacyjne rozwiązania w obszarze danych i sztucznej inteligencji. Więcej na www.sofixit.pl

Dama Marcin Bera

Potoki etykietowania danych dla uczenia maszynowego

🔊 Nowy odcinek podcastu Sofixit! Tym razem tematem rozmowy są „Potoki etykietowania danych dla uczenia maszynowego” – kluczowy element sukcesu modeli AI. 

Gościem odcinka jest Marcin Bera, ekspert z kilkunastoletnim doświadczeniem w dziedzinie nauki o danych, który dzieli się swoją wiedzą na temat zarządzania potokami danych i ich wpływu na skuteczność modeli uczenia maszynowego. 

W rozmowie prowadzący omawiają najlepsze praktyki projektowania potoków etykietowania, procesy tworzenia etykiet i ich automatyzację, a także znaczenie jakości danych w kontekście uczenia maszynowego. Marcin wskazuje, jak skutecznie organizować przepływ danych, aby zapewnić niezawodność i wydajność modeli AI. 

Odcinek jest pełen technicznej wiedzy i praktycznych wskazówek dla osób zainteresowanych sztuczną inteligencją, przetwarzaniem danych i budowaniem efektywnych systemów AI. 

🎧 Zapraszamy do słuchania! 

👉 Spotify

👉 YouTube z napisami po angielsku

Sofixit to firma technologiczna tworząca innowacyjne rozwiązania w obszarze danych i sztucznej inteligencji. Więcej na www.sofixit.pl

Dama Filip Dzięcioł

Jak Architektura Danych wspiera Organizację i jak Organizacja może wesprzeć Architekturę Danych

🔊 Kolejny odcinek podcastu Sofixit! Tym razem tematem rozmowy jest „Jak Architektura Danych wspiera Organizację, i jak Organizacja może wesprzeć Architekturę Danych”

Gościem odcinka jest Filip Dzięcioł, Senior Data Architect w firmie Billenium, który opowiada o kluczowej roli architektury danych w organizacjach oraz wzajemnych korzyściach wynikających z jej wsparcia. 

W rozmowie prowadzący omawiają praktyczne aspekty budowania i utrzymania architektury danych, wyzwania związane z integracją i jakością danych oraz trendy kształtujące przyszłość tej dziedziny. Filip dzieli się także doświadczeniami z wdrażania nowoczesnych rozwiązań oraz wskazuje, jak sztuczna inteligencja może wspierać architekturę danych. 

Odcinek zawiera również rekomendacje wartościowych źródeł wiedzy dla osób rozwijających się w świecie danych, a także praktyczne wskazówki dla architektów i liderów technologicznych

🎧 Zapraszamy do słuchania! 

👉 Spotify
👉 YouTube z napisami po angielsku 

Sofixit to firma technologiczna tworząca innowacyjne rozwiązania w obszarze danych i sztucznej inteligencji. Więcej na www.sofixit.pl

Dama Magdalena Cebula

Big Data i Sztuczna Inteligencja. Jak jakość danych wpływa na moc AI.

W najnowszym odcinku serii „Big Data – Big Challenges – and Real Success” poruszamy zagadnienie bliskie każdemu pasjonatowi danych, czyli „Big Data i Sztuczna Inteligencja” – rozmowa z Magdaleną Cebulą, w której prowadzący analizują wpływ jakości danych na wydajność AI.

Dyskutują o różnicach między Big Data a zwykłymi danymi, technologiach wykorzystywanych do ich zbierania i przetwarzania, wyzwaniach związanych z integracją danych z różnych źródeł oraz technikach czyszczenia danych.

W odcinku przedstawiają proces budowy modeli uczenia maszynowego, najlepsze praktyki monitorowania modeli i zapewniania jakości danych. Dodatkowo, poruszają temat kariery w data science – jakie umiejętności są kluczowe i jak skutecznie wejść w świat danych.

:headphones:Słuchajcie i rozwijajcie się z nami!

:point_right:Spotify
:point_right:YouTube z napisami po angielsku


Sofixit to firma technologiczna tworząca innowacyjne rozwiązania w obszarze danych i sztucznej inteligencji. Więcej na www.sofixit.pl.

Dama 1600 x 900 px

🔊 DAMA Chapter Poland – społeczność profesjonalistów, którzy dbają o najlepsze praktyki w zarządzaniu danymi

W pierwszym odcinku serii „Big Data – Big Challenges – and Real Success” przedstawiona zostaje DAMA Chapter Polandnasza organizacja, która zrzesza ekspertów zajmujących się danymi i wspiera rozwój najlepszych praktyk w tej dziedzinie w Polsce.

Gościem odcinka jest Arkadiusz Dąbkowski, Lead Architect w The Stepstone Group oraz członek zarządu DAMA Chapter Poland. W rozmowie opowiada o znaczeniu DAMA dla profesjonalistów zajmujących się zarządzaniem danymi oraz o tym, jak dołączyć do tej społeczności.

W odcinku poruszane są kluczowe zagadnienia:
📌 Czym jest DAMA Chapter Poland i jakie cele realizuje?
📌 Historia DAMA International i jej działalność w Polsce
📌 DAMA-DMBOK – „Biblia” zarządzania danymi i jej praktyczne zastosowanie
📌 Korzyści płynące z członkostwa w DAMA Chapter Poland
📌 Egzamin Certified Data Management Professional (CDMP) – dlaczego warto go zdać i jak się do niego przygotować?

📢 To odcinek dla każdego, kto chce rozwijać swoje kompetencje w zarządzaniu danymi i dołączyć do grona profesjonalistów!

👉 Spotify: posłuchaj teraz

👉 YouTube z napisami po angielsku: posłuchaj teraz

Sofixit to firma technologiczna tworząca innowacyjne rozwiązania w obszarze danych i sztucznej inteligencji. Więcej na www.sofixit.pl.

Ład vs Zarzadzanie

Data Management vs Data Governance, czyli czym różni się Zarządzanie Danymi i Ład Danych

Słowo teorii

Ład Danych (Data Governance) oraz Zarządzanie Danymi (Data Management) to koncepty mocno ze sobą powiązane, przez co często używane są zamiennie. W języku polskim jest to jeszcze bardziej mylące, ponieważ można o nich mówić jako o Zarządzaniu – co nie jest aż tak drastycznie nieprawdziwe.

Zacznijmy od książkowych definicji z DMBOK.

“Data Governance to sposób sprawowania zwierzchnictwa oraz kontroli (planowania, implementacji, monitoringu, wykonywania) zarządzania zasobów informacyjnych.”

“Data Management to rozwój, wykonywanie, nadzór planów, polityk, programów i praktyk dostarczających, kontrolujących, chroniących oraz zwiększających wartość zasobów informacyjnych w trakcie trwania ich życia.”

Definicje te zatem można zwizualizować następująco:

Grafika przedstawiająca zależność pomiędzy ładem danych, a zarządzaniem danych - ład ustala praktyki do implementacji poprzez zarządzanie danych, a te spełniają politykę ustanowioną poprzez ład danych

Jak to wygląda w praktyce

Zespół Ładu Danych jako scentralizowana jednostka spotyka się raz w tygodniu, aby zrobić przegląd aktualnych postępów związanych z Danymi w organizacji. Przegląd zawiera zagregowane metryki dotyczące zespołów oraz produktów informacyjnych, a także wszelkich inicjatyw z nimi związanych. Jeżeli coś wymaga poprawy, zmiany lub restrukturyzacji to ten zespół powinien jasno zdefiniować swoje rekomendacje oraz przekazać je do zespołów Zarządzania Danymi.

Zespoły Zarządzania Danymi jako zdecentralizowana jednostka spotyka się raz dziennie w celu zrozumienia aktualnych priorytetów, projektów oraz potencjalnych zagrożeń, aby odpowiednio pracować ze swoimi zespołami w celu dostarczenia wartości z danych. Ich praca musi być zgodna z wizją zespołu Ładu Danych, od którego otrzymują rekomendacje.

Podsumujmy

Warto zwrócić uwagę na sposób współpracy: scentralizowany zespół ma lepszy ogląd na całokształt, dlatego też są w stanie wystosować trafne rekomendacje (nie nakazy), których wykonanie leży po stronie wielu mniejszych zespołów Zarządzania Danymi, bądź po prostu samych przedstawicieli domen, którzy dzielą pracę pomiędzy swoje mniejsze zespoły.

Proces ten będzie różny w zależności od wielkości organizacji – mniejsze będą miały mniej poziomów, natomiast większe powinny zadbać o to, aby wysokość hierarchii nie zablokowała transferu wiedzy oraz komunikacji wzwyż i wszerz.

Niebieska siatka

Dlaczego podejście Data Mesh ma sens?

Wprowadzenie

Informacje wykorzystywane są od zarania dziejów, przede wszystkim do upewniania się, że nasze decyzje są trafne, co niezaprzeczalnie zwiększa jakość naszych działań.

Z czasem tworzymy coraz to bardziej złożone byty, struktury, czy organizacje. Proces ten w dużej mierze bazuje na danych oraz ich poprawnym wykorzystaniu. Oznacza to, że ich wartość rośnie z czasem – dziś jest to niezwykle cenny zasób mówiący o tym, czy przedsiębiorstwo jest rentowne. Fakt ten staje się także coraz bardziej widoczny i oczywisty.

Praca z samą informacją, jej zdobywanie i składowanie może nie wydawać się aż tak trudnym zadaniem. Problemem jest jednak jej odpowiednie przygotowanie oraz udostępnianie, gdyż każdy człowiek inaczej rozumie świat, ma inny punkt widzenia, doświadczenia oraz cele i preferencje. Często zdarza się, że mówimy o tej samej rzeczy, zgadzamy się ze sobą, a ostatecznie myślimy o czym innym, przez co podejmowane akcje drastycznie się różnią.

Zbudowanie wspólnego języka oraz modelu świata, w którym współpracujemy jest kluczowym aspektem każdego zespołu. Jest to szczególnie istotne przy pracy z danymi oraz w innowacyjnych środowiskach. Pozwoli to na spójne i świadome podejmowanie decyzji, co znacznie zwiększy ich jakość i zredukuje ilość nieporozumień i przestojów z nimi związanych.

Koncepty do zaaplikowania w świecie Danych

Tworzenie rozwiązań w dużej skali niewątpliwie sprawia, że wszystko jest o wiele trudniejsze, zwłaszcza pod kątem zasad, procesów oraz zarządzania. Mikroserwisy nauczyły nas, że małe i niezależne komponenty komunikujące się ze sobą asynchronicznie poprzez wzorzec X-as-a-Service sprawdza się w dużej skali. Pomysł ten sam w sobie wywodzi się z Filozofii Unixa z 1978 roku1, która mówi o 4 zasadach:

  1. Upewnij się, że program robi tylko jedną rzecz, i robi to dobrze. […]
  2. Oczekuj tego, że wyjście jednego programu staje się wejściem kolejnego, niekoniecznie już znanego. [..]
  3. Buduj systemy i testuj je tak szybko jak to możliwe. […]
  4. Używaj narzędzi prostych w obsłudze, aby wesprzeć innych ich użytkowników. […]

Dla praktyków metodologii DevOps zasady te na pewno są znane – małe iteracje, szybka informacja zwrotna, luźno sprzężona architektura, kultura innowacji.

Zasady DevOps

W 2018 roku wyszła publikacja, która naukowo zbadała i potwierdziła przydatność techniczną i biznesową tych założeń2, dzięki czemu mamy pewność, że tą to koncepty warte wdrożenia.

Ostatecznie powinniśmy być kolejnego konceptu sprzed dekad – Prawa Conway’a. Nie spełnia ono co prawda wymogów bycia pełnoprawnym prawem, choć doczekało się wielu badań potwierdzających jego prawdziwość3. Mówi ono o tym, że komunikacja pomiędzy pracownikami i zespołami znacznie wpływa na architekturę systemów, które zespoły te wytwarzają.

“Każda organizacja, która tworzy systemy (szeroko rozumiane) stworzy system, którego architektura jest kopią struktur komunikacyjnych tej organizacji.”4

Dzięki temu wiemy, że informacja, jak i sposób jej przekazywania znacznie wpływa na jakość oprogramowania. Implikuje to fakt, że kultura jest niezwykle istotna – definiuje jakość organizacji.

Jak widać Prawo Conway’a (1967), Filozofia Unixa (1978) oraz DevOps (2009) dają nam wiele wskazówek dotyczących tego jak efektywnie pracować z, i skalować systemy informacyjne. Skalowanie organizacji może wyglądać bardzo podobnie, zwłaszcza w świecie danych.

Sposoby pracy z Danymi

Dane wnoszą o wiele więcej złożoności, a także potencjalnej wartości, ze względu na fakt, że dodajemy nowe typy systemów i przepływów do naszych architektur. To samo dotyczy AI w ostatnich latach.

Jest to możliwe dzięki odpowiednim metodologiom programistycznym. AI nie może być stabilne i niezawodne, jeśli nie mamy odpowiednich fundamentów danych, które obejmują właściwą kulturę i zarządzanie.

Doświadczenie pokazuje, że świat danych wciąż jest mocno chaotyczny i nieuporządkowany, jednak sytuacja znacznie się poprawia dzięki technologii (m. in. MS Fabric lub Purview, Snowflake, BigQuery lub Redshift) oraz świadomości (m. in. Data Management Body of Knowledge). Jednak nadal brakuje wielu ludzi, kompetencji, budżetu i ustalania odpowiednich priorytetów.

Ostatnie dekady w świecie Danych koncentrowały się na jednym scentralizowanym źródle prawdy, co jest świetnym pomysłem, który pomógł nam osiągnąć dzisiejszy poziom zaawansowania. Jednak w tym przypadku Prawo Conway’a sugeruje, że centralizacja informacji implikuje posiadanie pojedynczego zespołu odpowiedzialnego za nią, co tworzy wąskie gardło zgodnie z zasadami DevOps i zdecydowanie nie jest wspierane jest przez Filozofię Uniksa.

Może to nie być wystarczające, ponieważ nie możemy w nieskończoność skalować pojedynczego zespołu, o czym dobrze mówi Liczba Dunbar’a5. Takie skalowanie zgodnie z Filozofią Unixa oraz DevOps się nie utrzyma. Oprogramowanie poradziło sobie z tym poprzez asynchronizację komunikacji oraz elastyczne skalowanie poprzez Cloud Computing oraz Mikroserwisy.

Jak w takim razie możemy zaaplikować to do naszych zespołów? Rozwiązaniem zdaje się być Data Mesh szerzej opisany w tym artykule.

Filary Data Mesh i relacje między nimi

Zamiast tworzyć fizycznie scentralizowany zespół oraz oprogramowanie (Data Warehouses, Data Lakes, Data LakeHouses) możliwe jest utworzenie spójnego i ujednoliconego widoku na fizycznie rozproszone dane, przy pomocy technik wirtualizacji, oraz rozproszyć właścicielstwo poszczególnych zbiorów danych, zapewniając przy tym spójne procesy komunikacji pomiędzy producentami oraz potencjalnymi konsumentami. Usprawni to komunikację, a co za tym idzie – architektury systemów, kulturę oraz zwiększy ilość innowacji. Wynikiem będzie minimalizacja zależności oraz szybkie testowanie zmian, co jest bezpośrednio promowane przez Filozofię Unixa, Prawo Conway’a oraz kulturę DevOps.

Co powinniśmy wyciągnąć z koncepcji Data Mesh:

  • Orientacja Domenowa (Filozofia Unixa, Domain-Driven Design6)
  • Dane jako pełnoprawne Produkty (zapewnianie odpowiedniej jakości oraz budżetów dla Danych, a także dedykowanych od nich specjalistów)
  • Samoobsługowa Platforma Danych (ujednolicony wgląd, decentralizacja oraz asnychronizacja prac nad informacjami w celu zapewnienia możliwości innowacji, o czym mówi podejście mikroserwisowe)
  • Rozproszone zarządzanie zasadami i procesami (dzielenie się wiedzą wewnątrz domeny oraz pomiędzy nimi).

Podsumowanie

W ciągu ostatnich dekad przeprowadzono wiele badań mających na celu usprawnienie pracy z oprogramowaniem. Powstało wiele konceptów i metodologii, które mniej lub bardziej się sprawdzały i są dziś wykorzystywane na co dzień. Teraz potrzebujemy upewnić się, że świat Danych nie pozostaje w tyle. Prawo Conway’a jasno wskazuje co powinniśmy zrobić w związku z powyższymi założeniami. Przede wszystkim należy zadbać o kulturę oraz świadomość w tym zakresie tak, abyśmy sami mogli usprawniać naszą codzienną pracę. Założenie to wsparte jest także przez tzw. Turkusowe Organizacje.

Data Mesh wywodzący się z systemów rozproszonych jest bardzo odważnym konceptem, który ma zastosowanie oraz odpowiednie uzasadnienie. Niestety wiele implementacji pokazało jak trudne jest rzeczywiste wdrożenie. Jest to wciąż koncept eksperymentalny i wymaga wielu lat edukacji, pracy, ciągłego budowania kultury, silnego Data Governance, a także dostosowania samego podejścia pod specyfikę organizacji. 

Przebudowa struktur fizycznych oraz komunikacyjnych w dużej organizacji to nietrywialne zajęcie, które pochłania zarówno wiele czasu, jak i budżetu. Świadomość tego, że jest to eksperyment sprawia, że podjęcie tego ryzyka jest bardzo ciężko uzasadnić, a sam sposób wdrożenia musi być bezpośrednio dopasowany pod kulturę i domenę przedsiębiorstwa. Możemy wywnioskować z tego, że podejście Data Mesh wciąż wymaga standaryzacji, dobrych praktyk wielu pomyślnych, jak i niepomyślnych wdrożeń, z których liderzy wyciągną wnioski. Firma Gartner jasno wyraziła swoje stanowisko dotyczące Data Mesh – nieużyteczne przed osiągnięciem dojrzałości, choć dojrzałość nie nastąpi bez wielu prób i dalszych innowacji.

Coroczny Hype Cycle Zarządzania Danymi na rok 2023, Gartner7

Odnośniki

  1. https://archive.org/details/bstj57-6-1899/page/n3/mode/2u ↩︎
  2. https://roman.pt/posts/accelerate/ ↩︎
  3. https://dash.harvard.edu/bitstream/handle/1/34403525/maccormack%2Cbaldwin%2Crusnak_exploring-the-duality.pdf ↩︎
  4. https://www.melconway.com/Home/Committees_Paper.html ↩︎
  5. https://www.bbc.com/future/article/20191001-dunbars-number-why-we-can-only-maintain-150-relationships ↩︎
  6. https://martinfowler.com/bliki/DomainDrivenDesign.html ↩︎
  7. https://www.denodo.com/en/document/analyst-report/gartner-hype-cycle-data-management-2023 ↩︎