Bazy danych otaczają nas na co dzień – zarówno w życiu zawodowym, jak i prywatnym. Firmy gromadzą informacje sprzedażowe, marketingowe czy produkcyjne. Google Analytics analizuje ruch i konwersje na stronach internetowych, a instytucje państwowe, takie jak Ministerstwo Zdrowia, zbierają dane dotyczące pandemii. Choć mogłoby się wydawać, że wystarczy po prostu „mieć dużo danych”, rzeczywistość pokazuje, że nie ilość, lecz jakość i sposób gromadzenia decydują o ich wartości.

Zbieranie danych można porównać do zbierania jabłek – trzeba wiedzieć, po co się je zbiera, starannie je segregować i usuwać te zepsute. W przeciwnym razie łatwo o błędy i chaos. Poniżej przedstawiono cztery najważniejsze zasady tworzenia baz danych, które sprawiają, że informacje stają się naprawdę użyteczne.

1. Określ cel i zakres bazy danych

Podstawą jest odpowiedź na pytanie: czemu ma służyć baza danych i komu będzie potrzebna. Cel wyznacza zakres zbieranych informacji.

Przykład: jeśli dane mają wspierać rozwój sieci sklepów stacjonarnych, w bazie powinny znaleźć się nie tylko informacje o obrotach, ale także wielkości sklepów, ich lokalizacji czy rodzaju obiektu (galeria, sklep wolnostojący, centrum lub peryferia miejscowości). Warto też uwzględniać dodatkowe czynniki, takie jak rotacja personelu.

Trzeba pamiętać, że cel bazy może ewoluować w czasie. Dlatego od początku warto myśleć o tym, jak dane będą wykorzystywane.

2. Sprawdź dostępność danych

Kolejny krok to audyt bazodanowy – analiza tego, jakie informacje już posiadamy i do jakich możemy mieć dostęp.

Źródła danych to m.in.:

  • programy magazynowe i produkcyjne,
  • raporty sprzedawców,
  • obliczenia pośrednie (np. liczba paragonów na pracownika),
  • publiczne bazy danych (np. GUS, WTO),
  • media społecznościowe (lajki, komentarze, ruch na stronie),
  • archiwa historyczne (np. gazety sprzed 2000 r.).

Korzystając z danych publicznych, trzeba brać pod uwagę stabilność źródeł – np. GUS nie zniknie, ale może zmieniać format czy zakres udostępnianych informacji.

3. Oceń jakość danych

Jakość danych decyduje o wartości analiz. Należy zadbać o:

  • dokładność i precyzję,
  • zgodność z potrzebami biznesowymi,
  • aktualność i systematyczność,
  • spójność pomiędzy różnymi źródłami.

Przykład: „chleb ze słonecznikiem” i „chleb słonecznikowy” to dwa różne wpisy, które mogą prowadzić do błędnych analiz i w konsekwencji złych decyzji biznesowych.

Dlatego kluczowe jest:

  • monitorowanie źródeł danych,
  • usprawnianie procesów zbierania i przetwarzania,
  • szkolenie pracowników odpowiedzialnych za wprowadzanie danych.

Człowiek często bywa najsłabszym ogniwem systemu, dlatego inwestycja w edukację zespołu jest niezbędna.

4. Dobierz odpowiednie narzędzia

Nie wystarczy posiadać dane – trzeba jeszcze umieć z nich korzystać. To, jakie narzędzia wybierzemy, ma ogromne znaczenie.

  • Proste formaty – np. Excel, wystarczają, gdy przetwarzamy niewielkie zbiory danych.
  • Zaawansowane systemy – CRM, ERP czy hurtownie danych – są konieczne przy dużej skali i automatyzacji.
  • Sposób zasilania bazy – ręczny lub automatyczny – zależy od liczby danych i budżetu.

Ważne jest także, by dane były przechowywane w formatach umożliwiających analizę, a nie w plikach, które trudno przetwarzać (np. obrazy zamiast arkuszy kalkulacyjnych).

Jak nie tworzyć bazy danych – przykład Ministerstwa Zdrowia

Pandemia COVID-19 pokazała, jak nie powinno się tworzyć baz danych. Ministerstwo Zdrowia popełniło szereg błędów:

  • brak jasno określonego zakresu danych,
  • różny poziom szczegółowości raportów w zależności od stacji sanepidu,
  • spóźnione wprowadzanie nowych kategorii (np. liczba respiratorów),
  • brak jednolitego formatu raportów,
  • niespójności między raportami sanepidów a statystykami ministerstwa.

Skutkiem była ogromna rozbieżność – w listopadzie różnica między danymi ministerstwa a raportami sanepidów wyniosła 22 tysiące przypadków.

Najbardziej wiarygodną bazę stworzył wówczas… 19-latek z Torunia, który wraz z wolontariuszami ręcznie zbierał dane z powiatowych stacji sanepidu.

Dodatkowo ministerstwo publikowało raporty w postaci obrazków w mediach społecznościowych, co uniemożliwiało automatyczne przetwarzanie danych.

Podsumowanie

Tworzenie bazy danych to nie tylko techniczne gromadzenie informacji. To proces wymagający przemyślenia celu, źródeł, jakości i narzędzi. Błędy na etapie projektowania mogą sprawić, że cała baza stanie się mało użyteczna lub wręcz wprowadzi w błąd.

Dlatego warto pamiętać: jeśli już coś robimy – róbmy to dobrze.