Przejdź do zawartości

Data science

Z Wikipedii, wolnej encyklopedii

Data science (czasem tłumaczone jako danologia lub danetyka) – interdyscyplinarne pole na styku informatyki, matematyki i wiedzy dziedzinowej. Ukierunkowane na wydobycie wartościowej informacji ze zbioru danych.

Zdefiniowanie obszaru

[edytuj | edytuj kod]
Diagram Venna pokazujący umiejscowienie data science na przecięciu informatyki, matematyki i wiedzy dziedzinowej

Data science znajduje się na styku trzech obszarów: informatyki, matematyki (w szczególności statystyki) i wiedzy dziedzinowej[1][2]. Nie ma konsensusu na temat dokładnej definicji data science[1][2][3]. Definicja może się różnić w zależności od kontekstu. Data science może być rozumiane między innymi jako specjalność naukowa, pewnego rodzaju paradygmat prowadzenia badań czy też jako zawód[2].

Głównym celem prac w obszarze data science jest wydobycie wartościowej informacji ze zbioru danych[2][4][5]. Rezultatem prac może być opracowanie automatycznych narzędzi umożliwiających, na podstawie zgromadzonych danych, rozwiązywanie takich problemów, jak prognozowanie, rekomendacja, klasyfikacja, optymalizacja, przetwarzanie danych do innej postaci i grupowanie[4][6]. W przypadku traktowania data science w kategorii nauki, jej cechą wyróżniającą jest traktowanie danych jako obiektu badań samego w sobie[2].

Pokrewnym terminem jest big data oznaczające przetwarzanie i analizę dużych zbiorów danych. Data science znajduje zastosowanie jednak także dla zbiorów powszechnie uważanych jako małe. Przykładowo, te same metody wizualizacji danych (jak np. wykres rozrzutu) można stosować do zbiorów o różnych rozmiarach[7].

Spośród języków programowana w data science najczęściej używane są języki skryptowe, takie jak Python czy R[8]. Specjaliści data science zazwyczaj nie tworzą jednak kompletnego oprogramowania nadającego się do użytku przez ludzi, którzy nie zajmują się programowaniem (prace w data science nie skupiają się np. na tworzeniu interfejsu graficznego)[9]. Działanie podstawowe w data science jest nakierowane wyłącznie na dane, a pisany kod służy do ich przetwarzania, analizy i modelowania[8].

Przepływ pracy

[edytuj | edytuj kod]
Przykład wykresu rozrzutu
Wykres rozrzutu – przykładowa metoda wizualizacji danych

Typowy przepływ pracy w zadaniach data science obejmuje następujące etapy[2]:

  • Import danych – załadowanie danych do środowiska programowania z bazy (wtedy dane mają już prawdopodobnie odpowiednią strukturę) lub z innego źródła[10].
  • Czyszczenie danych (tzw. preprocesing) – doprowadzenie danych do stanu umożliwiającego przejście do kolejnych etapów. Konieczne może być np. połączenie danych z różnych źródeł czy ujednolicenie sposobu zapisu[10].
  • Transformacje danych – dalsze organizowanie danych z wykorzystaniem bardziej zaawansowanych metod. Etap ten może obejmować między innymi[11]:
    • podział danych na podzbiory według wybranego kryterium,
    • usuwanie wartości błędnych, nietypowych lub odstających,
    • selekcję zmiennych,
    • tworzenie nowych zmiennych na podstawie już istniejących,
    • podsumowanie danych w formie statystyk opisowych.
  • Analiza i modelowanie danych – próba podsumowania relacji między zmiennymi[11], często z zastosowaniem uczenia maszynowego[12].
  • Interpretacja i wizualizacja danych.

Etapy transformacji, modelowania i wizualizacji często są powtarzane iteracyjnie, gdyż uzyskane wyniki mogą prowadzić do kolejnych pomysłów[13].

Nazewnictwo

[edytuj | edytuj kod]

W języku polskim data science bywa tłumaczone jako danologia[14]. Określenie to jest jednak słabo rozpoznawalne[15]. Spotykany jest także neologizm danetyka[16].

Osoby zajmujące się data science zazwyczaj nazywane są z angielskiego data scientists. Termin ten bywa odmieniany zgodnie z regułami języka polskiego (np. kilku data scientistów). Zazwyczaj nie jest on tłumaczony na język polski, choć pojawiają się czasami takie określenia, jak inżynier danych czy mistrz danych[17].

Przypisy

[edytuj | edytuj kod]
  1. a b Żulicki 2022 ↓, s. 21.
  2. a b c d e f Koby Mike, Orit Hazzan, What is Data Science?, „Commun. ACM”, 66 (2), 2023, s. 12–13, DOI10.1145/3575663 [dostęp 2025-07-16].
  3. Spector i in. 2022 ↓, s. 8.
  4. a b Spector i in. 2022 ↓, s. 7.
  5. Vasant Dhar, Data Science and Prediction [online], cacm.acm.org [dostęp 2020-08-23] (ang.).
  6. Spector i in. 2022 ↓, s. 11.
  7. Spector i in. 2022 ↓, s. 13.
  8. a b Żulicki 2022 ↓, s. 79.
  9. Żulicki 2022 ↓, s. 78.
  10. a b Żulicki 2022 ↓, s. 80.
  11. a b Żulicki 2022 ↓, s. 81.
  12. Żulicki 2022 ↓, s. 83.
  13. Żulicki 2022 ↓, s. 82.
  14. Specjalność Danologia, Politechnika Wrocławska [online], wiz.pwr.edu.pl [dostęp 2020-04-23].
  15. Data science - Słownik języka polskiego PWN [online], sjp.pwn.pl [dostęp 2025-07-17].
  16. danetyka, a może danologia? - Słownik języka polskiego PWN [online], sjp.pwn.pl [dostęp 2025-07-17].
  17. Żulicki 2022 ↓, s. 18.

Bibliografia

[edytuj | edytuj kod]