Data science
Data science (czasem tłumaczone jako danologia lub danetyka) – interdyscyplinarne pole na styku informatyki, matematyki i wiedzy dziedzinowej. Ukierunkowane na wydobycie wartościowej informacji ze zbioru danych.
Zdefiniowanie obszaru
[edytuj | edytuj kod]
Data science znajduje się na styku trzech obszarów: informatyki, matematyki (w szczególności statystyki) i wiedzy dziedzinowej[1][2]. Nie ma konsensusu na temat dokładnej definicji data science[1][2][3]. Definicja może się różnić w zależności od kontekstu. Data science może być rozumiane między innymi jako specjalność naukowa, pewnego rodzaju paradygmat prowadzenia badań czy też jako zawód[2].
Głównym celem prac w obszarze data science jest wydobycie wartościowej informacji ze zbioru danych[2][4][5]. Rezultatem prac może być opracowanie automatycznych narzędzi umożliwiających, na podstawie zgromadzonych danych, rozwiązywanie takich problemów, jak prognozowanie, rekomendacja, klasyfikacja, optymalizacja, przetwarzanie danych do innej postaci i grupowanie[4][6]. W przypadku traktowania data science w kategorii nauki, jej cechą wyróżniającą jest traktowanie danych jako obiektu badań samego w sobie[2].
Pokrewnym terminem jest big data oznaczające przetwarzanie i analizę dużych zbiorów danych. Data science znajduje zastosowanie jednak także dla zbiorów powszechnie uważanych jako małe. Przykładowo, te same metody wizualizacji danych (jak np. wykres rozrzutu) można stosować do zbiorów o różnych rozmiarach[7].
Spośród języków programowana w data science najczęściej używane są języki skryptowe, takie jak Python czy R[8]. Specjaliści data science zazwyczaj nie tworzą jednak kompletnego oprogramowania nadającego się do użytku przez ludzi, którzy nie zajmują się programowaniem (prace w data science nie skupiają się np. na tworzeniu interfejsu graficznego)[9]. Działanie podstawowe w data science jest nakierowane wyłącznie na dane, a pisany kod służy do ich przetwarzania, analizy i modelowania[8].
Przepływ pracy
[edytuj | edytuj kod]
Typowy przepływ pracy w zadaniach data science obejmuje następujące etapy[2]:
- Import danych – załadowanie danych do środowiska programowania z bazy (wtedy dane mają już prawdopodobnie odpowiednią strukturę) lub z innego źródła[10].
- Czyszczenie danych (tzw. preprocesing) – doprowadzenie danych do stanu umożliwiającego przejście do kolejnych etapów. Konieczne może być np. połączenie danych z różnych źródeł czy ujednolicenie sposobu zapisu[10].
- Transformacje danych – dalsze organizowanie danych z wykorzystaniem bardziej zaawansowanych metod. Etap ten może obejmować między innymi[11]:
- podział danych na podzbiory według wybranego kryterium,
- usuwanie wartości błędnych, nietypowych lub odstających,
- selekcję zmiennych,
- tworzenie nowych zmiennych na podstawie już istniejących,
- podsumowanie danych w formie statystyk opisowych.
 
- Analiza i modelowanie danych – próba podsumowania relacji między zmiennymi[11], często z zastosowaniem uczenia maszynowego[12].
- Interpretacja i wizualizacja danych.
Etapy transformacji, modelowania i wizualizacji często są powtarzane iteracyjnie, gdyż uzyskane wyniki mogą prowadzić do kolejnych pomysłów[13].
Nazewnictwo
[edytuj | edytuj kod]W języku polskim data science bywa tłumaczone jako danologia[14]. Określenie to jest jednak słabo rozpoznawalne[15]. Spotykany jest także neologizm danetyka[16].
Osoby zajmujące się data science zazwyczaj nazywane są z angielskiego data scientists. Termin ten bywa odmieniany zgodnie z regułami języka polskiego (np. kilku data scientistów). Zazwyczaj nie jest on tłumaczony na język polski, choć pojawiają się czasami takie określenia, jak inżynier danych czy mistrz danych[17].
Przypisy
[edytuj | edytuj kod]- ↑ a b Żulicki 2022 ↓, s. 21.
- ↑ a b c d e f Koby Mike, Orit Hazzan, What is Data Science?, „Commun. ACM”, 66 (2), 2023, s. 12–13, DOI: 10.1145/3575663 [dostęp 2025-07-16].
- ↑ Spector i in. 2022 ↓, s. 8.
- ↑ a b Spector i in. 2022 ↓, s. 7.
- ↑ Vasant Dhar, Data Science and Prediction [online], cacm.acm.org [dostęp 2020-08-23] (ang.).
- ↑ Spector i in. 2022 ↓, s. 11.
- ↑ Spector i in. 2022 ↓, s. 13.
- ↑ a b Żulicki 2022 ↓, s. 79.
- ↑ Żulicki 2022 ↓, s. 78.
- ↑ a b Żulicki 2022 ↓, s. 80.
- ↑ a b Żulicki 2022 ↓, s. 81.
- ↑ Żulicki 2022 ↓, s. 83.
- ↑ Żulicki 2022 ↓, s. 82.
- ↑ Specjalność Danologia, Politechnika Wrocławska [online], wiz.pwr.edu.pl [dostęp 2020-04-23].
- ↑ Data science - Słownik języka polskiego PWN [online], sjp.pwn.pl [dostęp 2025-07-17].
- ↑ danetyka, a może danologia? - Słownik języka polskiego PWN [online], sjp.pwn.pl [dostęp 2025-07-17].
- ↑ Żulicki 2022 ↓, s. 18.
Bibliografia
[edytuj | edytuj kod]- Remigiusz Żulicki, Data science: najseksowniejszy zawód XXI wieku w Polsce: big data, sztuczna inteligencja i PowerPoint, wyd. I, Łódź: Wydawnictwo Uniwersytetu Łódzkiego, 2022, ISBN 978-83-8331-111-1.
- Foundations of Data Science, [w:] Alfred Z. Spector, Peter Norvig, Chris Wiggins, Jeannette M. Wing, Data Science in Context: Foundations, Challenges, Opportunities, Cambridge: Cambridge University Press, 2022, s. 7–28, DOI: 10.1017/9781009272230.003.
