Gaan na inhoud

Grootdata

in Wikipedia, die vrye ensiklopedie
'n Diagram van die generering en algemene toepassing van grootdata.

Grootdata verwys hoofsaaklik na datastelle wat te groot of kompleks is om deur tradisionele dataverwerkingsagteware hanteer te word. Data met baie inskrywings (rye) bied groter statistiese krag, terwyl data met hoër kompleksiteit (meer eienskappe of kolomme) tot 'n hoër vals ontdekkingskoers kan lei.[1]

Uitdagings vir grootdata-analise sluit in die vaslegging van data, databerging, data-analise, soek, deel, oordrag, visualisering, navraag doen, opdatering, inligtingprivaatheid en databron. Grootdata is oorspronklik met drie sleutelkonsepte geassosieer: volume, verskeidenheid en snelheid.[2] Die analise van grootdata bied uitdagings in steekproefneming, en het dus voorheen slegs waarnemings en steekproefneming toegelaat. Dus verwys 'n vierde konsep, waarheidsgetrouheid, na die kwaliteit of insiggewendheid van die data.[3] Sonder voldoende belegging in kundigheid vir grootdata-waarheid, kan die volume en verskeidenheid data koste en risiko's veroorsaak wat 'n organisasie se kapasiteit om waarde uit grootdata te skep en vas te lê, oorskry.[4]

Huidige gebruik van die term grootdata verwys gewoonlik na die gebruik van voorspellende analise, gebruikersgedragsanalise of sekere ander gevorderde data-analisemetodes wat waarde uit grootdata onttrek, en selde na 'n spesifieke grootte van die datastel. "Daar is min twyfel dat die hoeveelhede data wat nou beskikbaar is inderdaad groot is, maar dit is nie die mees relevante kenmerk van hierdie nuwe data-ekosisteem nie."[5] Analise van datastelle kan nuwe korrelasies vind om "besigheidstendense op te spoor, siektes te voorkom, misdaad te bestry, ensovoorts".[6] Wetenskaplikes, sakebestuurders, mediese praktisyns, advertensies en regerings ondervind gereeld probleme met grootdatastelle in gebiede soos internetsoektogte, fintech, gesondheidsorganalise, geografiese inligtingstelsels, stedelike informatika en besigheidsinformatika. Wetenskaplikes ondervind beperkings in e-wetenskapwerk, insluitend meteorologie, genomika,[7] konnektomika, komplekse fisika-simulasies, biologie en omgewingsnavorsing.[8]

Die grootte en aantal beskikbare datastelle het vinnig gegroei namate data ingesamel word deur toestelle soos mobiele toestelle, goedkoop en talle inligting-senserende Internet van Dinge-toestelle, lugwaarnemingstoerusting (afstandwaarneming), sagtewarelogboeke, kameras, mikrofone, radiofrekwensie-identifikasie (RFID) lesers en draadlose sensornetwerke.[9][10] Die wêreld se tegnologiese per capita kapasiteit om inligting te stoor, het sedert die 1980's elke 40 maande rofweg verdubbel;[11] vanaf 2012 word elke dag 2.5 eksagrepe (2.17×260 grepe) data gegenereer.[12] Gebaseer op 'n IDC-verslagvoorspelling, is voorspel dat die globale datavolume eksponensieel sou groei van 4.4 zettagrepe tot 44 zettagrepe tussen 2013 en 2020. Teen 2025 voorspel IDC dat daar 163 zettagrepe data sal wees.[13] Volgens die IDC word beraam dat wêreldwye besteding aan grootdata- en besigheidsanalise-oplossings (BDA) $215,7 miljard in 2021 sal bereik.[14][15] Volgens Statista word voorspel dat die wêreldwye grootdatamark teen 2027 tot $103 miljard sal groei.[16] In 2011 het McKinsey & Company berig dat as Amerikaanse gesondheidsorg grootdata kreatief en effektief sou gebruik om doeltreffendheid en kwaliteit te bevorder, die sektor meer as $300 miljard in waarde elke jaar kan skep.[17] In die ontwikkelde ekonomieë van Europa kan regeringsadministrateurs meer as €100 miljard ($149 miljard) in verbeterings aan operasionele doeltreffendheid bespaar deur grootdata te gebruik.[17] En gebruikers van dienste wat deur persoonlike liggingsdata moontlik gemaak word, kan $600 miljard in verbruikersurplus vasvang.[17] Een vraag vir groot ondernemings is om te bepaal wie grootdata-inisiatiewe moet besit wat die hele organisasie raak.[18]

Relasionele databasisbestuurstelsels en statistiese sagtewarepakkette vir rekenaars wat gebruik word om data te visualiseer, sukkel dikwels om grootdata te verwerk en te analiseer. Die verwerking en analise van groot data mag "massief parallelle sagteware vereis wat op tiene, honderde of selfs duisende bedieners loop".[19] Wat as "grootdata" kwalifiseer, wissel na gelang van die vermoëns van diegene wat dit analiseer en hul gereedskap. Verder maak die uitbreiding van vermoëns grootdata 'n bewegende teiken. "Vir sommige organisasies kan die eerste keer dat hulle honderde gigagrepe data in die gesig staar, 'n behoefte veroorsaak om databestuursopsies te heroorweeg. Vir ander kan dit tiene of honderde teragrepe neem voordat datagrootte 'n beduidende oorweging word."[20]

Definisie

[wysig | wysig bron]

Die term "grootdata" word al sedert die 1990's gebruik, met sommige wat John Mashey erkenning gee vir die popularisering van die term.[21][22] Grootdata sluit gewoonlik datastelle in met groottes wat die vermoë van algemeen gebruikte sagteware-instrumente om data binne 'n aanvaarbare tyd vas te lê, te kureer, te bestuur en te verwerk, oorskry.[23] Grootdata-filosofie omvat ongestruktureerde, semi-gestruktureerde en gestruktureerde data; die hoof fokus is egter op ongestruktureerde data.[24] Groot data "grootte" is 'n voortdurend bewegende teiken; vanaf 2012 wissel dit van 'n paar dosyn teragrepe tot baie zettagrepe data.[25] Grootdata vereis 'n stel tegnieke en tegnologieë met nuwe vorme van integrasie om insigte te openbaar uit datastelle wat uiteenlopend, kompleks en van 'n massiewe skaal is. [26]

"Volume", "verskeidenheid", "snelheid" en verskeie ander "V's" (in Engels) word deur sommige organisasies bygevoeg om dit te beskryf, 'n hersiening wat deur sommige bedryfsowerhede uitgedaag word.[27] Die V's van groot data is dikwels na verwys as die "drie V's", "vier V's" en "vyf V's". Hulle het die eienskappe van groot data in volume, verskeidenheid, snelheid, waarheid en waarde verteenwoordig.[3] Variasie word dikwels ingesluit as 'n bykomende eienskap van grootdata.

'n Definisie van 2018 lui: "Grootdata is waar parallelle rekenaargereedskap nodig is om data te hanteer", en merk op: "Dit verteenwoordig 'n duidelike en duidelik gedefinieerde verandering in die rekenaarwetenskap wat gebruik word, via parallelle programmeringsteorieë, en verliese van sommige van die waarborge en vermoëns wat deur Codd se relasionele model gemaak word."[28]

In 'n vergelykende studie van groot datastelle het Kitchin en McArdle bevind dat geeneen van die algemeen beskoude eienskappe van grootdata konsekwent in al die geanaliseerde gevalle voorkom nie.[29] Om hierdie rede het ander studies die herdefiniëring van magsdinamika in kennisontdekking as die bepalende eienskap geïdentifiseer.[30] In plaas daarvan om op die intrinsieke eienskappe van groot data te fokus, bevorder hierdie alternatiewe perspektief 'n relasionele begrip van die objek wat beweer dat wat saak maak, die manier is waarop data versamel, gestoor, beskikbaar gestel en geanaliseer word.

Groot data teenoor besigheidsintelligensie

[wysig | wysig bron]

Die groeiende volwassenheid van die konsep definieer die verskil tussen "grootdata" en "sake-intelligensie" duideliker:[31]

  • Sake-intelligensie gebruik toegepaste wiskundige gereedskap en beskrywende statistieke met data met hoë inligtingsdigtheid om dinge te meet, tendense op te spoor, ens.
  • Grootdata gebruik wiskundige analise, optimalisering, induktiewe statistieke en konsepte van nie-lineêre stelselidentifikasie[32] om wette (regressies, nie-lineêre verwantskappe en oorsaaklike effekte) af te lei uit groot stelle data met lae inligtingsdigtheid[33] om verwantskappe en afhanklikhede te openbaar, of om voorspellings van uitkomste en gedrag uit te voer.[32][34]

Eienskappe

[wysig | wysig bron]
Hierdie beeld toon die groei van grootdata se primêre eienskappe van volume, snelheid en verskeidenheid.

Grootdata kan beskryf word deur die volgende eienskappe:

Volume

Die hoeveelheid gegenereerde en gestoorde data. Die grootte van die data bepaal die waarde en potensiële insig, en of dit as groot data beskou kan word of nie. Die grootte van grootdata is gewoonlik groter as teragrepe en petagrepe.[35]

Verskeidenheid

Die tipe en aard van die data. Vroeëre tegnologieë soos RDBMS'e was in staat om gestruktureerde data doeltreffend en effektief te hanteer. Die verandering in tipe en aard van gestruktureerd na semi-gestruktureerd of ongestruktureerd het egter die bestaande gereedskap en tegnologieë uitgedaag. Grootdatategnologieë het ontwikkel met die primêre doel om die semi-gestruktureerde en ongestruktureerde (verskeidenheid) data wat met hoë spoed (snelheid) en groot in volume gegenereer is, vas te lê, te stoor en te verwerk. Later is hierdie gereedskap en tegnologieë ook verken en gebruik vir die hantering van gestruktureerde data, maar verkieslik vir berging. Uiteindelik is die verwerking van gestruktureerde data steeds as opsioneel gehou, óf met behulp van grootdata óf tradisionele RDBMS'e. Dit help met die ontleding van data vir die effektiewe gebruik van die verborge insigte wat blootgestel word aan die data wat via sosiale media, loglêers, sensors, ens. versamel word. Grootdata put uit teks, beelde, klank, video; plus dit voltooi ontbrekende stukke deur data-fusie.

Snelheid

Die spoed waarteen data gegenereer en verwerk word om aan die eise en uitdagings te voldoen wat in die pad van groei en ontwikkeling lê. Grootdata is dikwels intyds beskikbaar. In vergelyking met kleindata word grootdata meer voortdurend geproduseer. Twee soorte snelheid wat verband hou met grootdata is die frekwensie van generering en die frekwensie van hantering, opname en publikasie.[36]

Waarheid

Die waarheidsgetrouheid of betroubaarheid van die data, wat verwys na die datakwaliteit en die datawaarde.[37] Grootdata moet nie net groot wees nie, maar ook betroubaar wees om waarde in die analise daarvan te verkry. Die datakwaliteit van vasgelegde data kan baie wissel, wat 'n akkurate analise beïnvloed.[38]

Waarde

Die waarde van inligting wat bereik kan word deur die verwerking en analise van grootdatastelle. Waarde kan ook gemeet word deur 'n assessering van die ander eienskappe van grootdata.[39] Waarde kan ook die winsgewendheid van inligting verteenwoordig wat verkry word uit die analise van grootdata.

Veranderlikheid

Die kenmerk van die veranderende formate, struktuur of bronne van grootdata. Grootdata kan gestruktureerde, ongestruktureerde of kombinasies van gestruktureerde en ongestruktureerde data insluit. Grootdata-analise kan roudata van verskeie bronne integreer. Die verwerking van roudata kan ook transformasies van ongestruktureerde data na gestruktureerde data behels. Ander moontlike eienskappe van grootdata is:[40]

Omvattend

Of die hele stelsel (d.w.s. =alles) vasgelê of opgeneem word of nie. Grootdata mag al die beskikbare data van bronne insluit of nie.

Fynkorrelrig en uniek leksikaal

Onderskeidelik, die proporsie spesifieke data van elke element per element wat versamel word en of die element en sy eienskappe behoorlik geïndekseer of geïdentifiseer is.

Relasioneel

As die versamelde data gemeenskaplike velde bevat wat 'n samevoeging, of meta-analise, van verskillende datastelle moontlik sou maak.

Uitbreidend

As nuwe velde in elke element van die versamelde data maklik bygevoeg of verander kan word.

Skaalbaarheid

As die grootte van die grootdata-bergingstelsel vinnig kan uitbrei.

Verwysings

[wysig | wysig bron]
  1. Breur, Tom (Julie 2016). "Statistical Power Analysis and the contemporary "crisis" in social sciences". Journal of Marketing Analytics. 4 (2–3). London, England: Palgrave Macmillan: 61–65. doi:10.1057/s41270-016-0001-3. ISSN 2050-3318.
  2. McAfee, Andrew; Brynjolfsson, Erik (1 Oktober 2012). "Big data: the management revolution". Harvard Business Review. 90 (10): 60–66, 68, 128. ISSN 0017-8012. PMID 23074865.
  3. 3,0 3,1 "The 5 V's of big data". Watson Health Perspectives (in Engels (VSA)). 17 September 2016. Geargiveer vanaf die oorspronklike op 18 Januarie 2021. Besoek op 20 Januarie 2021.
  4. Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance". Journal of Product Innovation Management (in Engels). 38 (1): 49–67. doi:10.1111/jpim.12545. ISSN 0737-6782. S2CID 225209179.
  5. Boyd, Danah; Crawford, Kate (21 September 2011). "Six Provocations for Big Data". Social Science Research Network. doi:10.2139/ssrn.1926431. S2CID 148610111. Geargiveer vanaf die oorspronklike op 28 Februarie 2020. Besoek op 12 Julie 2019.
  6. "Data, data everywhere". The Economist. 25 Februarie 2010. Geargiveer van die oorspronklike op 27 Mei 2018. Besoek op 9 Desember 2012.
  7. "Community cleverness required". Nature. 455 (7209): 1. September 2008. Bibcode:2008Natur.455....1.. doi:10.1038/455001a. PMID 18769385.
  8. Reichman OJ, Jones MB, Schildhauer MP (Februarie 2011). "Challenges and opportunities of open data in ecology". Science. 331 (6018): 703–5. Bibcode:2011Sci...331..703R. doi:10.1126/science.1197962. PMID 21311007. S2CID 22686503. Geargiveer vanaf die oorspronklike op 19 Oktober 2020. Besoek op 12 Julie 2019.
  9. Hellerstein, Joe (9 November 2008). "Parallel Programming in the Age of Big Data". Gigaom Blog. Geargiveer vanaf die oorspronklike op 7 Oktober 2012. Besoek op 21 April 2010.
  10. Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. Geargiveer vanaf die oorspronklike op 12 Mei 2016. Besoek op 31 Desember 2015.
  11. Hilbert M, López P (April 2011). "The world's technological capacity to store, communicate, and compute information" (PDF). Science. 332 (6025): 60–5. Bibcode:2011Sci...332...60H. doi:10.1126/science.1200970. PMID 21310967. S2CID 206531385. Geargiveer (PDF) vanaf die oorspronklike op 19 Augustus 2019. Besoek op 11 Mei 2019.
  12. "IBM What is big data? – Bringing big data to the enterprise". ibm.com. Geargiveer vanaf die oorspronklike op 24 Augustus 2013. Besoek op 26 Augustus 2013.
  13. Reinsel, David; Gantz, John; Rydning, John (13 April 2017). "Data Age 2025: The Evolution of Data to Life-Critical" (PDF). seagate.com. Framingham, MA, US: International Data Corporation. Geargiveer (PDF) vanaf die oorspronklike op 8 Desember 2017. Besoek op 2 November 2017.
  14. "Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide". Geargiveer vanaf die oorspronklike op 23 Julie 2022. Besoek op 31 Julie 2022.
  15. "Big data and business analytics revenue 2022".
  16. "Global big data industry market size 2011-2027".
  17. 17,0 17,1 17,2 Big data: The next frontier for innovation, competition, and productivity Geargiveer 15 Maart 2023 op Wayback Machine McKinsey Global Institute May 2011
  18. Oracle and FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity" Geargiveer 4 Augustus 2013 op Wayback Machine, Desember 2012
  19. Jacobs, A. (6 Julie 2009). "The Pathologies of Big Data". ACMQueue. Geargiveer vanaf die oorspronklike op 8 Desember 2015. Besoek op 21 April 2010.
  20. Magoulas, Roger; Lorica, Ben (Februarie 2009). "Introduction to Big Data". Release 2.0 (11). Sebastopol, CA: O'Reilly Media. Geargiveer vanaf die oorspronklike op 2 November 2021. Besoek op 26 Februarie 2021.
  21. John R. Mashey (25 April 1998). "Big Data… and the Next Wave of InfraStress" (PDF). Slides from invited talk. Usenix. Geargiveer (PDF) vanaf die oorspronklike op 12 Oktober 2016. Besoek op 28 September 2016.
  22. Steve Lohr (1 Februarie 2013). "The Origins of 'Big Data': An Etymological Detective Story". The New York Times. Geargiveer vanaf die oorspronklike op 6 Maart 2016. Besoek op 28 September 2016.
  23. Snijders, Matzat & Reips 2012.
  24. Dedić, N.; Stanier, C. (2017). "Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery". Innovations in Enterprise Information Systems Management and Engineering. Lecture Notes in Business Information Processing. Vol. 285. Berlin; Heidelberg: Springer International Publishing. pp. 114–22. doi:10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN 1865-1356. OCLC 909580101. Geargiveer vanaf die oorspronklike op 27 November 2020. Besoek op 7 September 2019.
  25. Everts, Sarah (2016). "Information Overload". Distillations. Vol. 2, no. 2. pp. 26–33. Geargiveer vanaf die oorspronklike op 3 April 2019. Besoek op 22 Maart 2018.
  26. Ibrahim; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, Nor; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "big data" on cloud computing: Review and open research issues". Information Systems. 47: 98–115. doi:10.1016/j.is.2014.07.006. S2CID 205488005.
  27. Grimes, Seth. "Big Data: Avoid 'Wanna V' Confusion". InformationWeek. Geargiveer vanaf die oorspronklike op 23 Desember 2015. Besoek op 5 Januarie 2016.
  28. Fox, Charles (25 Maart 2018). Data Science for Transport. Springer Textbooks in Earth Sciences, Geography and Environment. Springer. ISBN 9783319729527. Geargiveer vanaf die oorspronklike op 1 April 2018. Besoek op 31 Maart 2018.
  29. Kitchin, Rob; McArdle, Gavin (2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3: 1–10. doi:10.1177/2053951716631130. S2CID 55539845.
  30. Balazka, Dominik; Rodighiero, Dario (2020). "Big Data and the Little Big Bang: An Epistemological (R)evolution". Frontiers in Big Data. 3: 31. doi:10.3389/fdata.2020.00031. hdl:1721.1/128865. PMC 7931920. PMID 33693404.
  31. "avec focalisation sur Big Data & Analytique" (PDF). Bigdataparis.com. Geargiveer vanaf die oorspronklike (PDF) op 25 Februarie 2021. Besoek op 8 Oktober 2017.
  32. 32,0 32,1 Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  33. "le Blog ANDSI » DSI Big Data". Andsi.fr. Geargiveer vanaf die oorspronklike op 10 Oktober 2017. Besoek op 8 Oktober 2017.
  34. Les Echos (3 April 2013). "Les Echos – Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant – Archives". Lesechos.fr. Geargiveer vanaf die oorspronklike op 30 April 2014. Besoek op 8 Oktober 2017.
  35. Sagiroglu, Seref (2013). "Big data: A review". 2013 International Conference on Collaboration Technologies and Systems (CTS). pp. 42–47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
  36. Kitchin, Rob; McArdle, Gavin (17 Februarie 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130.
  37. Onay, Ceylan; Öztürk, Elif (2018). "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. 26 (3): 382–405. doi:10.1108/JFRC-06-2017-0054. S2CID 158895306.
  38. Big Data's Fourth V
  39. "Measuring the Business Value of Big Data | IBM Big Data & Analytics Hub". www.ibmbigdatahub.com. Geargiveer vanaf die oorspronklike op 28 Januarie 2021. Besoek op 20 Januarie 2021.
  40. Kitchin, Rob; McArdle, Gavin (5 Januarie 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society (in Engels). 3 (1): 205395171663113. doi:10.1177/2053951716631130. ISSN 2053-9517.