Přeskočit na obsah

Common Crawl

Z Wikipedie, otevřené encyklopedie
Common Crawl
Logo
Logo
Vizualizace sítě World Wide Web založená na datech Common Crawl z roku 2012.
Vizualizace sítě World Wide Web založená na datech Common Crawl z roku 2012.
Základní údaje
Právní formanezisková organizace
Datum založení2007
ZakladatelGil Elbaz
SídloLos Angeles, USAUSA USA
Adresa sídla9663 Santa Monica Blvd, Beverly Hills, CA 90210, Spojené státy americké
Klíčoví lidéGil Elbaz (zakladatel), Rich Skrenta (CEO)
Charakteristika firmy
Oblast činnostiArchivace webu, Otevřená data, Podpora výzkumu umělé inteligence a NLP
SlužbyVeřejně dostupný repozitář webových dat, Pravidelné měsíční snapshoty internetu
Obrat1,3 mil. $ (2023)[1]
451 447 $ (2022)[1]
Celková aktiva1,3 mil. $ (2023)[1]
633 865 $ (2022)[1]
Zaměstnanci1-10 ((2025)
Mateřská společnostCommon Crawl Foundation
Identifikátory
Oficiální webcommoncrawl.org
Některá data mohou pocházet z datové položky.

Common Crawl je nezisková organizace a stejnojmenný projekt, který vytváří a spravuje otevřený repozitář webových dat (tzv. webový korpus). Cílem projektu je usnadnit přístup k informacím z celého internetu tím, že poskytuje volně přístupné archivy webových stránek, které by jinak byly dostupné pouze velkým technologickým společnostem provozujícím vlastní vyhledávače.[2]

Dataset Common Crawl a datasety odvozené jsou využívané pro trénování velkých jazykových modelů (LLM), jako jsou GPT-3 od společnosti OpenAI,[3] T5 od Google[4] nebo Fasttext od společnosti Meta Platforms.[5]

Historie a organizace

[editovat | editovat zdroj]

Organizaci Common Crawl založil v roce 2007 Gil Elbaz. Elbaz, který dříve prodal svou společnost Applied Semantics firmě Google (jejíž technologie se stala základem pro AdSense).[6]

Organizace funguje jako nezisková nadace se statutem 501(c)(3) se sídlem v Los Angeles.

Způsob sběru dat

[editovat | editovat zdroj]

Common Crawl využívá vlastní webový crawler (bot), který pravidelně prochází internet, stahuje HTML stránky, extrahuje metadata a ukládá obsah. Moderní verze crawleru je postavena na technologii Apache Nutch. Archiv je od roku 2012 hostovaný na platformě AWS v programu pro veřejná data (public datasets).[7]

Nové snapshoty (snímky) webu jsou vydávány jednou měsíčně.[8] Každý měsíční archiv obsahuje data z miliard webových stránek. Archiv z Dubna 2021 obsahoval přes 3 miliardy stránek a dosahoval velikosti přibližně 320 TB nekomprimovaných dat.[9] Bot respektuje standard Robots.txt a značku nofollow. Identifikuje se jako User-agent CCBot. Pokud majitel webu zakáže přístup botům, Common Crawl daný web nearchivuje.[10]

Datová struktura a formáty

[editovat | editovat zdroj]

Data nejsou ukládána jako prostý text, ale ve standardizovaných formátech pro webovou archivaci, což umožňuje rychlejší strojové zpracování. Archiv je rozdělen do tří hlavních typů souborů.

WARC (Web ARChive)

[editovat | editovat zdroj]

Surový formát, který obsahuje kompletní HTTP odpověď tak, jak byla přijata ze serveru. formát WARC zahrnuje hlavičky požadavku (request headers), hlavičky odpovědi (response headers) a samotné tělo odpovědi (payload – obvykle HTML kód, ale i obrázky nebo PDF).[11] Tento formát je definován mezinárodní organizací pro normalizaci a normou ISO 28500.[12]

WAT (Web Archive Transformation)

[editovat | editovat zdroj]

Formáty WAT obsahuje vypočítaná metadata odvozená z WARC souborů, uložená ve formátu JSON. Tato metadata jsou generovány pro tři typy záznamu: metadata, požadavek (request) a odpověď (response). V případě HTML stránek obsahuje WAT záznam HTTP hlavičky, metatagy a extrahované odkazy, což umožňuje rychlejší analýzu struktury webu, bez nutnosti zpracovávání plného textového obsahu. Soubory WAT jsou pro větší úsporu minifikovány a jsou odstraněny nadbytečné bílé znaky.[11] WAT soubory mají 5% až 20% velikosti původního WARC souboru.[13]

WET (Web Extracted Text)

[editovat | editovat zdroj]

Formát WET obsahuje pouze extrahovaný text z webových stránek, zbavený HTML značek, skriptů a stylů.[11] Soubory WET jsou primárním zdrojem pro trénování jazykových modelů a odvozování filtrovaných datasetů, protože poskytují textovou složku webu v kompaktní formě.[14]

Význam pro umělou inteligenci a NLP

[editovat | editovat zdroj]

S rozvojem metod hlubokého učení (deep learning) a architektury Transformer po roce 2017 vzrostla potřeba rozsáhlých textových datasetů.

Odvozené datasety

[editovat | editovat zdroj]

Surový Common Crawl (Raw Data) obsahuje velké množství šumu (navigační menu, patičky, reklamy), společnosti vytvářející velké jazykové modely proto vytvořili několik očištěných verzí. Formát WET je o tyto data očištěněný ale obsahuje neanglická slova, vulgarity, spamy, nekompletní text a další prvky které jsou pro některé účely potřeba odflitrovat.

  • C4 (Colossal Clean Crawled Corpus) byl vytvořen společností Google pro model T5. Data prochází přísným filtrováním – jsou odstraněny texty s vulgárními slovy, duplicitní pasáže a stránky, které nejsou v angličtině.[4]
  • OSCAR (Open Super-large Crawled Aggregated coRpus) se zaměřuje se na vícejazyčnost. Data jsou tříděna podle jazyka pomocí heuristických algoritmů které odfiltrují nekvalitní články a zdroj dat, což umožňuje trénování modelů v méně rozšířených jazycích na kvalitnějších datech, včetně češtiny.[15]
  • Dataset The Pile vytvořený skupinou EleutherAI, který kombinuje Common Crawl (a jejich filtrovanou verzi Pile-CC) s dalšími zdroji (GitHub, PubMed, Wikipedia, ArXiv) pro zvýšení odborné úrovně textů.[16]

Využití v jazykových modelech

[editovat | editovat zdroj]

Některé moderní LLM (Velké jazykové modely) využívají Common Crawl, nebo datasety odvozené, jako podstatnou část svých trénovacích dat.

  • Část váženého trénovacího datasetu modelu GPT-3 pochází z filtrované verze Common Crawl, která dále prošla filtrací, deduplikací a kombinováním z dalších kvalitních zdrojů.[3]
  • Model T5 (Text-to-Text Transfer Transformer) od společnosti Meta byl trénován na datasetu C4 (Colossal Clean Crawled Corpus), který je přímo odvozen z dat Common Crawl.[4]
  • Při vytváření Fasttext od společnosti Google byly použité data extrahované z Common Crawl na předtrénování slovních vektorů pro 157 jazyků.[5]

Kritika a limitace

[editovat | editovat zdroj]

Přestože je Common Crawl využívaným zdrojem pro akademickou i komerční sféru, čelí kritice v několika oblastech, které jsou předmětem aktuálního etického a technického výzkumu v oblasti využití velkých jazykových modelů. Angličtina tvoří dominantní část celého datasetu C4, z důvodu cílené filtrace během vytváření datasetu byly ostatní jazyky z původních dat vyfiltrovány.[14] Výzkum ukázal, že u low-resource jazyků obsahuje Common Crawl značné množství chybného textu nebo strojových překladů, což může degradovat výkon modelů trénovaných pro tyto jazyky.[17]

Autorská práva

[editovat | editovat zdroj]

S rozvojem generativní umělé inteligence se vedou právní spory o to, zda je trénování modelů na datech z Common Crawl v souladu s autorským právem (v USA často argumentováno konceptem Fair Use). Někteří autoři a vydavatelé kritizují, že jejich obsah byl použit bez svolení a bez kompenzace. V reakci na to začaly některé velké mediální domy, jako například The New York Times, blokovat crawler CCBot pomocí souboru robots.txt, aby zabránily zahrnutí svého obsahu do budoucích datasetů.[18] Organizace Common Crawl se k tomuto vyjádřila a všechna obvinění o porušování autorských zákonů popřela.[19]

V tomto článku byl použit překlad textu z článku Common Crawl na anglické Wikipedii.

  1. a b c d Nonprofit Explorer. [cit. 2025-12-14].
  2. Common Crawl - Mission. commoncrawl.org [online]. [cit. 2025-12-21]. Dostupné online. (anglicky) 
  3. a b BROWN, Tom B., et al. Language Models are Few-Shot Learners. In: Advances in Neural Information Processing Systems (NeurIPS). [s.l.]: [s.n.], 2020. Dostupné online. S. 1877–1901. (anglicky)
  4. a b c RAFFEL, Colin, et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research. 2020, roč. 21, čís. 140, s. 1–67. Dostupné online. ISSN 1532-4435. (anglicky) 
  5. a b GRAVE, Edouard, et al. Learning Word Vectors for 157 Languages. In: Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018). [s.l.]: ELRA, 2018. Dostupné online. (anglicky)
  6. TABKE, Brett. What is the Common Crawl Database, and Why should a Site Owner Care?. www.searchengineworld.com [online]. 2025-09-30 [cit. 2025-12-21]. Dostupné online. (anglicky) 
  7. Common Crawl - Alchetron, The Free Social Encyclopedia. Alchetron.com [online]. 2016-01-18 [cit. 2025-12-21]. Dostupné online. (anglicky) 
  8. Statistics of Common Crawl Monthly Archives by commoncrawl. commoncrawl.github.io [online]. [cit. 2025-12-21]. Dostupné online. 
  9. CS324 - Large Language Models: Data [online]. Stanford University, 2022 [cit. 2024-05-20]. Dostupné online. (anglicky) 
  10. Frequently Asked Questions [online]. Common Crawl Foundation [cit. 2024-05-20]. Dostupné online. (anglicky) 
  11. a b c Get Started: Data Formats [online]. Common Crawl Foundation [cit. 2024-05-20]. Dostupné online. (anglicky) 
  12. www.iso.org [online]. [cit. 2025-12-22]. Dostupné online. 
  13. Research use of web archived data — Library revue. knihovnarevue-en.nkp.cz [online]. [cit. 2025-12-22]. Dostupné online. (anglicky) 
  14. a b DODGE, Jesse, et al. Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus. In: Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online: Association for Computational Linguistics, 2021. doi:10.18653/v1/2021.emnlp-main.98. S. 1286–1305. (anglicky)
  15. ORTIZ SUÁREZ, Pedro Javier, et al. A Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures. In: Proceedings of the 7th Workshop on Challenges in the Management of Large Corpora (CMLC-7). [s.l.]: [s.n.], 2019. Dostupné online. doi:10.14618/ids-pub-9021. (anglicky)
  16. GAO, Leo, et al. The Pile: An 800GB Dataset of Diverse Text for Language Modeling [online]. arXiv, 2020. Dostupné online. arXiv:2101.00027. (anglicky) 
  17. KREUTZER, Julia, et al. Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets. Transactions of the Association for Computational Linguistics. MIT Press, 2022, roč. 10, s. 50–72. Dostupné online. doi:10.1162/tacl_a_00447. (anglicky) 
  18. The New York Times Blocks OpenAI’s Web Crawler [online]. The Verge, 2023-08-21 [cit. 2024-05-20]. Dostupné online. (anglicky) 
  19. Common Crawl - Blog - Setting the Record Straight: Common Crawl’s Commitment to Transparency, Fair Use, and the Public Good. commoncrawl.org [online]. [cit. 2025-12-22]. Dostupné online. (anglicky) 

Externí odkazy

[editovat | editovat zdroj]

Oficiální stránky Common Crawl (anglicky)

Vyhledávání v Common Crawl Indexu (anglicky)