Common Crawl
| Common Crawl | |
|---|---|
Logo | |
Vizualizace sítě World Wide Web založená na datech Common Crawl z roku 2012. | |
| Základní údaje | |
| Právní forma | nezisková organizace |
| Datum založení | 2007 |
| Zakladatel | Gil Elbaz |
| Sídlo | Los Angeles, |
| Adresa sídla | 9663 Santa Monica Blvd, Beverly Hills, CA 90210, Spojené státy americké |
| Klíčoví lidé | Gil Elbaz (zakladatel), Rich Skrenta (CEO) |
| Charakteristika firmy | |
| Oblast činnosti | Archivace webu, Otevřená data, Podpora výzkumu umělé inteligence a NLP |
| Služby | Veřejně dostupný repozitář webových dat, Pravidelné měsíční snapshoty internetu |
| Obrat | 1,3 mil. $ (2023)[1] 451 447 $ (2022)[1] |
| Celková aktiva | 1,3 mil. $ (2023)[1] 633 865 $ (2022)[1] |
| Zaměstnanci | 1-10 ((2025) |
| Mateřská společnost | Common Crawl Foundation |
| Identifikátory | |
| Oficiální web | commoncrawl.org |
| Některá data mohou pocházet z datové položky. | |
Common Crawl je nezisková organizace a stejnojmenný projekt, který vytváří a spravuje otevřený repozitář webových dat (tzv. webový korpus). Cílem projektu je usnadnit přístup k informacím z celého internetu tím, že poskytuje volně přístupné archivy webových stránek, které by jinak byly dostupné pouze velkým technologickým společnostem provozujícím vlastní vyhledávače.[2]
Dataset Common Crawl a datasety odvozené jsou využívané pro trénování velkých jazykových modelů (LLM), jako jsou GPT-3 od společnosti OpenAI,[3] T5 od Google[4] nebo Fasttext od společnosti Meta Platforms.[5]
Historie a organizace
[editovat | editovat zdroj]Organizaci Common Crawl založil v roce 2007 Gil Elbaz. Elbaz, který dříve prodal svou společnost Applied Semantics firmě Google (jejíž technologie se stala základem pro AdSense).[6]
Organizace funguje jako nezisková nadace se statutem 501(c)(3) se sídlem v Los Angeles.
Způsob sběru dat
[editovat | editovat zdroj]Common Crawl využívá vlastní webový crawler (bot), který pravidelně prochází internet, stahuje HTML stránky, extrahuje metadata a ukládá obsah. Moderní verze crawleru je postavena na technologii Apache Nutch. Archiv je od roku 2012 hostovaný na platformě AWS v programu pro veřejná data (public datasets).[7]
Nové snapshoty (snímky) webu jsou vydávány jednou měsíčně.[8] Každý měsíční archiv obsahuje data z miliard webových stránek. Archiv z Dubna 2021 obsahoval přes 3 miliardy stránek a dosahoval velikosti přibližně 320 TB nekomprimovaných dat.[9] Bot respektuje standard Robots.txt a značku nofollow. Identifikuje se jako User-agent CCBot. Pokud majitel webu zakáže přístup botům, Common Crawl daný web nearchivuje.[10]
Datová struktura a formáty
[editovat | editovat zdroj]Data nejsou ukládána jako prostý text, ale ve standardizovaných formátech pro webovou archivaci, což umožňuje rychlejší strojové zpracování. Archiv je rozdělen do tří hlavních typů souborů.
WARC (Web ARChive)
[editovat | editovat zdroj]Surový formát, který obsahuje kompletní HTTP odpověď tak, jak byla přijata ze serveru. formát WARC zahrnuje hlavičky požadavku (request headers), hlavičky odpovědi (response headers) a samotné tělo odpovědi (payload – obvykle HTML kód, ale i obrázky nebo PDF).[11] Tento formát je definován mezinárodní organizací pro normalizaci a normou ISO 28500.[12]
WAT (Web Archive Transformation)
[editovat | editovat zdroj]Formáty WAT obsahuje vypočítaná metadata odvozená z WARC souborů, uložená ve formátu JSON. Tato metadata jsou generovány pro tři typy záznamu: metadata, požadavek (request) a odpověď (response). V případě HTML stránek obsahuje WAT záznam HTTP hlavičky, metatagy a extrahované odkazy, což umožňuje rychlejší analýzu struktury webu, bez nutnosti zpracovávání plného textového obsahu. Soubory WAT jsou pro větší úsporu minifikovány a jsou odstraněny nadbytečné bílé znaky.[11] WAT soubory mají 5% až 20% velikosti původního WARC souboru.[13]
WET (Web Extracted Text)
[editovat | editovat zdroj]Formát WET obsahuje pouze extrahovaný text z webových stránek, zbavený HTML značek, skriptů a stylů.[11] Soubory WET jsou primárním zdrojem pro trénování jazykových modelů a odvozování filtrovaných datasetů, protože poskytují textovou složku webu v kompaktní formě.[14]
Význam pro umělou inteligenci a NLP
[editovat | editovat zdroj]S rozvojem metod hlubokého učení (deep learning) a architektury Transformer po roce 2017 vzrostla potřeba rozsáhlých textových datasetů.
Odvozené datasety
[editovat | editovat zdroj]Surový Common Crawl (Raw Data) obsahuje velké množství šumu (navigační menu, patičky, reklamy), společnosti vytvářející velké jazykové modely proto vytvořili několik očištěných verzí. Formát WET je o tyto data očištěněný ale obsahuje neanglická slova, vulgarity, spamy, nekompletní text a další prvky které jsou pro některé účely potřeba odflitrovat.
- C4 (Colossal Clean Crawled Corpus) byl vytvořen společností Google pro model T5. Data prochází přísným filtrováním – jsou odstraněny texty s vulgárními slovy, duplicitní pasáže a stránky, které nejsou v angličtině.[4]
- OSCAR (Open Super-large Crawled Aggregated coRpus) se zaměřuje se na vícejazyčnost. Data jsou tříděna podle jazyka pomocí heuristických algoritmů které odfiltrují nekvalitní články a zdroj dat, což umožňuje trénování modelů v méně rozšířených jazycích na kvalitnějších datech, včetně češtiny.[15]
- Dataset The Pile vytvořený skupinou EleutherAI, který kombinuje Common Crawl (a jejich filtrovanou verzi Pile-CC) s dalšími zdroji (GitHub, PubMed, Wikipedia, ArXiv) pro zvýšení odborné úrovně textů.[16]
Využití v jazykových modelech
[editovat | editovat zdroj]Některé moderní LLM (Velké jazykové modely) využívají Common Crawl, nebo datasety odvozené, jako podstatnou část svých trénovacích dat.
- Část váženého trénovacího datasetu modelu GPT-3 pochází z filtrované verze Common Crawl, která dále prošla filtrací, deduplikací a kombinováním z dalších kvalitních zdrojů.[3]
- Model T5 (Text-to-Text Transfer Transformer) od společnosti Meta byl trénován na datasetu C4 (Colossal Clean Crawled Corpus), který je přímo odvozen z dat Common Crawl.[4]
- Při vytváření Fasttext od společnosti Google byly použité data extrahované z Common Crawl na předtrénování slovních vektorů pro 157 jazyků.[5]
Kritika a limitace
[editovat | editovat zdroj]Přestože je Common Crawl využívaným zdrojem pro akademickou i komerční sféru, čelí kritice v několika oblastech, které jsou předmětem aktuálního etického a technického výzkumu v oblasti využití velkých jazykových modelů. Angličtina tvoří dominantní část celého datasetu C4, z důvodu cílené filtrace během vytváření datasetu byly ostatní jazyky z původních dat vyfiltrovány.[14] Výzkum ukázal, že u low-resource jazyků obsahuje Common Crawl značné množství chybného textu nebo strojových překladů, což může degradovat výkon modelů trénovaných pro tyto jazyky.[17]
Autorská práva
[editovat | editovat zdroj]S rozvojem generativní umělé inteligence se vedou právní spory o to, zda je trénování modelů na datech z Common Crawl v souladu s autorským právem (v USA často argumentováno konceptem Fair Use). Někteří autoři a vydavatelé kritizují, že jejich obsah byl použit bez svolení a bez kompenzace. V reakci na to začaly některé velké mediální domy, jako například The New York Times, blokovat crawler CCBot pomocí souboru robots.txt, aby zabránily zahrnutí svého obsahu do budoucích datasetů.[18] Organizace Common Crawl se k tomuto vyjádřila a všechna obvinění o porušování autorských zákonů popřela.[19]
Odkazy
[editovat | editovat zdroj]Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku Common Crawl na anglické Wikipedii.
- ↑ a b c d Nonprofit Explorer. [cit. 2025-12-14].
- ↑ Common Crawl - Mission. commoncrawl.org [online]. [cit. 2025-12-21]. Dostupné online. (anglicky)
- ↑ a b BROWN, Tom B., et al. Language Models are Few-Shot Learners. In: Advances in Neural Information Processing Systems (NeurIPS). [s.l.]: [s.n.], 2020. Dostupné online. S. 1877–1901. (anglicky)
- ↑ a b c RAFFEL, Colin, et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research. 2020, roč. 21, čís. 140, s. 1–67. Dostupné online. ISSN 1532-4435. (anglicky)
- ↑ a b GRAVE, Edouard, et al. Learning Word Vectors for 157 Languages. In: Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018). [s.l.]: ELRA, 2018. Dostupné online. (anglicky)
- ↑ TABKE, Brett. What is the Common Crawl Database, and Why should a Site Owner Care?. www.searchengineworld.com [online]. 2025-09-30 [cit. 2025-12-21]. Dostupné online. (anglicky)
- ↑ Common Crawl - Alchetron, The Free Social Encyclopedia. Alchetron.com [online]. 2016-01-18 [cit. 2025-12-21]. Dostupné online. (anglicky)
- ↑ Statistics of Common Crawl Monthly Archives by commoncrawl. commoncrawl.github.io [online]. [cit. 2025-12-21]. Dostupné online.
- ↑ CS324 - Large Language Models: Data [online]. Stanford University, 2022 [cit. 2024-05-20]. Dostupné online. (anglicky)
- ↑ Frequently Asked Questions [online]. Common Crawl Foundation [cit. 2024-05-20]. Dostupné online. (anglicky)
- ↑ a b c Get Started: Data Formats [online]. Common Crawl Foundation [cit. 2024-05-20]. Dostupné online. (anglicky)
- ↑ www.iso.org [online]. [cit. 2025-12-22]. Dostupné online.
- ↑ Research use of web archived data — Library revue. knihovnarevue-en.nkp.cz [online]. [cit. 2025-12-22]. Dostupné online. (anglicky)
- ↑ a b DODGE, Jesse, et al. Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus. In: Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online: Association for Computational Linguistics, 2021. doi:10.18653/v1/2021.emnlp-main.98. S. 1286–1305. (anglicky)
- ↑ ORTIZ SUÁREZ, Pedro Javier, et al. A Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures. In: Proceedings of the 7th Workshop on Challenges in the Management of Large Corpora (CMLC-7). [s.l.]: [s.n.], 2019. Dostupné online. doi:10.14618/ids-pub-9021. (anglicky)
- ↑ GAO, Leo, et al. The Pile: An 800GB Dataset of Diverse Text for Language Modeling [online]. arXiv, 2020. Dostupné online. arXiv:2101.00027. (anglicky)
- ↑ KREUTZER, Julia, et al. Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets. Transactions of the Association for Computational Linguistics. MIT Press, 2022, roč. 10, s. 50–72. Dostupné online. doi:10.1162/tacl_a_00447. (anglicky)
- ↑ The New York Times Blocks OpenAI’s Web Crawler [online]. The Verge, 2023-08-21 [cit. 2024-05-20]. Dostupné online. (anglicky)
- ↑ Common Crawl - Blog - Setting the Record Straight: Common Crawl’s Commitment to Transparency, Fair Use, and the Public Good. commoncrawl.org [online]. [cit. 2025-12-22]. Dostupné online. (anglicky)
Externí odkazy
[editovat | editovat zdroj]Oficiální stránky Common Crawl (anglicky)
Vyhledávání v Common Crawl Indexu (anglicky)