Apache Hadoop
| Apache Hadoop | |
| Информация | |
|---|---|
| Автор | Дъг Кътинг, Майк Кафарела |
| Разработчик | Фондация „Апачи Софтуер“ |
| Начална версия | 1 април 2006 г. |
| Последна версия | 3.4.0 17 март 2024 г. |
| Програмен език | Java |
| Операционна система | междуплатформен софтуер |
| Лиценз | Apache License 2.0 |
| Уебсайт | hadoop.apache.org |
| Apache Hadoop в Общомедия | |
Apache Hadoop е набор от инструменти с отворен код, които улесняват използването на мрежа от много компютри за разрешаването на проблеми, включващи огромно количество данни и изчисления. Предоставя софтуерна рамка за разпределено съхранение и обработване на big data чрез програмния модел MapReduce. Hadoop първоначално е проектиран през 2006 г. за работа с компютърни клъстери, съставени от хардуер за широкото потребление,[1] но по-късно започва да се използва и сред по-високопроизводителните системи.[2][3] Всичките модули в Hadoop са проектирани с презумпцията, че хардуерните повреди са често срещано явление и фреймуъркът следва да се справя с тях автоматично.[4]
Ядрото на Apache Hadoop е съставено от част за съхранение (Hadoop Distributed File System – HDFS) и част за обработка (MapReduce). Софтуерът разделя файловете на големи блокове и ги разпределя по членовете на клъстера. След това прехвърля пакетиран код (JAR) по членовете, който да обработва паралелно данните. Този подход се възползва от референтната локалност,[5] при която машините работят върху данните, до които имат достъп. Това позволява наборът от данни да бъде обработен по-бързо и по-ефикасно, отколкото иначе би било възможно с конвенционалната архитектура на суперкомпютрите, която разчита на паралелната файлова система, където изчисленията и данните се разпределят чрез високоскоростна мрежова инфраструктура.[6][7]
Софтуерната рамка на Hadoop е написана главно на Java с някои части на C.
Източници
[редактиране | редактиране на кода]- ↑ Judge, Peter. Doug Cutting: Big Data Is No Bubble // 22 октомври 2012. Посетен на 11 март 2018.
- ↑ Woodie, Alex. Why Hadoop on IBM Power // Datanami, 12 май 2014. Посетен на 11 март 2018.
- ↑ Hemsoth, Nicole. Cray Launches Hadoop into HPC Airspace // 15 октомври 2014. Посетен на 11 март 2018.
- ↑ Welcome to Apache Hadoop! // Посетен на 25 август 2016.
- ↑ What is the Hadoop Distributed File System (HDFS)? // IBM. Посетен на 12 април 2021.
- ↑ Data Locality: HPC vs. Hadoop vs. Spark // Data Science Association, 19 септември 2014. Архивиран от оригинала на 2017-09-10. Посетен на 2021-11-02.
- ↑ Characterization and Optimization of Memory-Resident MapReduce on HPC Systems // 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE, октомври 2014. ISBN 978-1-4799-3800-1. DOI:10.1109/IPDPS.2014.87. с. 799 – 808.
|