Будинки Тенденції Що $ @! це hadoop?

Що $ @! це hadoop?

Зміст:

Anonim

Всі говорять про Hadoop, нову гарячу технологію, яка високо цінується серед розробників і просто може змінити світ (знову). Але тільки що це все-таки? Це мова програмування? База даних? Система обробки? Індійський чай затишний?


Широка відповідь: Hadoop - це все це (крім чаю затишно) тощо. Це бібліотека програмного забезпечення, яка забезпечує рамки програмування для дешевої, корисної обробки іншого сучасного модного слова: великих даних.

Звідки взявся Hadoop?

Apache Hadoop є частиною Проекту Фонду від Фонду програмного забезпечення Apache, неприбуткової організації, завданням якої є "забезпечення програмного забезпечення для загального блага". Таким чином, бібліотека Hadoop - безкоштовне програмне забезпечення з відкритим кодом, доступне всім розробникам.


Основна технологія, яка використовує Hadoop, була фактично винайдена Google. Ще в перші дні не дуже-гігантській пошуковій системі потрібен був спосіб індексувати величезну кількість даних, які вони збирали з Інтернету, і перетворити їх на значущі, релевантні результати для своїх користувачів. Не маючи на ринку нічого, що могло б задовольнити їхні вимоги, Google створив власну платформу.


Ці нововведення були випущені у проекті з відкритим кодом під назвою Nutch, який Hadoop згодом використав як фундамент. По суті, Hadoop застосовує потужність Google до великих даних таким чином, що є доступним для компаній усіх розмірів.

Як працює Hadoop?

Як згадувалося раніше, Hadoop - це не одне - це багато речей. Бібліотека програмного забезпечення Hadoop складається з чотирьох первинних частин (модулів) та ряду додаткових рішень (наприклад, баз даних та мов програмування), що покращують її використання в реальному світі. Чотири модулі:

  • Hadoop Common: Це колекція загальних утиліт (загальна бібліотека), яка підтримує модулі Hadoop.
  • Розподілена файлова система Hadoop (HDFS): надійна розподілена файлова система без обмежень на збережені дані (мається на увазі, що дані можуть бути структурованими або неструктурованими та без схеми, де багато DFS зберігатимуть лише структуровані дані), що забезпечує доступ з високою пропускною спроможністю із надмірністю ( HDFS дозволяє зберігати дані на декількох машинах - тому якщо одна машина виходить з ладу, доступність підтримується на інших машинах).
  • Hadoop ПРАВО: Ця структура відповідає за планування робочих місць та управління ресурсами кластера; це гарантує достатню розподіл даних на декількох машинах для підтримки надмірності. YARN - це модуль, який робить Hadoop доступним та економічно ефективним способом обробки великих даних.
  • Hadoop MapReduce: Ця система на основі YARN, побудована за технологією Google, здійснює паралельну обробку великих наборів даних (структурованих та неструктурованих). MapReduce також можна знайти в більшості сучасних каркасів обробки великих даних, включаючи бази даних MPP та NoSQL.
Усі ці модулі, що працюють разом, генерують розподілену обробку для великих наборів даних. Рамка Hadoop використовує прості моделі програмування, які тиражуються на кластерах комп'ютерів, тобто система може збільшувати масштаби від окремих серверів до тисяч машин для збільшення потужності обробки, а не покладатися лише на обладнання.


Обладнання, яке може впоратися з обробкою потужності, необхідної для роботи з великими даними, є дорогою, м'яко кажучи. Це справжня інновація Hadoop: можливість розбивати великі обсяги процесорної потужності на декількох менших машинах, кожна з яких має свої локалізовані обчислення та сховища, а також вбудовану надмірність на рівні програми для запобігання збоїв.

Що робить Hadoop?

Говорячи просто, Hadoop робить великі дані доступними та зручними для всіх.


До Hadoop компанії, які використовували великі дані, робили це здебільшого за допомогою реляційних баз даних та корпоративних сховищ даних (які використовують велику кількість дорогого обладнання). Хоча ці інструменти чудово підходять для обробки структурованих даних - а це вже впорядковані та організовані дані керованими способами - можливості для обробки неструктурованих даних були надзвичайно обмеженими, настільки, що їх практично не було. Для зручності використання дані спочатку повинні бути структуровані так, щоб вони акуратно вписувалися в таблиці.


Рамка Hadoop змінює цю вимогу і робить це дешево. Завдяки Hadoop, масивні дані від 10 до 100 гігабайт і вище, як структуровані, так і неструктуровані, можуть бути оброблені за допомогою звичайних (товарних) серверів.


Hadoop пропонує потенційні додатки для великих даних для підприємств усіх розмірів у будь-якій галузі. Рамка з відкритим кодом дозволяє фінансовим компаніям створювати складні моделі для оцінки портфеля та аналізу ризиків, або інтернет-роздрібні торговці налагоджують свої відповіді на пошук та вказують клієнтів на продукти, які вони швидше купують.


Можливості Hadoop справді безмежні.

Що $ @! це hadoop?