Будинки Тенденції 7 Що потрібно знати про hadoop

7 Що потрібно знати про hadoop

Зміст:

Anonim

Що таке Hadoop? Це жовтий іграшковий слон. Не те, чого ви очікували? Як щодо цього: Даг Кейтінг - співавтор цього програмного проекту з відкритим кодом - запозичив ім'я у свого сина, який випадково назвав свого іграшкового слона Гадоопом. Коротше кажучи, Hadoop - це програмне забезпечення, розроблене програмним фондом Apache, який використовується для розробки обчислювальних даних, що вимагають значних даних. І це ключовий компонент в інших читачах мовних слів, які ніколи не можуть отримати достатню кількість: великих даних. Ось сім речей, які ви повинні знати про це унікальне вільно ліцензоване програмне забезпечення.

Як Hadoop почав свою роботу?

Дванадцять років тому Google побудував платформу для маніпулювання величезним обсягом даних, які він збирав. Як компанія часто це робить, Google зробила свій дизайн доступним для громадськості у вигляді двох паперів: File File System і MapReduce.


У той же час Дуг Різ і Майк Кафарела працювали над новою пошуковою системою Nutch. Вони також боролися, як обробляти велику кількість даних. Тоді двоє дослідників отримали посилання на документи Google. Цей вдалий перехрест змінив усе, ввівши Cutting та Cafarella до кращої файлової системи та способу відстеження даних, що врешті-решт призвело до створення Hadoop.

Що так важливо в Hadoop?

Сьогодні збирати дані простіше, ніж будь-коли. Наявність усіх цих даних дає багато можливостей, але є і проблеми:

  • Масова кількість даних вимагає нових методів обробки.
  • Дані, що захоплюються, мають неструктурований формат.
Щоб подолати проблеми маніпулювання величезною кількістю неструктурованих даних, Cutting та Cafarella запропонували рішення у двох частинах. Щоб вирішити проблему з кількістю даних, Hadoop використовує розподілене середовище - мережу товарних серверів - створюючи кластер паралельної обробки, який приносить більше потужностей обробки для виконання поставленого завдання.


Далі вони мали вирішувати неструктуровані дані або дані у форматах, з якими стандартні системи реляційних баз даних не змогли обробити. Cutting і Cafarella створили Hadoop для роботи з будь-яким типом даних: структурованими, неструктурованими, зображеннями, аудіофайлами, навіть текстом. Цей білий документ Cloudera (інтегратор Hadoop) пояснює, чому це важливо:

    "Роблячи всі ваші дані зручними, а не лише те, що є у ваших базах даних, Hadoop дозволяє вам розкривати приховані відносини та виявляє відповіді, які завжди були просто недоступними. Ви можете почати приймати більше рішень на основі жорстких даних, а не нахилів, і шукати на повних наборах даних, а не лише на вибірках та підсумках. "

Що таке схема читання?

Як було сказано раніше, однією з переваг Hadoop є її здатність обробляти неструктуровані дані. У певному сенсі, це "брикання банки по дорозі". Врешті-решт, дані потребують певної структури для їх аналізу.


Ось тут і грає схема читання. Схема читання - це керування тим, у якому форматі є дані, де знайти дані (пам’ятайте, дані розкидані між декількома серверами), і що робити з даними - непросте завдання. Кажуть, що для маніпулювання даними в системі Hadoop потрібні навички бізнес-аналітика, статистика та програміста Java. На жаль, не так багато людей з цими кваліфікаціями.

Що таке вулик?

Якщо Hadoop досяг успіху, роботу з даними довелося спростити. Отже, натовп з відкритим кодом почав працювати і створив вулик:

    "Hive забезпечує механізм структурування проектів на ці дані та запит даних за допомогою мови, подібної до SQL, що називається HiveQL. У той же час ця мова також дозволяє традиційним програмістам карт / зменшити програмування підключати свої спеціальні картографи та редуктори, коли це незручно або неефективно виражати цю логіку в HiveQL. "

Hive дозволяє найкраще з обох світів: персонал бази даних, знайомий з командами SQL, може маніпулювати даними, а розробники, знайомі зі схемою процесу читання, все ще можуть створювати спеціалізовані запити.

Які дані аналізує Hadoop?

Веб-аналітика - це перше, що спадає на думку, аналізуючи веб-журнали та веб-трафік з метою оптимізації веб-сайтів. Наприклад, Facebook, безумовно, займається веб-аналітикою, використовуючи Hadoop для сортування терабайт даних, які накопичує компанія.


Компанії використовують кластери Hadoop для аналізу ризиків, виявлення шахрайства та сегментації клієнтів. Комунальні компанії використовують Hadoop для аналізу даних датчиків з їх електричної мережі, що дозволяє оптимізувати виробництво електроенергії. Великі компанії, такі як Target, 3M та Medtronics, використовують Hadoop для оптимізації розподілу продукції, оцінки ділових ризиків та сегментації клієнтської бази.


В університет також вкладаються університети. Бред Рубін, доцент Університету Сент-Томас випускних програм з програмного забезпечення, зазначив, що його досвід Hadoop допомагає розібратися через велику кількість даних, зібраних дослідницькими групами в університеті.

Чи можете ви навести реальний приклад Hadoop?

Один з найбільш відомих прикладів - TimesMachine. "Нью-Йорк Таймс" має колекцію зображень TIFF на повній сторінці газет, пов'язані з ними метадані та текст статті з 1851 по 1922 р., Що становить терабайт даних. Дерек Готфрід від NYT, використовуючи систему EC2 / S3 / Hadoop та спеціалізований код:

    "Введено 405 000 дуже великих TIFF-зображень, 3, 3 мільйонів статей у SGML та 405 000 XML-файлів, які відображають статті у прямокутні регіони в TIFF. Ці дані були перетворені на більш зручні для веб-зображень 810 000 PNG-зображення (ескізи та повні зображення) та 405 000 файлів JavaScript. "

Використовуючи сервери в хмарі веб-служб Amazon, Готфрід зазначив, що вони могли обробити всі дані, необхідні для TimesMachine менш ніж за 36 годин.

Hadoop вже застарілий або просто перетворює морфінг?

Hadoop існує вже більше десяти років. Це багато хто говорить, що це застаріло. Один експерт, доктор Девід Ріко, сказав, що "ІТ-продукти недовговічні. У собачі роки продуктів Google близько 70, а Hadoop - 56".


Може бути якась правда в тому, що говорить Ріко. Схоже, що Hadoop проходить капітальний ремонт. Щоб дізнатися більше про це, Рубін запросив мене на зустріч групи користувачів побратимів Hadoop, і темою обговорення було Вступ до Пряжі:

    "Apache Hadoop 2 включає новий двигун MapReduce, який має низку переваг перед попередньою реалізацією, включаючи кращу масштабованість та використання ресурсів. Нова реалізація побудована на загальній системі управління ресурсами для запуску розподілених додатків під назвою YARN."
Hadoop отримує багато гулів у колах управління базами даних та вмістом, але навколо нього є ще багато питань і як їх найкраще використовувати. Це лише декілька. Якщо у вас є більше, надішліть їм наш шлях. Ми відповімо найкращим на Techopedia.com.

7 Що потрібно знати про hadoop