Будинки Аудіо Аналітика Hadoop: не так просто в різних джерелах даних

Аналітика Hadoop: не так просто в різних джерелах даних

Зміст:

Anonim

Hadoop - це прекрасне місце для завантаження даних для обробки аналітики або моделювання великих обсягів одного джерела даних, що неможливо в існуючих системах. Однак, оскільки компанії привозять дані з багатьох джерел в Hadoop, зростає попит на аналіз даних у різних джерелах, що може бути надзвичайно важко досягти. Ця публікація є першою у трискладовій серії, в якій пояснюються проблеми, з якими стикаються організації, коли вони намагаються проаналізувати різні джерела даних та типи в Hadoop та способи вирішення цих проблем. Сьогоднішній пост присвячений проблемам, що виникають при поєднанні декількох внутрішніх джерел. Наступні два публікації пояснюють, чому ці проблеми збільшуються у складності, як додаються зовнішні джерела даних, і як нові підходи допомагають їх вирішити.

Дані з різних джерел, які важко підключити та карта

Дані з різних джерел мають різні структури, які ускладнюють з'єднання та картування типів даних разом, навіть дані із внутрішніх джерел. Об'єднання даних може бути особливо важким, якщо клієнти мають декілька номерів рахунків або організація придбала або об'єдналася з іншими компаніями. Протягом останніх кількох років деякі організації намагалися використовувати дані для відкриття даних або програми для наукових даних для аналізу даних із багатьох джерел, що зберігаються в Hadoop. Такий підхід є проблематичним, оскільки він передбачає багато здогадок: користувачі повинні вирішити, які зовнішні ключі використовувати для підключення різних джерел даних та робити припущення під час створення накладки моделі даних. Ці здогадки важко перевірити і часто неправильні при застосуванні в масштабі, що призводить до помилкового аналізу даних та недовіри до джерел.

Експерти Hadoop намагаються об'єднати дані разом

Тому організації, які хочуть аналізувати дані в різних джерелах даних, вдаються до найму фахівців Hadoop для створення спеціальних сценаріїв, характерних для джерела, для об'єднання наборів даних. Ці фахівці Hadoop, як правило, не є фахівцями з інтеграції даних чи вирішення питань, але вони роблять все можливе для вирішення нагальних потреб організації. Ці експерти зазвичай використовують Pig або Java для написання жорстких і швидких правил, які визначають, як поєднувати структуровані дані з конкретних джерел, наприклад, відповідність записів на основі номера рахунку. Після написання сценарію для двох джерел, якщо потрібно додати третє джерело, перший сценарій повинен бути викинутий і новий сценарій, призначений для поєднання трьох конкретних джерел. Те саме відбувається, якщо додається інше джерело тощо. Цей підхід не тільки неефективний, але і не працює при застосуванні в масштабі, погано обробляє крайові випадки, може спричинити велику кількість дублікатів записів і часто об'єднує багато записів, які не слід поєднувати.

Аналітика Hadoop: не так просто в різних джерелах даних