Аналітика Hadoop: не так просто в різних джерелах даних

2025

Зміст:

Дані з різних джерел, які важко підключити та карта
Експерти Hadoop намагаються об'єднати дані разом

Hadoop - це прекрасне місце для завантаження даних для обробки аналітики або моделювання великих обсягів одного джерела даних, що неможливо в існуючих системах. Однак, оскільки компанії привозять дані з багатьох джерел в Hadoop, зростає попит на аналіз даних у різних джерелах, що може бути надзвичайно важко досягти. Ця публікація є першою у трискладовій серії, в якій пояснюються проблеми, з якими стикаються організації, коли вони намагаються проаналізувати різні джерела даних та типи в Hadoop та способи вирішення цих проблем. Сьогоднішній пост присвячений проблемам, що виникають при поєднанні декількох внутрішніх джерел. Наступні два публікації пояснюють, чому ці проблеми збільшуються у складності, як додаються зовнішні джерела даних, і як нові підходи допомагають їх вирішити.

Дані з різних джерел, які важко підключити та карта

Дані з різних джерел мають різні структури, які ускладнюють з'єднання та картування типів даних разом, навіть дані із внутрішніх джерел. Об'єднання даних може бути особливо важким, якщо клієнти мають декілька номерів рахунків або організація придбала або об'єдналася з іншими компаніями. Протягом останніх кількох років деякі організації намагалися використовувати дані для відкриття даних або програми для наукових даних для аналізу даних із багатьох джерел, що зберігаються в Hadoop. Такий підхід є проблематичним, оскільки він передбачає багато здогадок: користувачі повинні вирішити, які зовнішні ключі використовувати для підключення різних джерел даних та робити припущення під час створення накладки моделі даних. Ці здогадки важко перевірити і часто неправильні при застосуванні в масштабі, що призводить до помилкового аналізу даних та недовіри до джерел.

Експерти Hadoop намагаються об'єднати дані разом

Тому організації, які хочуть аналізувати дані в різних джерелах даних, вдаються до найму фахівців Hadoop для створення спеціальних сценаріїв, характерних для джерела, для об'єднання наборів даних. Ці фахівці Hadoop, як правило, не є фахівцями з інтеграції даних чи вирішення питань, але вони роблять все можливе для вирішення нагальних потреб організації. Ці експерти зазвичай використовують Pig або Java для написання жорстких і швидких правил, які визначають, як поєднувати структуровані дані з конкретних джерел, наприклад, відповідність записів на основі номера рахунку. Після написання сценарію для двох джерел, якщо потрібно додати третє джерело, перший сценарій повинен бути викинутий і новий сценарій, призначений для поєднання трьох конкретних джерел. Те саме відбувається, якщо додається інше джерело тощо. Цей підхід не тільки неефективний, але і не працює при застосуванні в масштабі, погано обробляє крайові випадки, може спричинити велику кількість дублікатів записів і часто об'єднує багато записів, які не слід поєднувати.

Аналітика Hadoop: не так просто в різних джерелах даних

Ключ до якісної аналітики великих даних: розуміння "різних" - стенограми епізоду 4

Ерік: Пані та панове, це кінець 2014 року - принаймні, майже. Це наша остання веб-трансляція року, люди! Ласкаво просимо до TechWise! Так, справді! Мене звуть Ерік Кавана. Я буду вашим модератором для дивовижних ...

Аналітика Hadoop: для об'єднання даних потрібен джерелоагностичний підхід

Поєднання джерел даних у Hadoop - справа складна. Деякі з причин цього включають: Спеціальні, специфічні для джерела сценарії, які поєднують джерела даних, є проблематичними. За допомогою інтеграції даних або інструментів наукових даних вводиться ...

Аналітика Hadoop: не так просто в різних джерелах даних

Зміст:

Дані з різних джерел, які важко підключити та карта

Експерти Hadoop намагаються об'єднати дані разом

Найбільша картина: знаючи свого клієнта на різних платформах

Ключ до якісної аналітики великих даних: розуміння "різних" - стенограми епізоду 4

Аналітика Hadoop: для об'єднання даних потрібен джерелоагностичний підхід

Вибір редактора

Що таке прапор носити (с прапор)? - визначення з техопедії

Що таке схема? - визначення з техопедії

Що таке сервер sql? - визначення з техопедії

Проста система веб-індексації для людей (швейцарська) - визначення з техопедії

Вибір редактора

Хто був Никола Тесла? - визначення з техопедії

Що таке контроль облікових записів користувачів (uac)? - визначення з техопедії

Що таке хмарний захисний брокер? - визначення з техопедії

Що таке sql на hadoop? - визначення з техопедії

Вибір редактора

Як працює мережеве сканування?

Що здійснюють адміністратори мережі за допомогою аналізатора пропускної здатності або монітора пропускної здатності?

Чим моніторинг пропускної здатності відрізняється від інших видів моніторингу мережі?

Як адміністратори знаходять просвітів пропускної здатності?

Вибір редактора

Що таке годинник у режимі реального часу (rtc)? - визначення з техопедії

Що таке бездокументована особливість? - визначення з техопедії

Що таке анаморфізм? - визначення з техопедії

Що таке об'єднання? - визначення з техопедії

Вибір редактора

Що таке віртуальна ідентичність? - визначення з техопедії

Що таке постачальник віртуальних послуг Інтернету (вісп)? - визначення з техопедії

Що таке антивірусний вбивця (av killer)? - визначення з техопедії

Що таке послуги підприємства? - визначення з техопедії

Популярні категорії