Зміст:
- Міф: Усі випереджають нас у прийнятті великих даних.
- Міф: У нас так багато даних; нам не потрібно турбуватися про кожен невеликий недолік даних.
- Міф: Великі технології передачі даних позбавлять від необхідності інтеграції даних.
- Міф: Використання сховища даних для розширеної аналітики безглуздо.
- Міф: озера даних замінять сховище даних.
- Робота з великими даними - нові методи маніпуляції даними можуть не бути
Ще в травні 2014 року компанія Forrester Research опублікувала два доповіді, в яких робила певні висновки щодо ажіотажу навколо великих даних. Дослідницька фірма опитала понад 250 керівників маркетингу та розвитку бізнесу. За твердженнями авторів звіту, велика риторика даних набуває найвищого часу, а виробники технологій рекламують продукцію, якою вони здаються неймовірними.
Gartner погоджується з дослідженнями Forrester; суттєвий ажіотаж оточує великі дані. У звіті за вересень 2014 року Gartner розкриває п'ять найбільших міфів про дані, і аналітики Gartner пропонують свою думку щодо того, що неправильно зрозуміло щодо великих даних та їх маніпулювання. Отже, які є найбільші міфи даних про великі дані? Давай подивимось.
Міф: Усі випереджають нас у прийнятті великих даних.
Ґартнер каже, що інтерес до великих даних завжди є високим. Незважаючи на це, у 13 відсотків опитаних є мало працюючих систем. Причина: більшість компаній ще не з'ясували, як вивести будь-яке значення з великих сховищ даних. Тут опитування Gartner є більш оптимістичним, ніж у звіті Forrester, який виявив, що лише 9 відсотків учасників опитування заявили, що планують впровадити технології технологій великих даних протягом наступного року. (Великі дані можуть запропонувати багато. Дізнайтеся більше у 5 проблем із реальним світом. Великі дані можуть вирішити.)Міф: У нас так багато даних; нам не потрібно турбуватися про кожен невеликий недолік даних.
Гартнер стурбований сприйнятливістю у нас людей: "У нас так багато, мало що погано не матиме значення". Тед Фрідман, віце-президент і відомий аналітик компанії Gartner, вважає, що це неправильний погляд на ситуацію.
"Насправді, хоча кожен окремий недолік має набагато менший вплив на весь набір даних, ніж це було, коли було менше даних, є більше недоліків, ніж раніше, тому що є більше даних", - сказав Фрідман. "Тому загальний вплив неякісних даних на весь набір даних залишається однаковим."
Фрідман додає ще одну причину для занепокоєння. Збір великих даних часто включає дані за межами бізнесу, які мають невідому структуру та походження. Це збільшує можливість помилок.
Міф: Великі технології передачі даних позбавлять від необхідності інтеграції даних.
Існують дві основні стратегії аналізу даних, які можуть застосовуватися до великих даних: "схема на запис" або "схема при читанні". Донедавна схема запису була єдиним методом. Схема читання - це поточний манія в управлінні базами даних. На відміну від схеми для запису, яка вимагає структурованого формату, дані завантажуються в бази даних, що читаються на схемі, у необробленому форматі. Тоді розробники - за допомогою неструктурованих платформ бази даних, як Hadoop - згинають розрізнені дані у зручному форматі. Схема читання має очевидні переваги, але, як зазначає Gartner, інтеграція даних повинна відбутися в якийсь момент.Міф: Використання сховища даних для розширеної аналітики безглуздо.
Витрата часу на створення сховища даних здається безглуздим для багатьох менеджерів інформації, особливо коли новозахоплені дані відрізняються від даних у сховищі даних. Однак Gartner знову попереджає, що навіть розширена аналітика даних використовуватиме сховища даних та нові дані, що означає, що інтегратори даних повинні:- Уточнюйте нові типи даних, щоб зробити їх придатними для аналізу
- Вирішіть, які дані є релевантними, та рівень необхідної якості даних
- Визначте, як агрегувати дані
- Зрозумійте, що уточнення даних може відбутися в інших місцях, крім сховища даних
Міф: озера даних замінять сховище даних.
Озера даних є сховищами різних даних, на відміну від сховищ даних, де дані мають структурований формат. Створення озера даних потребує невеликих зусиль (не потрібно форматувати дані) порівняно зі сховищами даних, тому джерела даних представляють інтерес.
Гартнер підкреслює, що мати дані - не суть - в тому, щоб маніпулювати захопленими даними для прийняття зваженого рішення, це справа. Більше того, використання (дещо недоведених) даних озер для полегшення прийняття рішень є проблематичним.
"Склади даних вже мають можливості підтримувати широкий спектр користувачів у всій організації", - сказав Нік Хюдекер, директор з досліджень Gartner. "Лідерам управління інформацією не потрібно чекати, коли наздогнать озер даних". (Дізнайтеся більше про прийняття великих даних у 7 речах, які ви повинні знати про великі дані до прийняття.)
Робота з великими даними - нові методи маніпуляції даними можуть не бути
Причина, від якої Гартнер сказав, що "міфи про найбільші дані" замість "міфів з великими даними", стає зрозумілою після прочитання звіту. Gartner не випробовує великих даних. Gartner випробовує тих, хто відчуває, що новіші методи маніпулювання великими даними готові до "прайм-тайму".