Будинки It-Business Дані, великі та малі: де реальна цінність?

Дані, великі та малі: де реальна цінність?

Зміст:

Anonim

Великі дані - це прості слово, яке використовується для позначення обробки великих обсягів даних. Всі ми розуміємо, що чим більший обсяг даних, тим вони складніші. Традиційні рішення баз даних часто не вдається правильно керувати великими обсягами даних через їх складність та розмір. Тому управління великими обсягами даних та отримання реального розуміння є складним завданням. Та ж концепція "значення" застосовується і до малих даних.

Як великі дані використовуються

Звичайні рішення баз даних, засновані на концепції RDBMS, можуть дуже добре керувати транзакційними даними та широко використовуються в різних програмах. Але якщо мова йде про обробку великого набору даних (дані, які зберігаються в архіві і знаходяться в терабайт або петабайт), ці рішення бази даних часто виходять з ладу. Ці набори даних занадто великі і в більшості випадків вони не вписуються в архітектуру традиційних баз даних. В наші дні великі дані стали економічно ефективним підходом до обробки великих наборів даних. З організаційної точки зору, використання великих даних можна розділити на такі категорії, де реальна цінність великих даних знаходиться:

  • Аналітичне використання

    Аналітики великих даних виявили багато важливих прихованих аспектів даних, які занадто дорого обробляються. Наприклад, якщо нам доведеться перевірити тенденцію зацікавленості студентів до певної нової теми, ми можемо це зробити, проаналізувавши записи щоденних відвідувань та інші соціально-географічні факти. Ці факти фіксуються в базі даних. Якщо ми не можемо ефективно отримати доступ до цих даних, ми не можемо побачити результати.

  • Увімкнути нові продукти

    В недалекому минулому багато нових веб-компаній, таких як Facebook, почали використовувати великі дані як рішення для запуску нових продуктів. Ми всі знаємо, наскільки популярний Facebook - він успішно підготував високопродуктивне користувацьке враження з використанням великих даних.

Де реальна вартість?

Різні рішення великих даних відрізняються підходом, в якому вони зберігають дані, але врешті-решт, вони зберігають дані у плоскій структурі файлів. Загалом Hadoop складається з файлової системи та деяких абстракцій даних на рівні операційної системи. Сюди входить двигун MapReduce та розподілена файлова система Hadoop (HDFS). Простий кластер Hadoop включає один головний вузол і кілька робочих вузлів. Головний вузол складається з наступного:

  • Відстеження завдань
  • Робота відстежувача
  • Ім'я Вузол
  • Вузол даних
Робочий вузол складається з наступного:
  • Відстеження завдань
  • Вузол даних

Деякі реалізації мають лише вузол даних. Вузол даних - це фактична область, де лежать дані. HDFS зберігає великі файли (в діапазоні від терабайт до петабайт), розподілених на декількох машинах. Надійність даних на кожному вузлі досягається шляхом тиражування даних на всіх хостах. Таким чином, дані доступні навіть тоді, коли один з вузлів знаходиться вниз. Це допомагає досягти швидшого відповіді на запити. Ця концепція дуже корисна у випадку величезних додатків, таких як Facebook. Як користувач, ми отримуємо відповідь на наш запит чату, наприклад, майже негайно. Розглянемо сценарій, коли користувачеві доводиться довго чекати під час чату. Якщо повідомлення та відповідь, що надається, не надходять негайно, то скільки людей насправді використовуватимуть ці інструменти для чату?

Повернувшись до реалізації Facebook, якщо дані не будуть реплікуватись у кластери, неможливо мати привабливу реалізацію. Hadoop розподіляє дані по машинах у більшому кластері та зберігає файли як послідовність блоків. Ці блоки мають однаковий розмір, за винятком останнього. Розмір блоку та коефіцієнта реплікації можна налаштувати за потребою. Файли у форматі HDFS суворо дотримуються підходу одноразового запису, а отже, одночасно їх може записувати чи редагувати лише один користувач. Рішення щодо тиражування блоків приймаються вузлом імені. Вузол імені отримує звіти та імпульсні відповіді від кожного з вузлів даних. Імпульсні відповіді забезпечують наявність відповідного вузла даних. Звіт містить детальну інформацію про блоки на вузлі даних.


Інша реалізація великих даних, Кассандра, також використовує аналогічну концепцію розподілу. Кассандра поширює дані на основі географічного положення. Отже, у Кассандрі дані поділяються на основі географічного положення використання даних.

Іноді малі дані роблять більший (і менш дорогий) вплив

Відповідно до Руфуса Поллока з Фонду «Відкриті знання», немає сенсу створювати галасливий обмін великими даними, тоді як невеликі дані все ще є місцем, де лежить справжня цінність.


Як випливає з назви, малі дані - це набір даних, орієнтованих на більший набір даних. Малі дані мають намір змістити фокус від використання даних, а також спрямовані на протидію тенденції руху до великих даних. Підхід з невеликими даними допомагає збирати дані на основі конкретних вимог, використовуючи менше зусиль. Як результат, це більш ефективна бізнес-практика при впровадженні бізнес-аналізу.


По суті, концепція малих даних обертається навколо підприємств, які потребують результатів, які потребують подальших дій. Ці результати потрібно отримати швидко, і наступні дії також повинні бути виконані негайно. Таким чином, ми можемо усунути види систем, які зазвичай використовуються в аналітиці великих даних.


Загалом, якщо ми розглянемо деякі конкретні системи, необхідні для збору великих даних, компанія може інвестувати в налаштування великої кількості серверного сховища, використання складних серверів високого класу та найновіших додатків для обміну даними для обробки різних бітів даних, включаючи дати та час дій користувачів, демографічну інформацію та іншу інформацію. Весь цей набір даних переміщується до центрального сховища даних, де використовуються складні алгоритми для сортування та обробки даних для відображення у вигляді детальних звітів.


Всі ми знаємо, що ці рішення принесли користь багатьом підприємствам з точки зору масштабності та доступності; Є організації, які виявляють, що для прийняття цих підходів потрібні значні зусилля. Правда, що в деяких випадках подібні результати досягаються за допомогою менш надійної стратегії вилучення даних.


Невеликі дані надають організаціям можливість відмовитися від одержимості новітніми та новітніми технологіями, що підтримують більш складні бізнес-процеси. Компанії, які просувають невеликі дані, стверджують, що важливо з точки зору бізнесу використовувати свої ресурси ефективно, щоб у певній мірі уникнути перевитрат на технології.


Ми багато обговорювали про великі дані та реальність малих даних, але ми повинні розуміти, що вибір правильної платформи (великих даних або малих даних) для правильного використання є найважливішою частиною всієї вправи. І правда полягає в тому, що хоча великі дані можуть принести багато переваг, це не завжди найкраще.

Дані, великі та малі: де реальна цінність?