Будинки Аудіо Чи може коли-небудь бути занадто багато даних у великих даних?

Чи може коли-небудь бути занадто багато даних у великих даних?

Anonim

Q:

Чи може коли-небудь бути занадто багато даних у великих даних?

A:

Відповідь на запитання - це ДА. Абсолютно може бути занадто багато даних у великому проекті даних.

Існує чимало способів, як це може статися, і різні причини, через які професіоналам потрібно обмежувати та лікувати дані будь-якою кількістю способів, щоб отримати правильні результати. (Прочитайте 10 великих міфів про великі дані.)

Загалом експерти говорять про відмежування "сигналу" від "шуму" в моделі. Іншими словами, у морі великих даних відповідні дані прозорливості стає важко орієнтуватися. У деяких випадках ви шукаєте голку в копиці сіна.

Наприклад, припустимо, що компанія намагається використовувати великі дані для отримання конкретної інформації про сегмент клієнтської бази та їх придбання протягом певного часового періоду. (Прочитайте Що робить великі дані?)

Залучення величезної кількості даних може призвести до забору випадкових даних, що не є актуальним, або навіть може призвести до упередження, яке перекосує дані в ту чи іншу сторону.

Це також різко уповільнює процес, оскільки обчислювальній системі доводиться боротися з більшими та більшими наборами даних.

У такій кількості різноманітних проектів для інженерів даних дуже важливо підбирати дані до обмежених та конкретних наборів даних - у випадку вище, це були б лише дані для того сегменту клієнтів, який вивчається, лише дані того часу кадр, який вивчається, і підхід, який викорчує додаткові ідентифікатори або довідкову інформацію, яка може заплутати речі або сповільнити системи. (Роль ReadJob: Інженер даних.)

Детальніше розглянемо, як це працює на кордоні машинного навчання. (Читайте машинне навчання 101.)

Експерти машинного навчання говорять про щось, що називається "переоснащення", коли надмірно складна модель призводить до менш ефективних результатів, коли програма машинного навчання втрачається на нових виробничих даних.

Перенастроювання буває, коли складний набір точок даних занадто добре відповідає початковому навчальному набору, і не дозволяють програмі легко адаптуватися до нових даних.

Зараз технічно перевиконання зумовлене не існуванням занадто багато зразків даних, а коронацією занадто багато точок даних. Але ви можете стверджувати, що надмірна кількість даних також може стати фактором, що сприяє цьому типу проблем. Справа з прокляттям розмірності передбачає деякі ті ж методики, що і в попередніх великих проектах даних, як професіонали намагалися точно визначити, чим вони живлять ІТ-системи.

Суть полягає в тому, що великі дані можуть бути дуже корисними для компаній, або вони можуть стати головною проблемою. Одним з аспектів цього є те, чи має компанія правильні дані. Фахівці знають, що не бажано просто скидати всі активи даних у бункер і таким чином придумувати уявлення - в нових хмарних і складних системах передачі даних є зусилля для контролю та управління та обробки даних, щоб отримати більш точні та ефективне використання активів даних.

Чи може коли-небудь бути занадто багато даних у великих даних?