Будинки Аудіо Як скремтування даних для машинного навчання стало найбільш трудомістким вузьким місцем з моменту введення даних вручну за міграцією?

Як скремтування даних для машинного навчання стало найбільш трудомістким вузьким місцем з моменту введення даних вручну за міграцією?

Anonim

Q:

Як скремтування даних для машинного навчання стало найбільш трудомістким вузьким місцем з моменту введення даних вручну за міграцією?

A:

Однією з практичних проблем, з якою можуть зіткнутися компанії при спробі розпочати проект машинного навчання (ML), є проблема придбання початкових наборів даних про навчання. Це може включати трудомісткі процеси, такі як веб-вискоблювання або інші дані.

Терміни "скреблінг" та "скреблінг даних" значною мірою стосуються автоматизованої діяльності за допомогою комп'ютерного програмного забезпечення, але для багатьох проектів МЛ трапляються випадки, коли комп'ютери не мають складності для збору потрібних цільових даних, тому це доведеться робити "вручну." Це ви можете назвати "людським веб-скасуванням даних", і це невдячна робота. Зазвичай це стосується виходу на вулицю та пошуку даних або зображень, щоб «нагодувати» програму ML через навчальні набори. Часто це досить ітеративно, що робить його стомлювальною, млявою, вимогливою до роботи.

Безкоштовне завантаження: машинне навчання і чому це важливо

Очищення даних для навчальних наборів для МЛ представляє унікальну проблему в машинному навчанні, почасти тому, що значна частина інших робіт є висококонцептуальною та не повторюваною. Багато людей можуть придумати чудову ідею для нового додатка, який виконує завдання машинного навчання, але гайки та болти та практична робота можуть бути набагато складнішими. Зокрема, делегування роботи зі складання навчальних наборів насправді може бути однією з найскладніших частин проекту ML, як це повністю досліджено в телевізійному шоу "Силіконова долина" Майка Судді. У чотирьох епізодах сезону підприємець-початківець спочатку знущає партнера в роботі, що вимагає трудомістких робіт, а потім намагається передати це студентам коледжу, маскуючи його як домашнє завдання.

Цей приклад є повчальним, оскільки він показує, наскільки не подобається та, здається, неважливе ручне скребкування даних. Однак це також показує, що цей процес необхідний для широкого спектру продуктів машинного навчання. Хоча більшість людей ненавидить введення даних, навчальні набори повинні бути певним чином зібрані. Експерти з цього процесу часто рекомендують користуватися послугою веб-вискоблювання - по суті, просто передача цієї трудомісткої роботи зовнішнім сторонам, але це може мати наслідки для безпеки та спричинити інші проблеми. Зберігаючи ручну роботу зі збирання даних, знову ж таки, слід передбачити положення, що часто є дуже ручним і трудомістким процесом.

Певним чином "скреблінг даних для людини" для машинного навчання виглядає як ручне введення даних, яке іноді доводилося робити при застарілій міграції. Оскільки хмара стає все більш популярною, і компанії ставлять свої процеси та робочі процеси в хмару, деякі виявили, що вони не працювали через практичні аспекти того, як отримати свої корпоративні дані з ізольованої спадкової системи в хмарні додатки. Як результат, деякі люди, які в іншому випадку були науковцями даних або творчими людьми з важливими ІТ-навичками, опинилися у виконанні неприємних завдань щодо введення даних.

Те саме може трапитися і з машинним навчанням. Ви можете почути науковця, який скаржиться, що "я творча людина" або "Я на стороні розвитку" - але хтось повинен виконувати брудну роботу.

Знову ж таки, якщо творчий потік не узгоджується практичною оцінкою делегування робочого процесу, буде невідповідність того, як спрямована робота із завданнями. Коли у компанії немає людей, які б виконували роботу зі збирання даних, збираючи набори даних, їй не вистачає ключової частини ланцюжка процедур для успішного проекту. Варто пам’ятати про це будь-коли, коли компанія намагатиметься зробити ідею, яка базується на розробці нових програм машинного навчання.

Як скремтування даних для машинного навчання стало найбільш трудомістким вузьким місцем з моменту введення даних вручну за міграцією?