Будинки Аудіо Які основні способи автоматизувати та оптимізувати процеси наукових даних?

Які основні способи автоматизувати та оптимізувати процеси наукових даних?

Anonim

Q:

Які основні способи автоматизувати та оптимізувати процеси наукових даних?

A:

Процеси наукових даних у контексті машинного навчання та ШІ можна розділити на чотири окремі фази:

  1. збирання та дослідження даних,
  2. побудова моделі,
  3. розгортання моделі та
  4. онлайн-оцінка та уточнення.

З мого досвіду, найбільш перешкоджаючими фазами є фази збору даних та моделей розгортання в будь-якому процесі наукових даних на основі машинного навчання, і ось два способи їх оптимізації:

1. Створіть високодоступний сховище даних.

У більшості організацій дані не зберігаються в одному центральному місці. Давайте просто візьмемо інформацію, що стосується клієнтів. Ви маєте контактну інформацію із клієнтами, електронні листи з підтримкою клієнтів, відгуки клієнтів та історію перегляду клієнтів, якщо ваш бізнес - це веб-додаток. Усі ці дані природно розпорошені, оскільки вони служать різним цілям. Вони можуть розміщуватися в різних базах даних, а деякі можуть бути повністю структуровані, а деякі неструктуровані, і навіть можуть зберігатися як текстові файли.

На жаль, розсіяність цих наборів даних сильно обмежує роботу з науковими даними, оскільки основою всіх проблем НЛП, машинного навчання та ШІ є дані . Отже, наявність усіх цих даних в одному місці - сховищі даних - першорядне значення для прискорення розробки та розгортання моделі. Зважаючи на те, що це важлива частина для всіх процесів наукових даних, організації повинні найняти кваліфікованих інженерів, які допоможуть їм створити свої сховища даних. Це можна легко розпочати, як прості скидання даних в одне місце і повільно переростають у продумане сховище даних, повністю задокументовано та піддаються запиту за допомогою утилітних інструментів для експорту підмножини даних у різні формати для різних цілей.

2. Розкрийте свої моделі як послугу безперебійної інтеграції.

Крім забезпечення доступу до даних, важливо також мати можливість інтегрувати в продукт моделі, розроблені науковцями даних. Інтегрувати моделі, розроблені в Python, з веб-додатком, який працює на Ruby, може бути дуже важко. Крім того, у моделей може бути багато залежностей від даних, які може не забезпечити ваш продукт.

Один із способів вирішити це - створити потужну інфраструктуру навколо вашої моделі та виявити достатньо функціональних можливостей, необхідних вашому продукту, щоб використовувати модель як "веб-сервіс". Наприклад, якщо вашій програмі потрібна класифікація настроїв щодо відгуків про товар, все, що потрібно зробити, - це звернутися до веб-сервісу, надаючи відповідний текст, і служба поверне відповідну класифікацію настроїв, якою продукт може безпосередньо користуватися. Таким чином інтеграція просто у формі виклику API. Розв’язка моделі та товару, який вона використовує, дуже легко створює нові продукти, які ви придумали, а також використовувати ці моделі з невеликим клопотом.

Тепер, налаштування інфраструктури навколо вашої моделі - це зовсім інша історія і вимагає великих інвестицій від ваших інженерних команд. Після того, як інфраструктура є, це просто питання побудови моделей таким чином, щоб вона вписувалася в інфраструктуру.

Які основні способи автоматизувати та оптимізувати процеси наукових даних?