Зміст:
Визначення - Що означає Apache Nutch?
Apache Nutch - програмний продукт веб-сканерів, який можна використовувати для агрегації даних з Інтернету. Він використовується спільно з іншими інструментами Apache, такими як Hadoop, для аналізу даних.
Техопедія пояснює Apache Nutch
Apache Nutch - продукт з відкритим кодом, ліцензований програмним фондом Apache. Ця спільнота розробників має ліцензії на цілий ряд програмних засобів Apache, які дозволяють сортувати та аналізувати дані. Однією з центральних технологій є Apache Hadoop - великий інструмент для аналізу даних, який користується великою популярністю у бізнес-спільноти.
Поряд з такими інструментами, як Apache Hadoop та функціями для зберігання файлів, аналізу та ін., Роль Nutch полягає у збиранні та зберіганні даних з Інтернету за допомогою алгоритмів сканування веб.
Користувачі можуть скористатися простими командами в Apache Nutch для збору інформації під URL-адресами. Користувачі зазвичай використовують Apache Nutch разом з іншим інструментом з відкритим кодом, рамкою під назвою Apache Solr, яка може виконувати функції сховища даних, зібраних за допомогою Apache Nutch.