Зміст:
Визначення - Що означає свиня Apache?
Apache Pig - це платформа, яка використовується для аналізу великих наборів даних. Він складається з мови високого рівня для вираження програм аналізу даних, а також інфраструктури для оцінки цих програм. Однією з найбільш значущих особливостей Свині є те, що її структура реагує на значну паралелізацію.
Pig працює на платформі Hadoop, записуючи дані та читаючи дані з розподіленої файлової системи Hadoop (HDFS) та виконуючи обробку за допомогою одного або декількох завдань MapReduce. Apache Pig доступний як відкритий код.
Свиня Apache також відома як Мова програмування свиней або Hadoop Pig.
Техопедія пояснює свиню Апаче
Apache Pig складається з двох частин: Свиня латинською мовою та Свинячий двигун. Латинська мова Свиня - це сценарій мови, що дозволяє користувачам проілюструвати спосіб, який повинен читати та обробляти потік даних з одного або декількох входів, а також місце, в якому потрібно зберігати.
Деякі з основних властивостей латинської свині:
- Просте програмування: Складні завдання, що складаються з різних взаємопов'язаних перетворень даних, чітко кодуються як послідовності потоку даних. Це робить їх простими в написанні, розумінні та підтримці.
- Можливості оптимізації: спосіб кодування завдань дозволяє системі оптимізувати автоматичне виконання. Це дозволяє користувачеві звертати увагу на семантику замість ефективності.
- Розширюваність: Користувачам дозволено створювати власні функції для обробки спеціального призначення. Двигун Pig відповідає за виконання потоку даних, написаного латинською мовою Pig. Подібно до дизайну стандартної системи управління реляційними базами даних (RDBMS), Apache Pig, крім операторів, що здійснюють обробку даних, складається з аналізатора, оптимізатора та перевірки типів. Pig не включає транзакції, каталог даних або можливість безпосередньо керувати зберіганням даних або використовувати рамки виконання.