Зміст:
Apache Hadoop вже давно є основою для великих додатків даних і вважається базовою платформою даних для всіх пропозицій, пов’язаних із великими даними. Однак база даних та обчислення в пам'яті набирає популярності через більш високу продуктивність та швидкі результати. Apache Spark - це нова рамка, яка використовує можливості пам'яті для швидкої обробки (майже в 100 разів швидше, ніж Hadoop). Отже, продукт Spark все частіше використовується у світі великих даних, і головним чином для швидшої обробки.
Вебінар: Сила навіювання: як каталог даних надає можливість аналітикам Зареєструйтесь тут |
Що таке іскра Apache?
Apache Spark - це програма з відкритим кодом для обробки величезних обсягів даних (великих даних) зі швидкістю та простотою. Він підходить для програм аналітики на основі великих даних. Іскру можна використовувати в середовищі Hadoop, окремо або в хмарі. Він був розроблений в Каліфорнійському університеті, а потім запропонований Фонду програмного забезпечення Apache. Таким чином, він належить до спільноти з відкритим кодом і може бути дуже економічно вигідним, що надалі дозволяє розробникам-любителям працювати з легкістю. (Щоб дізнатися більше про відкритий код Hadoop, див. Що таке вплив відкритого коду на екосистему Apache Hadoop?)
Основне призначення Spark полягає в тому, що він пропонує розробникам прикладну систему, яка працює навколо централізованої структури даних. Іскра також надзвичайно потужна і має вроджену здатність швидко обробляти величезну кількість даних за короткий проміжок часу, тим самим пропонуючи надзвичайно хороші показники. Це робить його набагато швидшим за те, що, як кажуть, його найближчий конкурент - Hadoop.