Як sql на hadoop може допомогти з аналізом великих даних?

2026

Зміст:

Визначення SQL на Hadoop

SQL on Hadoop - це група інструментів аналітичного застосування, які поєднують запити та обробку даних у стилі SQL з останніми елементами фреймворку даних Hadoop. Поява SQL на Hadoop є важливою розробкою для великої обробки даних, оскільки вона дозволяє більш широким групам людей успішно працювати з рамкою обробки даних Hadoop, виконуючи SQL запити на величезних обсягах великих даних, які обробляє Hadoop. Очевидно, рамка Hadoop раніше не була такою доступною для людей, особливо з точки зору її можливостей запиту. На основі розробки було розроблено декілька інструментів, які обіцяють підвищити продуктивність підприємств, що стосується якості та швидкості обробки великих даних. Також не потрібно вкладати багато коштів у вивчення інструменту, як це слід робити традиційним знанням SQL.

Визначення SQL на Hadoop

SQL on Hadoop - це група додатків, яка дозволяє запускати запити у стилі SQL на великих даних, розміщених у рамках обробки даних Hadoop. Очевидно, запит, пошук та аналіз даних стали простішими з додаванням SQL на Hadoop. Оскільки SQL спочатку був розроблений для реляційних баз даних, його потрібно було модифікувати відповідно до моделі Hadoop 1, яка включає MapReduce та розподілену файлову систему Hadoop (HDFS) та модель Hadoop 2, що не має MapReduce та HDFS.

Одне з найдавніших зусиль для поєднання SQL з Hadoop призвело до створення сховища даних Hive з програмним забезпеченням HiveQL, яке могло б перевести запити у стилі SQL у завдання MapReduce. Після цього було розроблено кілька додатків, які могли б виконати подібну роботу. Видатнішими серед пізніших інструментів є Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) та Tez (Hive on Tez).