Будинки Обладнання Велике залізо, зустрічайте великі дані: вивільняйте дані мейнфреймів за допомогою hadoop та іскри

Велике залізо, зустрічайте великі дані: вивільняйте дані мейнфреймів за допомогою hadoop та іскри

Anonim

Співробітники компанії «Техопедія», 2 червня 2016 року

Винос: екосистема Hadoop використовується на мейнфреймах для швидкої та ефективної обробки великих даних.

На даний момент ви не ввійшли в систему. Будь ласка, увійдіть або зареєструйтесь, щоб переглянути відео.

Ерік Кавана: Гаразд, пані та четверта година, це четвер в четвер на схід, а в ці дні це означає, що, звичайно, час для гарячих технологій. Так, мене звати Ерік Кавана. Я буду вашим модератором сьогоднішнього веб-семінару. Це добре, люди, "Big Iron, Meet Big Data" - Я просто люблю цей заголовок - "Звільнення даних мейнфреймів за допомогою Hadoop and Spark". Ми поговоримо про старі зустрічі нових. Оце Так! Ми охоплюємо спектр всього, про що ми говорили за останні 50 років ІТ підприємства. Іскра відповідає мейнфрейму, я люблю це.

Є місце про твою справді і достатньо про мене. Рік гарячий. Ми говоримо про гарячі теми в цій серії, тому що ми справді намагаємось допомогти людям зрозуміти певні дисципліни, певні місця. Що означає, наприклад, мати аналітичну платформу? Що означає звільнення великих даних від мейнфреймів? Що означає все це? Ми намагаємось допомогти вам зрозуміти конкретні види технологій, де вони вписуються в суміш і як ви можете ними користуватися.

Сьогодні у нас є два аналітики, а потім, звичайно, Tendü Yogurtçu з Syncsort. Вона є прозорливою в нашому просторі, дуже рада, що вона сьогодні є в Інтернеті, з нашими власними Деза Бланчфілдом та доктором Робіном Блором. Скажу лише пару швидких слів. Одне полягає в тому, що, люди, ви граєте велику роль у цьому процесі, тому, будь ласка, не соромтеся задавати кілька хороших питань. Ми хотіли б потрапити до них під час Q&A компонента веб-трансляції, який, як правило, в кінці шоу. І все, що я повинен сказати, це те, що у нас є багато хорошого змісту, тому я з радістю почую, що ці хлопці мають сказати. І з цим я збираюся передати його Дез Бланчфілд. Дез, підлога твоя, забирай її.

Дез Бланчфілд: Дякую, Еріку, і дякую всім за те, що сьогодні відвідали. Тож я дуже збуджуюся, коли отримую можливість поговорити про одну з улюблених речей у світі, мейнфрейми. У наші дні вони не дуже люблять. На мій погляд, мейнфрейм був оригінальною платформою великих даних. Дехто стверджує, що вони були єдиним комп’ютером у той час, і це справедливо зробити, але вже понад 60 років вони насправді були машинною частиною того, що великі дані були популярними. І я піду вас у невелику подорож, чому я вважаю, що це так.

Ми бачили мандрівку в технічних стеках обладнання в контексті мейнфреймів, які зміщуються від зображення, яке ви бачите на екрані зараз. Це старий мейнфрейм FACOM, один із моїх улюблених. Ми перейшли у велику залізну фазу, кінець дев'яностих та бум-ком-бум. Це Sun Microsystems E10000. Ця річ була абсолютним монстром на 96 процесорів. Спочатку 64, але його можна було оновити до 96 процесорів. Кожен процесор міг запускати 1024 потоки. Кожна нитка може бути одночасно з швидкістю застосування. Це було просто жахливо, і воно насправді спричинило бум дот-ком. Це всі великі єдинороги, як ми їх називаємо, зараз ми працюємо, і не лише великі підприємства, деякі з великих веб-сайтів.

І тоді ми закінчилися цією звичайною товарною моделлю ПК. Ми просто зв’язали багато дешевих машин разом, і ми створили кластер, і ми підійшли до великого залізного виклику і того, що стало великими даними, особливо у формі проекту Hadoop, що витіснив пошукову систему з відкритим кодом, Nutch. І ми, по суті, відтворили мейнфрейм і безліч маленьких процесорів, склеєних разом і здатних діяти як L-доріжки і у вигляді виконання окремих завдань або частин завдань, і вони були досить ефективними в багатьох аспектах. Дешевше, якщо ви почали менше, але незмінно багато цих великих кластерів стали дорожчими за мейнфрейм.

Моя думка щодо цих речей полягає в тому, що, поспішаючи від бут-ком-буму до того, що стало Web 2.0, і тепер переслідує єдиноріг, ми забули, що там ця платформа все ще живить багато наших найбільших критично важливих систем. Коли ми думаємо про те, що там працює на платформах мейнфрейму. Це дуже великі дані, особливо робочі коні, але, безумовно, великі дані. Традиційні системи підприємств та державних органів, зокрема банківське управління та управління багатствами та страхування, ми всі використовуємо щодня.

Системи бронювання та управління польотами, особливо управління польотами, де в режимі реального часу вирішальне значення. Майже кожен штат і федеральний уряд певний час мали мейнфрейм, і незмінно багато хто все ще їх має. Роздрібна торгівля та виробництво Деяке старе програмне забезпечення, яке було недавно, і ніколи не відходило. Просто продовжує виробляти енерговиробничі середовища і, безумовно, роздрібно в масштабах. Медичні системи. Системи оборони, безумовно, оборонні системи.

Останні кілька тижнів я читав багато статей про те, що деякі системи управління ракетами все ще працюють на старих мейнфреймах, які вони намагаються знайти частини. Вони придумують, як оновити нові мейнфрейми. Транспортно-логістичні системи. Вони можуть не виглядати як сексуальні теми, але це теми, якими ми займаємося щодня в різних напрямках. І деякі дуже великі телекомунікаційні середовища все ще працюють на платформах мейнфрейму.

Коли ви думаєте про типи даних, які є там, всі вони є критично важливими. Вони є дійсно важливими платформами та платформами, які ми сприймаємо як належне і багато в чому роблять можливим життя. То хто ще використовує мейнфрейм і хто всі ці люди, які тримаються на цих великих платформах і зберігають усі ці дані? Ну, як я вже говорив тут, я вважаю, що легко перешкодити переходу ЗМІ від великого заліза до стійок звичайних кластерів, що не існують, або дешевих ПК чи машин x86, подумавши, що мейнфрейм загинув і пішов. Але дані говорять, що мейнфрейм ніколи не згасав і насправді тут залишається.

Дослідження, які я зібрав тут за останні кілька тижнів, показали, що 70 відсотків підприємств, особливо великих підприємств, дані все ще фактично розміщені на мейнфреймі якоїсь форми. Сімдесят один відсоток Fortune 500s десь десь мають основні бізнес-системи на мейнфреймах. Насправді, тут, в Австралії, є низка організацій, які мають центр обробки даних посеред міста. Це фактично підземний комп'ютер ефективно, і кількість мейнфреймів просто працює там, тикає і радісно виконує свою роботу. І мало хто знає, що гуляючи вулицями, прямо під їхніми ногами в одній конкретній частині міста, існує цей величезний центр обробки даних, наповнений мейнфреймами. Дев'яносто два із 100 банків у всьому світі, 100 найбільших банків, які все ще працюють з банківськими системами на мейнфреймі. Двадцять три з 25 найкращих торгових мереж у всьому світі використовують мейнфрейми, щоб як і раніше запускати свої системи управління роздрібною торгівлею на платформах EIP та BI.

Цікаво, що 10 з 10 кращих страховиків все ще працюють на своїх платформах на мейнфреймі, і вони фактично працюють на своїх хмарних послугах на мейнфреймі. Якщо ви використовуєте веб-інтерфейс або мобільний додаток десь, що є інтерфейс проміжного програмного забезпечення, це насправді спілкування з чимось дійсно важким і великим на задньому кінці.

Я знайшов понад 225 державних та місцевих урядових установ у всьому світі, які працюють на платформах мейнфреймів. Я впевнений, що для цього є багато причин. Можливо, у них немає бюджету на розгляд нового заліза, але це величезний слід дуже великих середовищ, що працюють на мейнфреймах з дуже критичними даними. І як я вже згадував раніше, більшість країн все ще керують своїми ключовими системами оборони на мейнфреймі. Я впевнений, що вони багато в чому намагаються зійти, але там ви йдете.

У 2015 році IDC провів опитування, і 350 опитаних CIO повідомили, що вони все ще володіють великим залізом у формі мейнфреймів. І мене вразило, що це, ймовірно, що це більше, ніж кількість масштабних кластерів Hadoop, які зараз працюють у всьому світі. Я збираюся продовжувати це і підтверджувати, але це було велике число. Триста п’ятдесят керівників технічної служби повідомили, що у виробництві ще є одна або декілька мейнфреймів.

Минулого року, 2015 року, IBM подарував нам потужний Z13, 13- ту ітерацію своєї мейнфрейм-платформи. ЗМІ з цього приводу розізлилися, тому що їх вразило, що IBM все ще робить мейнфрейми. Коли вони підняли капот і подивилися на те, що знаходиться під річчю, вони зрозуміли, що це насправді нарівні майже з кожною сучасною платформою, яку ми захоплювали у вигляді великих даних, Hadoop і, звичайно, кластерів. Цією справою керували Іскра, а тепер Хадооп. На ньому можна запустити тисячі і тисячі машин Linux, і це виглядало і відчувалося, як і будь-який інший кластер. Це була досить приголомшлива машина.

Ряд організацій взявся за ці справи, і я фактично зробив деякі дані про те, скільки цих машин займаються. Тепер у мене було уявлення, що текстовий термінал 3270 вже деякий час замінений веб-браузерами та мобільними додатками, і існує маса даних, які це підтримують. Я думаю, що зараз ми вступаємо в епоху, коли ми зрозуміли, що ці мейнфрейми не проходять і на них є значна кількість даних. І тому, що ми зараз робимо, це просто додати те, що я називаю позаштатними інструментами аналітики. Це не власні програми. Це речі, які вважаються одноразовими. Це речі, які ви можете буквально просто придбати в упакованій коробці самі по собі та підключити до вашої мейнфрейму та зробити певну аналітику.

Як я вже говорив раніше, насправді мейнфрейм існує вже понад 60 років. Коли ми замислюємося про те, як довго це триває, це довше, ніж насправді кар'єра більшості живих ІТ-фахівців. І насправді, мабуть, якесь їхнє життя навіть. У 2002 році IBM продала 2300 мейнфреймів. У 2013 році вони виросли до 2700 мейнфреймів. Це 2700 продажів мейнфреймів за один рік у 2013 році. Я не міг отримати точних даних про 2015 рік, але думаю, що це швидко наближається до 3000 проданих одиниць на рік у 2015, 2013 роках. І я з нетерпінням чекаю, що зможу це підтвердити.

З виходом Z13, 13 -та ітерація мейнфрейм-платформи, яка, на мою думку, коштувала їм приблизно 1, 2 або 1, 3 мільярда доларів, щоб розвиватися з нуля, IBM, тобто ось машина, яка виглядає і відчуває себе так само, як і будь-який інший кластер, який ми маємо сьогодні, і по-справжньому працює Hadoop і Spark. І, безумовно, це може бути пов'язано з іншими інструментами аналітики та великих даних або незмінно підключено до одного з ваших існуючих чи нових кластерів Hadoop. Я вважаю, що включення мейнфрейм-платформи у вашу стратегію великих даних є обов'язковим. Очевидно, що якщо у вас є, у вас є багато даних, і ви хочете розібратися, як їх зняти. І їм залишається збирати пил різними способами, душевно та емоційно, наскільки йде діловий світ, але вони тут, щоб залишитися.

Підключення та інтерфейси для всіх ваших інструментів аналітики до даних, розміщених на основі мейнфреймів, повинні бути ключовою частиною вашого підприємства, а особливо державних планів великих даних. І незмінно зараз програмне забезпечення помічає їх, добре поглянувши на них і зрозумівши, що всередині цих речей, і зв'язати розуми, які починають трохи розуміти і трохи відчувати те, що насправді знаходиться під кришкою. І з цим я збираюся передати моєму дорогому колезі, доктору Робіну Блору, і він додасть до цієї маленької мандрівки. Робін, забирай його.

Робін Блор: Ну, дякую. Гаразд, тому що Дез заспівав пісню мейнфрейму, я перейду до того, що, на мою думку, відбувається з точки зору старого світу мейнфреймів та нового світу Hadoop. Я думаю, тут головне питання, як ти керуєш усіма цими даними? Я не вважаю, що мейнфрейм ставиться під сумнів у зв'язку з великими можливостями передачі даних - його великі можливості передачі даних надзвичайно, як Дез зазначив, надзвичайно здатні. Насправді ви можете розмістити на ньому кластери Hadoop. Там, де це ставиться під сумнів, є його екосистема, і я дещо детальніше докладу.

Ось декілька позиціонування мейнфрейму. Він має високу вартість входу, і те, що насправді траплялося в минулому, з середини 90-х, коли популярність мейнфреймів почала знижуватися, вона, як правило, втратила свій низький кінець, ті люди, які купували дешеві мейнфрейми, і це не було Насправді це не особливо економічно для цих людей. Але вище в середньому і високому діапазоні мейнфрейму він все-таки був, і, мабуть, насправді це неймовірно недорогі обчислення.

Це, треба сказати, врятувало Linux через те, що Linux, реалізований на мейнфреймі, дозволив звичайно запустити всі програми Linux. Дуже багато додатків Linux завітало туди, перш ніж великі дані були навіть словом, або я думаю, два слова. Це насправді досить відмінна платформа для приватної хмари. Через це він може брати участь у гібридних хмарних розгортаннях. Однією з проблем є те, що навички мейнфрейму не вистачають. Навички основної системи існують насправді старіння в тому сенсі, що люди залишають галузь на пенсію рік за роком, і замінюють їх лише за кількістю людей. Тож це питання. Але це все ще недорогі обчислення.

Зона, де це було оскаржено, звичайно, - це вся річ Hadoop. Ось картина Дуга Різа з оригінальним слоном Хадооп. Екосистема Hadoop є - і це залишиться - домінуючою екосистемою великих даних. Він пропонує кращі масштаби, ніж мейнфрейм може реально досягти, і це менша вартість, як сховище даних довгим шляхом. Екосистема Hadoop розвивається. Найкращий спосіб подумати над цим - колись певна апаратна платформа і операційне середовище з нею стає домінуючим, тоді екосистема просто оживає. І це сталося з мейнфреймом IBM. Ну, пізніше сталося з Digital VAX, трапилося з серверами Sun, траплялося з Windows, траплялося з Linux.

І що сталося, це те, що Хадооп, про який я завжди думаю або люблю вважати його якоюсь розподіленою середовищем для даних, екосистема розвивається з неймовірною швидкістю. Я маю на увазі, якщо ви просто згадаєте про різні вражаючі внески, які є відкритим кодом, Spark, Flink, Kafka, Presto, а потім ви додасте до цього деякі бази даних, можливості NoSQL і SQL, які зараз сидять на Hadoop. Hadoop - найактивніша екосистема, яка фактично існує там, безумовно, в корпоративних обчисленнях. Але якщо ви хочете трактувати це як базу даних, вона просто не несуть ніякого порівняння на той момент, що я схильний вважати реальними базами даних, особливо у просторі сховища даних. І це певною мірою пояснює успіх низки великих баз даних NoSQL, які не працюють на Hadoop, як CouchDB тощо.

Як озеро даних, воно має набагато більш багату екосистему, ніж будь-яка інша платформа, і вона не буде витіснятися з цього. Екосистема - це не лише екосистема з відкритим кодом. Зараз існує велика кількість учасників програмного забезпечення, які мають принципово побудовані для Hadoop або імпортовані в Hadoop. І вони щойно створили екосистему, яка не може конкурувати з нею за розмірами. А це означає, що це справді стало платформою для інновацій великих даних. Але, на мою думку, це ще незріло, і ми могли б тривалими дискусіями щодо того, що є, чи не є, скажімо, оперативно зрілі з Hadoop, але я думаю, що більшість людей, які дивляться на цю конкретну область, добре знають, що Hadoop на десятиліття відстає від мейнфрейму. з точки зору експлуатаційних можливостей.

Озеро даних, що розвиваються. Озеро даних - це платформа за будь-яким визначенням, і якщо ви думаєте про наявність рівня даних у корпоративних обчисленнях, то зараз дуже легко придумати це з точки зору фіксованих баз даних плюс озера даних, що складають рівень даних. Застосування даних для озера багато і різноманітні. Тут у мене є діаграма, яка просто проходить через різні суперечки даних, які потрібно зробити, якщо ви використовуєте Hadoop як місце постановки або Hadoop і Spark як місце постановки. І у вас є все - рядок даних, очищення даних, управління метаданими, виявлення метаданих - це може бути використано для самого ETL, але часто потрібно для введення даних ETL. Головне управління даними, визначення бізнес-даних, управління сервісом що відбувається в Hadoop, управління життєвим циклом даних та ETL поза Hadoop, а також у вас є додатки для прямої аналітики, які можна запускати на Hadoop.

І тому він стає дуже потужним, і там, де він успішно впроваджений та впроваджений, як правило, він має принаймні колекцію подібних програм, що працюють над ним. І більшість цих додатків, особливо тих, про які я ознайомився, вони просто недоступні в мейнфреймі прямо зараз. Але ви можете запустити їх на мейнфреймі, на кластері Hadoop, що працює в розділі мейнфрейму.

Озеро даних стає, на мій погляд, природним місцем для швидкої аналітики баз даних та для BI. Це стає місцем, де ви приймаєте ці дані, будь то корпоративні дані чи зовнішні дані, возиться з ними до тих пір, поки, скажімо, досить чистим для використання та добре структурованим для використання, а потім ви передасте їх. І все це ще в зародковому стані.

На мій погляд, ідея співіснування мейнфрейму / Hadoop, перше, що великі компанії навряд чи відмовляться від мейнфрейму. Насправді, показання, які я бачив останнім часом, означає, що в мейнфрейм зростають інвестиції. Але вони також не збираються ігнорувати екосистему Hadoop. Я бачу цифри 60 відсотків великих компаній, що використовують Hadoop, навіть якщо багато з них насправді просто прототипують та експериментують.

Тоді загадка полягає в тому, що: "Як зробити так, щоб ці дві речі співіснували?", Оскільки їм потрібно буде обмінюватися даними. Дані, які заносяться в озеро даних, їм потрібно передати в мейнфрейм. Дані, що знаходяться в мейнфреймі, можуть знадобитися перейти до озера даних або через озеро даних, щоб приєднатися до інших даних. І це станеться. А це означає, що для цього потрібна швидка передача даних / можливість ETL. Навряд чи робочі навантаження будуть динамічно розподілятися, скажімо, в середовищі мейнфреймів або з чимось у середовищі Hadoop. Це будуть спільні дані. І більшість даних неминуче збираються проживати на Hadoop просто тому, що це платформа з найнижчою вартістю. І тут, ймовірно, буде проходити поступова аналітична обробка.

Підводячи підсумок, в кінцевому рахунку нам потрібно продумати рівень корпоративного рівня даних, який для багатьох компаній буде включати мейнфрейм. І цим рівнем даних потрібно активно керувати. Інакше вони не будуть співіснувати добре. Я можу передати м'яч тобі Еріку.

Ерік Кавана: Знову ж таки, Тендю, я щойно зробив тебе ведучим, тому забирай це.

Tendü Yogurtçu: Дякую, Еріку. Дякую, що мене взяли. Привіт усім. Я буду говорити про досвід Syncsort з клієнтами стосовно того, як ми бачимо, що дані як актив в організації вирівнюються від мейнфрейму до великих даних на аналітичних платформах. І я сподіваюся, що ми також встигнемо в кінці сесії запитати аудиторію, тому що це справді найцінніша частина цих веб-трансляцій.

Тільки для людей, які не знають, чим займається Syncsort, Syncsort - це програмна компанія. Ми існували фактично понад 40 років. Розпочато з мейнфрейму, і наша продукція охоплює від мейнфрейму до Unix до великих платформ даних, включаючи Hadoop, Spark, Splunk, як у приміщенні, так і в хмарі. Ми завжди зосереджувались на продуктах даних, обробці даних та продуктах інтеграції даних.

Наша стратегія щодо великих даних та Hadoop насправді стала частиною екосистеми з першого дня. Як власники постачальників, які були дійсно орієнтовані на обробку даних з дуже легкими двигунами, ми думали, що існує велика можливість взяти участь у тому, щоб Hadoop став платформою обробки даних та бути частиною цієї архітектури сховищ даних нового покоління для організації. Ми є учасником проектів Apache з відкритим кодом з 2011 року, починаючи з MapReduce. Були в першій десятці версії Hadoop версії 2 і фактично брали участь у декількох проектах, включаючи пакети Spark, деякі з наших роз'ємів публікуються у пакетах Spark.

Ми використовуємо наш дуже легкий механізм обробки даних, який є повністю металоданими на основі плоских файлів, і дуже добре працює з розподіленими файловими системами, такими як розподілена файлова система Hadoop. І ми використовуємо свою спадщину на мейнфреймі, наш досвід роботи з алгоритмами, коли ми виставляємо наші продукти великих даних. І ми дуже тісно співпрацюємо з основними постачальниками, основними гравцями тут, зокрема Hortonworks, Cloudera, MapR, Splunk. Компанія Hortonworks нещодавно оголосила, що продаватиме наш продукт для ETL на борту Hadoop. З Dell та Cloudera ми маємо дуже тісне партнерство, яке також перепродає наш продукт ETL як частину їхніх великих пристроїв для передачі даних. І насправді Splunk ми публікуємо дані телеметрії та безпеки мейнфрейму на інформаційних панелях Splunk. Ми маємо тісне партнерство.

Що має на увазі кожен керівник рівня C? Це дійсно: "Як я можу використовувати свої дані?" Усі говорять про великі дані. Всі говорять про Hadoop, Spark, чергову комп’ютерну платформу, яка може допомогти мені створити спритність бізнесу та відкрити нові трансформаційні програми. Нові можливості виходу на ринок. Кожен керівник думає: "Яка моя стратегія передачі даних, яка моя ініціатива передачі даних та як я можу зробити так, щоб я не відставав від своєї конкуренції, і я все ще знаходився на цьому ринку в наступні три роки?" бачимо це, коли ми розмовляємо з нашими клієнтами, як ми говоримо з нашою глобальною клієнтською базою, яка є досить великою, як ви можете собі уявити, оскільки ми вже деякий час існуємо.

Розмовляючи з усіма цими організаціями, ми також бачимо це в стеку технологій у зриві, що стався з Hadoop. Це дійсно для того, щоб задовольнити цей попит на дані як про актив. Використання всіх активів даних, якими володіє організація. І ми бачили, що архітектура сховищ даних підприємств розвивається таким чином, що Hadoop зараз є новим центром сучасної архітектури даних. І більшість наших клієнтів, будь то фінансові послуги, будь то страхування, телефонна роздрібна торгівля, ініціативи, як правило, або ми вважаємо, що Hadoop як послуга, або дані як послуга. Тому що всі намагаються зробити ресурси даних доступними як для своїх зовнішніх, так і для внутрішніх клієнтів. А в деяких організаціях ми бачимо такі ініціативи, як майже ринок даних для своїх клієнтів.

І одним із перших кроків для досягнення цього є створення центру даних про підприємство. Іноді люди називатимуть це озером даних. Створити цей центр даних підприємств насправді не так просто, як це звучить, оскільки він дійсно вимагає доступу та збору практично будь-яких даних на підприємстві. І ці дані тепер є з усіх нових джерел, таких як мобільні датчики, а також застарілі бази даних, і це в пакетному режимі і в потоковому режимі. Інтеграція даних завжди була проблемою, однак кількість та різноманітність джерел даних та різні стилі доставки, будь то пакетні чи потокові в режимі реального часу, є ще складнішими порівняно з п'ятьма роками тому, десять років тому. Іноді ми називаємо це так: «Більше це не ETL твого батька».

Тож ми говоримо про різні активи даних. Оскільки підприємства намагаються осмислити нові дані, дані, які вони збирають з мобільних пристроїв, будь то датчики у виробника автомобілів або це дані користувача для мобільної ігрової компанії, їм часто потрібно посилатись на найважливіші ресурси даних у наприклад, підприємство, яке є інформацією про клієнтів. Ці найважливіші ресурси даних часто живуть на мейнфреймі. Співвіднесення даних мейнфрейма з цими новими джерелами, зібраними у хмарі, зібраними через мобільний телефон, зібрані на виробничій лінії японської автомобільної компанії або в Інтернеті додатків для речей, повинні мати сенс у цих нових даних, посилаючись на їх застарілі набори даних. І ці застарілі набори даних часто є в мейнфреймі.

І якщо ці компанії не в змозі цього зробити, не в змозі скористатися даними мейнфрейму, то пропущена можливість. Тоді дані як послуга або використання всіх даних підприємства насправді не є найважливішими активами в організації. Також є частина даних про телеметрію та безпеку, тому що майже всі дані транзакцій живуть на мейнфреймі.

Уявіть, що ви їдете до банкомату, я думаю, що один із присутніх надіслав повідомлення учасникам тут для захисту банківської системи, коли ви проводите своєю карткою про те, що дані про трансакцію є майже в усьому світі на мейнфреймі. Забезпечення та збирання даних про безпеку та телеметричні дані з мейнфреймів та надання їх доступними через інформаційні панелі Splunk чи інші, Spark, SQL, стає більш критичним зараз, ніж будь-коли, через об'єм даних та різноманітність даних.

Набори навичок - одна з найбільших проблем. Оскільки з одного боку у вас стрімко змінюється стек великих даних, ви не знаєте, який проект виживе, який проект не виживе, чи варто найняти розробників вуликів чи свиней? Чи варто інвестувати в MapReduce чи Spark? Або наступне, Флінк, хтось сказав. Чи варто інвестувати в одну з цих комп'ютерних платформ? З одного боку, бути в курсі екосистеми, що швидко змінюється, є складним завданням, а з іншого - у вас є ці застарілі джерела даних. Нові набори навичок насправді не відповідають, і у вас може виникнути проблема, оскільки ці ресурси можуть фактично вийти на пенсію. Існує великий розрив щодо набору навичок людей, які розуміють ті застарілі стеки даних і які розуміють нові технології стеку.

Другий виклик - управління. Коли ви дійсно отримуєте доступ до всіх даних підприємств на різних платформах, у нас є клієнти, які висловлювали занепокоєння: «Я не хочу, щоб мої дані зберігалися. Я не хочу, щоб мої дані копіювалися в декількох місцях, оскільки я хочу максимально уникати кількох копій. Я хочу мати доступ від кінця до кінця, не розміщуючи його посередині ". Управління цими даними стає викликом. Інша частина полягає в тому, що якщо ви отримуєте доступ до даних із вузькими місцями, якщо ви збираєте більшість своїх даних у хмарі та звертаєтесь до посилань на них та посилаєтесь на них, то пропускна здатність мережі стає проблемою, платформою кластерів. Є багато труднощів щодо створення цієї ініціативи з великими даними та вдосконаленої платформи аналітики, а також використання всіх даних про підприємство.

Що пропонує Syncsort, нас називають «просто найкращими» не тому, що ми просто найкращі, але наші клієнти насправді відносять до нас як до найкращих у доступі та інтеграції даних мейнфрейму. Ми підтримуємо всі формати даних з мейнфрейму та надаємо їх для аналізу великих даних. Будь то на Hadoop чи Spark або на наступній комп'ютерній платформі. Тому що наша продукція справді ізолює складності комп’ютерної платформи. Ви, як розробник, потенційно розвиваєтеся на ноутбуці, орієнтуючись на конвеєр даних та які підготовка даних, кроки, щоб зробити ці дані створеними для аналітики, наступною фазою, і взяти ту саму програму в MapReduce або взяти це те саме додаток у Spark.

Ми допомогли нашим клієнтам зробити це, коли YARN стала доступною, і їм довелося перенести свої програми з MapReduce версії 1 до YARN. Ми допомагаємо їм робити те саме з Apache Spark. Наш продукт, новий випуск 9, працює з Spark, а також постачається з динамічною оптимізацією, яка захистить ці програми для майбутніх комп'ютерних рамок.

Таким чином, ми маємо доступ до даних мейнфрейму, чи це файли VSAM, чи це DB2, чи дані телеметрії, такі як записи SMF або Log4j або syslogs, які потрібно візуалізувати через інформаційні панелі Splunk. І при цьому, оскільки організація може використовувати свої наявні інженери даних або набори навичок ETL, час розробки значно скорочується. Насправді з Dell та Cloudera існував незалежний бенчмарк, який спонсорувався на час розробки, який потрібен, якщо ви робите вручну кодування або використовуєте інші інструменти, такі як Syncsort, і це було приблизно на 60, 70 відсотків скорочення часу розробки. . Об'єднання навичок встановлює розрив між групами, між тими хостами файлів даних, а також тими хостами файлів даних з урахуванням кількості людей.

Зазвичай команда великих даних, або команда, що приймає дані, або команда, яка має завдання розробити ці дані як архітектуру сервісу, не обов'язково спілкується з командою мейнфреймів. Вони хочуть мінімізувати цю взаємодію майже у багатьох організаціях. Закривши цю прогалину, ми просунулися. І найголовніша частина - це справді забезпечення всього процесу. Тому що на підприємстві, коли ти маєш справу з таким видом конфіденційних даних, існує багато вимог.

У таких регламентованих галузях, як страхування та банківська діяльність, наші клієнти запитують: "Ви пропонуєте цей доступ до даних мейнфреймів, і це чудово. Чи можете ви також запропонувати мені зробити цей формат запису, закодований EBCDIC, який зберігається у його первісному форматі, щоб я міг задовольнити мої вимоги до аудиту? ”Тому ми робимо Hadoop та Apache Spark зрозуміти дані мейнфреймів. Ви можете зберігати дані в оригінальному форматі запису, виконувати обробку та рівень комп'ютерної платформи розподільника, і якщо вам потрібно повернути цю програму, ви можете показати, що запис не змінено, а формат запису не змінено, ви можете відповідати нормативним вимогам .

І більшість організацій, створюючи центр даних або озеро даних, вони також намагаються зробити це одним натисканням кнопки, щоб мати змогу зіставити метадані з сотень схем у базі даних Oracle до таблиць Hive або файлів ORC або Parquet стає необхідним. Ми постачаємо інструменти та надаємо інструменти, щоб зробити це одномоментним доступом до даних, автоматичним створенням завдань або переміщенням даних та автоматичним створенням завдань для створення даних.

Ми говорили про частину підключення, відповідність, управління та обробку даних. А наша продукція доступна як в приміщенні, так і в хмарі, що робить її дуже простою, оскільки компаніям не потрібно думати про те, що відбудеться в наступний рік-два, якщо я вирішу повністю перейти в публічну хмару проти гібриду оточення, оскільки деякі кластери можуть працювати в приміщенні або в хмарі. А наша продукція доступна як на ринку Amazon Market, на EC2, Elastic MapReduce, так і в контейнері Docker.

Просто для того, щоб завершити процес, щоб у нас було достатньо часу для запитань та запитань, це дійсно стосується доступу, інтеграції та дотримання керування даними, але все це робить простішим. І, роблячи це простішим, "спроектуйте один раз і розгорніть будь-де" в справжньому сенсі через наш внесок з відкритим кодом, наш продукт працює вродже в потоці даних Hadoop і спочатку з Spark, ізолюючи організації від швидко мінливої ​​екосистеми. І надання єдиного конвеєра даних, єдиного інтерфейсу, як для пакетної, так і потокової передачі.

І це також допомагає організаціям іноді оцінювати ці рамки, тому що, можливо, ви хочете створити додатки та просто запустити на MapReduce проти Spark і переконатися самі, так, Spark має це обіцянку і забезпечує весь заздалегідь ітераційний алгоритм роботи для найкращого машинного навчання і програми прогнозної аналітики працюють із Spark, чи можу я також виконати поточне та пакетне навантаження на цьому комп'ютерному каркасі? Ви можете протестувати різні комп'ютерні платформи, використовуючи наші продукти. І динамічна оптимізація, незалежно від того, чи працюєте ви на автономному сервері, на своєму ноутбуці, в Google Cloud та Apache Spark, - це справді велика пропозиція для наших клієнтів. І це було справді керовано тими викликами.

Я просто висвітлю одне із тематичних досліджень. Це компанія Guardian страхування життя. Ініціатива Guardian справді полягала в тому, щоб централізувати свої дані та зробити їх доступними для своїх клієнтів, скоротити час на підготовку даних, і вони сказали, що всі говорять про підготовку даних, займаючи 80 відсотків загального трубопроводу з обробки даних, і вони сказали, що це насправді вимагає 75–80 відсотків для них, і вони хотіли скоротити цю підготовку даних, час трансформації, час виходу на ринок аналітичних проектів. Створіть цю спритність, коли вони додають нові джерела даних. І зробити цей централізований доступ до даних доступним для всіх своїх клієнтів.

Їх рішення, включаючи продукти Syncsort, зараз є у них на ринку даних даних Amazon Marketplace, що підтримується озером даних, що є в основному Hadoop, і базою даних NoSQL. І вони використовують наші продукти для того, щоб доставити всі ресурси даних до озера даних, включаючи DB2 на мейнфрейм, включаючи файли VSAM в мейнфреймі, і застарілі джерела даних бази даних, а також нові джерела даних. В результаті цього вони централізували багаторазові активи даних, які можна шукати, бути доступними та доступними для своїх клієнтів. І вони дійсно здатні додавати нові джерела даних та обслуговувати своїх клієнтів набагато швидше та ефективніше, ніж раніше. А аналітичні ініціативи навіть більше прогресують на прогнозованій стороні. Тож я зроблю паузу, і я сподіваюся, що це було корисно, і якщо у вас виникнуть питання щодо будь-якої з пов’язаних з нами тем, будь ласка, вас вітають.

Ерік Кавана: Звичайно, і Тендю, я просто кину його. Я отримав коментар від учасника аудиторії, який просто сказав: "Мені подобається цей дизайн" один раз, розгортайся куди завгодно ". Чи можете ви розібратися, як це правда? Я маю на увазі, що ви зробили, щоб дозволити такий спритність і чи є податки? Як, наприклад, коли ми говоримо про віртуалізацію, завжди є трохи податку на продуктивність. Деякі люди кажуть два відсотки, п'ять відсотків 10 відсотків. Що ви зробили для того, щоб один раз дозволити дизайн, розгорнути в будь-якому місці - як це зробити і чи пов’язаний з ним податок з точки зору продуктивності?

Tendü Yogurtçu: Звичайно, дякую. Ні, тому що, на відміну від інших постачальників, ми насправді не генеруємо ні вулик, ні свиню, ні якийсь інший код, який не є власним для наших двигунів. Саме тут наші відкриті джерела відіграли величезну роль, тому що ми дуже тісно співпрацювали з постачальниками Hadoop, Cloudera, Hortonworks і MapR, і завдяки нашим відкритим джерелам, наш двигун фактично працює як вихідний., як частина потоку Hadoop, як частина Іскри.

Що також означає, що ми маємо цю динамічну оптимізацію. Це було те, що сталося в результаті, коли наші клієнти стикалися з комп'ютерними рамками. Коли вони починали виробляти деякі програми, вони повернулися, і вони сказали: "Я просто стабілізую свій кластер Hadoop, стабілізуючись на MapReduce YARN Версія 2, MapReduce версії 2, і люди говорять, що MapReduce мертвий, іскра наступне, і деякі люди кажуть, що Flink буде наступним, як я з цим впораюся? "

І ці виклики справді стали для нас такими очевидними, що ми інвестували в цю динамічну оптимізацію, яку ми називаємо інтелектуальною виконанням. Під час виконання роботи, коли завдання, коли цей конвеєр даних подається, на основі кластера, чи це Spark, чи це MapReduce, або окремий сервер Linux, ми вирішуємо, як виконати цю роботу, власне в нашому двигуні, як частину цього Потік даних Hadoop або Spark. Немає накладних витрат, тому що все робиться завдяки цій динамічній оптимізації, яку ми маємо, і все також робиться, тому що наш двигун настільки інтегрований через наш внесок у відкритий код. Це відповідає на ваше запитання?

Ерік Кавана: Так, це добре. І я хочу піднести ще одне запитання, і тоді Дез, можливо, ми також підтягнемо тебе і Робіна. Щойно я отримав веселий коментар від одного з наших присутніх. Я прочитаю це, бо це справді досить жалюгідно. Він пише: "Здається, що в історії речей ГОРЯЧЕ" - зрозумійте? Як і IoT - "це те, що чим більше ви намагаєтеся" спростити "щось, що є дійсно складним, тим частіше, ніж простіше це робити. більше висячої мотузки поставляється Подумайте, запит до бази даних, вибух, багатопотоковість тощо. "Чи можете ви прокоментувати цей парадокс, на який він посилається? Простота порівняно зі складністю, і в основному, що насправді відбувається під обкладинками?

Tendü Yogurtçu: Звичайно. Я думаю, що це дуже справедливий момент. Коли ви спрощуєте речі та робите ці оптимізації, то таким чином, під прикриттями, хтось повинен сприймати складність того, що має відбутися, правда? Якщо ви щось паралізуєте, або ви вирішуєте, як виконати певну роботу щодо комп'ютерної системи, очевидно, є якась частина роботи, яка пересувається, будь то в кінці користувача, кодуванні меню чи це в оптимізації двигуна. Є частина цього, спрощуючи досвід користувачів, є величезна користь з точки зору можливості використання наборів навичок, які існують на підприємстві.

І ви можете якось пом’якшити цей парадокс, пом’якшити цей виклик: «Так, але я не маю контролю над усім, що відбувається під кришкою, під капотом у цьому двигуні», виставляючи речі більш просунутим користувачам, якщо вони хочете мати такий контроль. Також вкладаючи гроші в деякі види справності. Можливість запропонувати більше оперативних метаданих, більше оперативних даних, як у прикладі, який дав цей учасник, як для запиту SQL, так і для роботи двигуна. Я сподіваюся, що відповіді.

Ерік Кавана: Так, це добре. Дез, забирай це.

Дез Бланшфілд: Я дуже хочу ознайомитись із вашим слідом у відкритих джерелах та мандрівці, яку ви взяли зі свого традиційного, багаторічного досвіду роботи в мейнфреймі та власному світі, а потім перехід на внесок у відкритий код та те, як це відбулося. І інша річ, яку я хочу зрозуміти, це думка, яку ви бачите, що підприємства, а не лише ІТ-підрозділи, а зараз займаються центром даних або озерами даних, як зараз кажуть люди, і чи бачать вони цю тенденцію лише одне єдине зведене озеро даних чи ми бачимо розповсюджені озера даних і люди використовують інструменти для їх з’єднання?

Tendü Yogurtçu: Звичайно. Для першої це була дуже цікава поїздка, як власника програмної компанії, однієї з перших після IBM. Однак знову все почалося з наших клієнтів-євангелістів, які дивилися на Hadoop. У нас були такі компанії, як ComScore, вони були одними з перших, хто прийняв Hadoop, тому що вони збирали цифрові дані по всьому світу і не змогли зберегти дані 90 днів, якщо вони не вклали коробку даних для зберігання в десять мільйонів доларів середовище. Вони почали дивитися на Хадооп. З цим ми також почали дивитися на Hadoop.

І коли ми прийняли рішення і визнали, що Hadoop насправді стане платформою даних майбутнього, ми також зрозуміли, що в цьому не зможемо грати, успішну гру, якщо не будемо були частиною екосистеми. І ми дуже тісно співпрацювали з постачальниками Hadoop, з Cloudera, Hortonworks, MapR і т. Д. Ми почали по-справжньому спілкуватися з ними, оскільки партнерство стає дуже важливим для підтвердження цінності, яку може внести постачальник, а також гарантує, що ми можемо спільно піти на підприємство. і запропонувати щось більш значуще. Це вимагало великої побудови відносин, оскільки нам не було відомо з проектами з відкритим кодом Apache, однак ми мали велику підтримку від цих постачальників Hadoop, треба сказати.

Ми почали працювати разом і дивимось на центр, як ми можемо принести цінність навіть без нашого програмного забезпечення власника в просторі. Це було важливо. Справа не лише в тому, щоб розмістити деякі API, на яких може працювати ваш продукт, це на те, щоб сказати, що я буду вкладати кошти в це, тому що я вважаю, що Hadoop стане платформою майбутнього, тому інвестуючи в ті джерела, які ми хотіли зробити впевнений, що дозріває і стає готовим до підприємства. Ми можемо реально включити деякі випадки використання, які не були доступні до наших внесків. Це піде на користь всій екосистемі, і ми можемо дуже тісно розвивати ці партнерства.

Це зайняло досить багато часу. Ми почали робити свій внесок у 2011 році, а в 2013 році, 21 січня - я пам’ятаю дату, оскільки саме в цю дату було здійснено наш найбільший внесок, який означав, що з цього моменту зараз ми можемо мати нашу продукцію, як правило, - знадобилося досить багато часу, щоб розвинути ці відносини, демонструють цінність, партнери стають партнерами з дизайну з постачальниками та з комітетами у спільноті з відкритим кодом. Але це було дуже весело. Для нас було дуже корисно, як компанія бути частиною цієї екосистеми та розвивати чудове партнерство.

Друге питання про центр даних / озеро даних, я думаю, коли ми бачимо ці дані як реалізацію послуги у більшості випадків, так, це можуть бути кластери, фізично одинакові чи декілька кластерів, але це більш концептуально, ніж стати цим єдиним місцем для всіх даних. Оскільки в деяких організаціях ми бачимо великі розгортання кластерів у приміщенні, проте вони також мають кластери, наприклад, у загальнодоступній хмарі, оскільки частина даних, зібраних із онлайн-секцій, справді зберігається у хмарі. Можливість мати єдиний конвеєр даних, за допомогою якого ви можете реально використовувати обидва з них, і використовувати їх як єдиний центр даних, одинарне озеро даних, стає важливим. Це не обов'язково лише фізичне місце, але, мабуть, мати цей центр даних і озеро даних по кластерах, через географії та, можливо, в приміщенні та хмарі, буде дуже критичним. Особливо рухаючись вперед. Цього року ми почали спостерігати все більше хмарних розгортань. Це дивовижно. У першій половині цього року поки що ми спостерігали багато хмарних розгортань.

Ерік Кавана: Добре, круто. А Робін, у тебе є питання? Я знаю, що у нас залишилося пару хвилин.

Робін Блор: Гаразд, я можу поставити їй питання. Перше, що мені прийшло в голову, - це те, що було багато хвилювань щодо Кафки, і мене зацікавила ваша думка про Кафку і як ви інтегруєтесь із тим, як люди використовують Кафку?

Tendü Yogurtçu: Звичайно. Так, Кафка стає досить популярною. Серед наших клієнтів ми бачимо, що це вид транспортного рівня даних, і ми бачимо, що дані є шиною. Наприклад, один із наших клієнтів насправді використовував такі види споживаючих даних, які вписуються в цю Кафку серед кількох, як, наприклад, тисячі користувачів в Інтернеті, і їх можна класифікувати та просувати.

Знову ж таки, Kafka - це шина даних для різних споживачів цих даних. Класифікуйте декількох просунутих користувачів порівняно з не надто розвиненими користувачами та зробіть щось інше, рухаючись вперед у цьому трубопроводі даних. В основному, як ми інтегруємось з Kafka, наш продукт DMX-h стає надійним споживачем, високоефективним, надійним споживачем для Kafka. Він може читати дані, і це нічим не відрізняється, ніж читання даних з будь-якого іншого для нас джерела даних. Ми надаємо користувачам можливість керувати вікном або через термін, який вони мають, або кількість повідомлень, які вони можуть споживати з шини Kafka. І тоді ми також можемо збагатити ці дані, оскільки вони проходять через наш продукт і відштовхуються назад в Кафку. Ми це перевірили. Ми орієнтували його на сайті замовника. Також сертифікований Confluent. Ми тісно співпрацюємо з хлопцями Confluent, і це дуже високоефективний та простий у використанні. Знову ж таки, API змінюються, але вам не потрібно хвилюватися, оскільки продукт справді трактує це як лише інше джерело даних, джерело потокового потоку даних. Працювати з нашим продуктом та Кафкою - це дуже цікаво.

Робін Блор: Гаразд, у мене є ще одне питання, яке є просто загальним бізнес-питанням, але я знав Syncsort вже давно, і ви завжди мали репутацію і постачали надзвичайно швидке програмне забезпечення для ETL та всесвітнього мейнфрейму. Чи так трапляється, що більша частина вашого бізнесу зараз переходить до Hadoop? Чи трапляється так, що ви так чи інакше розповсюдили свій бізнес досить різко з мейнфрейму?

Tendü Yogurtçu: Наші основні продукти все ще працюють 50 відсотків мейнфреймів у всьому світі. Таким чином, у нас є дуже сильна лінійка продуктів мейнфрейму на додаток до того, що ми робимо на великих даних та на Hadoop. І ми все ще перебуваємо в більшості проектів із спрощення та оптимізації ІТ, тому що є один кінець, який ви хочете мати можливість ввімкнути свої дані мейнфрейму на великих платформах Multex та використовувати всі дані підприємства, однак є також дуже критичні транзакційні навантаження. що все ще продовжує працювати в мейнфреймі, і ми пропонуємо цим клієнтам способи дійсно зробити ці програми більш ефективними, запустити в двигун zIIP, щоб вони не споживали стільки циклів обробки та MIPS, щоб зробити їх економічно вигідними.

Ми продовжуємо інвестувати в продукти мейнфрейму і насправді граємо в цей простір, де люди переходять від мейнфрейму до великого заліза до великих даних і охоплюють лінійку продуктів також через ці платформи. Тому ми не обов'язково перекладаємо весь бізнес на одну сторону, ми продовжуємо вести дуже успішний бізнес з обох сторін. А придбання - це також велика увага для нас. У міру розвитку цього простору для управління та обробки даних для великих платформ даних ми також зобов’язані здійснити досить багато додаткових придбань.

Робін Блор: Ну, мабуть, я не можу запитати вас, що вони є, тому що ви мені не дозволили б сказати. Мене цікавить, чи бачили ви багато реалізацій Hadoop чи Spark насправді на мейнфреймі чи це дуже рідкісна річ.

Tendü Yogurtçu: Ми жодного не бачили. Про це є більше питання. Я думаю, що Hadoop на мейнфреймі не мав великого сенсу через вигляд структури ядра. Однак Spark у мейнфреймі є досить змістовним, і Spark насправді дуже хороший з машинним навчанням та прогнозованою аналітикою та можливістю мати деякі з цих програм із даними мейнфреймів насправді, на мою думку, є досить значущим. Ми ще не бачили, щоб це хтось робив, однак справді це стосується справжнього випадку. Якщо ваш випадок використання як компанії більше приносить дані мейнфрейму та інтегрується з рештою наборами даних на платформі великих даних, це одна історія. Він вимагає доступу до даних мейнфрейма з платформи Multex з великими даними, оскільки ви навряд чи зможете повернути свої набори даних із відкритих систем і передзвонити до мейнфрейму. Однак, якщо у вас є деякі дані мейнфрейму, які ви хочете просто дослідити і зробити трохи розкриття пошуку даних, застосувати деякий передовий інтелектуальний інтелект та розширену аналітику, то Spark може бути хорошим способом пройти та запуститись на мейнфрейм як такий.

Ерік Кавана: І ось ще одне запитання аудиторії, насправді ще два. Я дам вам питання щодо команди тегів, тоді ми завершимо завершення. Один учасник запитує: «Чи інтегрує IBM ваші внески з відкритим кодом у свою громадську екосистему хмари, іншими словами, Bluemix?» А інший учасник зробив дійсно хороший момент, зазначивши, що Syncsort чудово підходить для збереження великого заліза в живих для тих, хто це вже є, але якщо компанії відмовляться від нових мейнфреймів на користь того, що він називає CE, заблокуйте все, це, швидше за все, знизиться, але зауважує, що ви, хлопці, дуже добре рухаєтесь даними, обходячи операційні системи до гігабайт в секунду. Чи можете ви поговорити про свою основну силу, як він зазначав, і чи IBM інтегрує ваші речі в Bluemix?

Tendü Yogurtçu: З IBM ми вже є партнерами з IBM, і ми мали дискусії щодо їх хмарних послуг, що пропонують продукт. Наші внески з відкритим кодом відкриті для всіх, хто хоче скористатися ними. Деякі з підключень до мейнфрейму також доступні в пакетах Spark, тому не тільки в IBM. Кожен може скористатися цим. У Bluemix ми ще нічого конкретно з цього питання не робили. А ви проти думати повторення другого питання?

Ерік Кавана: Так, друге питання стосувалося вашої основної області функціональності протягом багатьох років, яка справді обробляла вузькі місця ETL, і, очевидно, це те, що ви, хлопці, все ще будете робити як мейнфрейми, ну, теоретично, тримайтеся подалі, хоча Dez's точка все ще є різновидом гойдання і кочення там. Але учасник щойно зазначив, що Syncsort дуже добре пересуває дані, обходячи операційні системи та до гігабайт в секунду. Чи можете ви просто прокоментувати це?

Tendü Yogurtçu: Так, справді загальна ефективність використання ресурсів - це наша сила, а масштабованість та ефективність - наша сила. Ми не йдемо на компроміс, спрощення має багато значень, ми не компромісуємо з цим. Наприклад, коли люди почали говорити про Hadoop у 2014 році, наприклад, багато організацій спочатку не дуже дивилися на результативність. Вони говорили: "О, якщо щось трапиться, я можу додати ще пару вузлів, і я буду добре, продуктивність не є моєю вимогою".

Поки ми говорили про найкращу ефективність, тому що ми вже працювали вдома, у нас навіть не було деяких первинних ікот, які були у Hive з безліччю завдань MapReduce та накладних витрат із їх запуском. Люди говорили нам: "О, це не мене турбує, не переживайте про це наразі".

Коли ми прийшли до 2015 року, цей ландшафт змінився, оскільки деякі наші клієнти вже перевищили сховище, яке вони мали у своїх виробничих кластерах. Для них стало дуже критично зрозуміти, що може запропонувати Syncsort. Якщо ви берете деякі дані з бази даних або мейнфрейма та записуєте у формат Паркет у кластерах, чи ви приземляєтесь та стадієте, чи робите іншу трансформацію, чи просто виконуєте перехід літнього часу та формат цільового цільового файлу, це змінило значення, оскільки ви економите від сховище, ви економите від пропускної здатності мережі, ви економите від навантаження на кластері, оскільки у вас немає додаткових завдань. Здається, ті сильні сторони, які ми граємо в плані бути дуже свідомими, ми відчуваємо ефективність використання ресурсів під своєю шкірою.

Ось як ми це описуємо. Для нас це критично. Ми не сприймаємо це як належне. Ми ніколи не сприймали це як належне, тому будемо продовжувати бути сильними з цим важелем у Apache Spark або наступній комп'ютерній основі. Це і надалі буде нашою увагою. Що стосується фрагмента руху даних та доступу до даних, то, безумовно, це одна з наших переваг, і ми отримуємо доступ до даних DB2 або VSAM на мейнфреймах в контексті Hadoop або Spark.

Ерік Кавана: Ну, це прекрасний спосіб покласти край веб-трансляції, люди. Дуже дякую за ваш час та увагу. Дякую вам, Тендю та Сінкорт, що зайшли в інструктаж і ступили в туру, як то кажуть. Дуже багато чудових запитань від аудиторії. Люди, що постійно рухаються, люди. Ми будемо архівувати цей Hot Tech, як це робимо з усіма іншими. Ви можете знайти нас на insideanalysis.com та на techopedia.com. Зазвичай він піднімається приблизно за добу. І з цим ми попрощаємося, люди. Дуже дякую. Ми поговоримо з вами незабаром. Піклуватися. Бувай.

Велике залізо, зустрічайте великі дані: вивільняйте дані мейнфреймів за допомогою hadoop та іскри