Будинки Бази даних Сила навіювання: як каталог даних дає можливість аналітикам

Сила навіювання: як каталог даних дає можливість аналітикам

Anonim

Співробітники компанії «Техопедія», 22 червня 2016 року

Винос: Ведуча Ребекка Йозвяк обговорює переваги каталогів даних з Дезом Бланчфілдом, Робіном Блором та Девідом Кроуфордом.

Ви повинні зареєструватися для цієї події, щоб переглянути відео. Зареєструйтесь, щоб переглянути відео.

Ребекка Йозвяк: Пані та панове, привіт, ласкаво просимо до гарячих технологій 2016 року. Сьогодні у нас з'явилася «Сила пропозиції: як каталог даних дає можливість аналітикам». Я ваша господаря Ребекка Йозвяк, заповнюючи наш звичайний господар Кавана сьогодні, поки він подорожує світом, тож дякую, що приєднався до нас. Цього року спекотно, в Техасі не просто спекотно, де я є, але все жарко. Тут виходить вибух всіляких нових технологій. У нас є IoT, потокові дані, прийняття хмари, Hadoop продовжує дозрівати і бути прийнятим. У нас є автоматизація, машинне навчання, і все це, звичайно, підкреслюється даними. І підприємства стають все більше і більше даних, що рухаються з кожним днем. І звичайно, сенс цього - вести до знань, відкриттів і, знаєте, приймати кращі рішення. Але, щоб дійсно отримати максимальну цінність з даних, дістатися до нього потрібно легко. Якщо ви будете тримати його зачиненим, або похованим, або в мозку кількох людей всередині підприємства, це не принесе багато користі для підприємства в цілому.

І я якось думав про каталогізацію даних і про роздуми з курсу бібліотек, куди ви давно пішли, якщо вам потрібно було щось знайти, якщо вам потрібно було вивчити тему чи шукати якусь інформацію, ви пішли до бібліотеки і, звичайно, ви зайшли до каталогу картки, або краб-леді, яка там працювала. Але також було весело блукати, якщо ви просто хотіли подивитися, і впевнені, що можете просто відкрити щось акуратне, ви можете дізнатися цікаві факти, яких ви не знали, але якщо вам дійсно потрібно було щось знайти, і ви знали, що шукаєте, вам потрібен каталог карт, і, звичайно, корпоративний еквівалент - це каталог даних, який може допомогти засвітити всі дані для наших користувачів, щоб збагатити, відкрити, поділитися, споживати та реально допомогти люди отримують дані швидше і простіше.

Отже, сьогодні у нас є Дез Бланчфілд, наш власний науковець з даних, і у нас є доктор Робін Блор, наш власний головний аналітик, у нас є Девід Кроуфорд з Alation, який збирається розповісти про історію каталогізації даних своєї компанії, але спочатку ми будемо вести з Dez. Дез, я передаю м'яч тобі, а підлога твоя.

Дез Бланшфілд: Дякую, дякую за те, що мене сьогодні взяли. Це питання, яке мене надзвичайно цікавить, адже майже в кожній організації, з якою я стикаюсь у своїй щоденній роботі, я знаходжу саме таку саму проблему, про яку ми дуже коротко говорили на попередній виставі, і це те, що Більшість організацій, які займаються бізнесом більше декількох років, мають безліч даних, похованих навколо організації, різних форматів, і насправді у мене є клієнти, які мають набори даних, які повертаються до Lotus Notes, баз даних, які все ще працюють у деяких випадків, як їх псевдомережі, і всі вони стикаються з цим викликом, як насправді знайти, де їхні дані, і як отримати доступ до них, кому надати доступ до них, коли надати доступ до них і як просто каталог та як дістати його до місця, де кожен може: A) бути в курсі того, що там, і що в ньому, і B), як отримати доступ до нього та використовувати його. І одна з найбільших проблем, звичайно, - це знайти, інша велика проблема - це знати, що там, і як отримати доступ до нього.

Я, можливо, знаю, що у мене є десятки баз даних, але я насправді не знаю, що там, або як дізнатися, що там, і так незмінно, як ми виявляємо зараз у даних попереднього показу, ти, як правило, ходити по кабінету і задавати питання, кричати по кубічних стінах і спробувати і розібратися, часто мій досвід такий: ви навіть можете виявити, що ви блукаєте на рецепції, на прийом і запитуєте, чи хтось знає, хто ти збираєшся поговорити. Досить часто це не завжди люди з інформаційних технологій, оскільки вони не знають про набір даних, тому що хтось їх просто створив, і це може бути щось просте, як - досить часто ми знаходимо проект такого типу, який стоїть в ІТ-середовищі і керівник проекту використовував електронну таблицю про всі речі, і він отримав величезну кількість цінної інформації навколо активів, контексту та імен, і якщо ви не знаєте цього проекту і не знаєте цієї людини, ви просто не можете знайти цю інформацію. Він просто недоступний, і ви повинні отримати цей оригінальний файл.

Існує фраза, яка накручується навколо даних щодо даних, і я не обов'язково з цим погоджуюся, але я думаю, що це милий маленький викид, і це те, що певна кількість людей думає, що дані - це нова олія, і я ми впевнені, що ми будемо висвітлювати це і в деякому аспекті, пізніше сьогодні. Але я помітив, що, безумовно, є частиною цієї трансформації, це те, що організації підприємств, які навчилися оцінювати свої дані, отримали значну перевагу перед своїми конкурентами.

Близько п’яти-шести років тому IBM був цікавим документом, і вони опитували близько 4000 компаній тут, в Австралії, і вони взяли всю інформацію, всі дані про результати діяльності, всі дані про фінанси і склали їх у киплячу посудину, а потім відправив його в австралійську школу економіки, і вони насправді почали тут загальну тенденцію, і це було те, що компанії, які використовували технології, незмінно отримували таку конкурентну перевагу над своїми однолітками та конкурентами, що їх конкуренти майже ніколи не наздоганяють, і я думаю це вже зараз так, коли ми бачили те, що люди називають цифровою трансформацією, коли організації, які чітко придумали, як знайти отримані дані, зробити ці дані доступними та зробити їх доступними в дуже простому витратному матеріалі мода на організацію, не обов'язково завжди знаючи, чому організація може цього потребувати, і отримувати значну перевагу перед конкурентами.

У мене на цьому слайді є кілька прикладів, які ви можете побачити. Мій погляд, полягає в тому, що масштабні перешкоди майже в кожному галузевому секторі, на мою думку, зумовлені даними, і якщо сучасні тенденції є чим пройти, я вважаю, що ми дійсно тільки що отримали почалося тому, що коли давні бренди нарешті прокидаються, що це означає, і вступають у гру, вони збираються входити в гру оптом. Коли начебто великі роздрібні торговці, які мають гори даних, починають застосовувати історичний аналіз даних, якщо вони навіть знають, що вони існують, то деякі з онлайн-гравців збираються трохи зателефонувати.

Але з багатьма з цих марок, я маю на увазі, що у нас є Uber, який є найбільшою компанією таксі в світі. Вони не володіють жодними таксі, так що ж це робить їх магіями, які їх дані? Airbnb, найбільший постачальник послуг розміщення, у нас є WeChat, найбільша в світі телефонна компанія, але у них немає фактичної інфраструктури, ані телефонів, ані телефонних ліній. Alibaba, найбільший роздрібний продавець на планеті, але вони не володіють жодним інвентарем. Facebook, найбільша медіа-компанія на слові. Я думаю, що за останніми підрахунками у них зараз було 1, 4 мільярда активних користувачів даних, що є вражаючим числом. Це не десь поблизу - я думаю, хтось стверджував, що чверть планети насправді є щодня там, і все ж ось постачальник контенту, який насправді не створює вміст, усі дані, які вони обслуговують, не створюються ними, вони створені їхніми підписниками, і всі ми знаємо цю модель.

SocietyOne, про який ви можете чи не чули, це місцевий бренд, я думаю, що в декількох країнах це банк, який фактично займається одноранговим кредитуванням, тобто іншими словами, у нього немає грошей. Все, що він робить - це керувати транзакціями, а дані розташовуються під ними. Netflix, ми всі дуже, дуже добре знайомі з цим. Тут є один цікавий лайнер. Коли Netflix був легально використаний в Австралії, коли він був офіційно оголошений, вам не потрібно було використовувати VPN, щоб дістатися до нього, багато людей у ​​всьому світі прагнуть - якщо ви не можете дістатися до нього у вашій місцевості - коли Netfix був запущений в Австралії, він збільшив міжнародну пропускну спроможність наших інтернет-посилань на 40 відсотків, так що майже вдвічі скористався використанням Інтернету в Австралії за одну ніч, лише одним додатком, одним хмарним додатком, який не грає нічого, окрім даних. Це просто розумна статистика.

І ми, звичайно, всі знайомі з Apple і Google, але це найбільший програмний бізнес на планеті, але вони насправді не пишуть програми. Що узгоджується з усіма цими організаціями? Ну, це дані, і вони там не потрапили, бо не знали, де їх дані, і не знали, як їх каталогізувати.

Зараз ми виявляємо, що існує весь цей новий клас активів, який називають даними, і компанії прокидаються до нього. Але вони не завжди мають інструменти та ноу-хау, і тому для того, щоб зіставити всі ці дані, каталогізувати всі ці дані та зробити їх доступними, але ми виявили, що компанії, які майже не мають фізичних активів, отримали високу ринкову цінність у записувати час через цей новий клас активів даних. Як я вже говорив, деякі старі гравці зараз прокидаються до цього і, безумовно, виводять це.

Я великий фанат приймати людей на невелику подорож, тож у вісімнадцяти сотнях, наприкінці вісімнадцяти сотень, і ви будете більш ніж знайомі з цим на ринку США, виявилося, що провести перепис щорічно або близько того, я думаю, що вони проводили їх кожні десять років, але якщо ви збираєтеся проводити перепис кожного року, то, можливо, вам знадобиться до восьми чи дев'яти років, щоб насправді зробити аналіз даних. Виявилося, що той набір даних потім залишився в скриньках місцями на папері, і майже ніхто їх не міг знайти. Вони просто продовжували викачувати ці звіти, але до фактичних даних було дуже важко дістатись, ми маємо подібну ситуацію з іншим світовим моментом, приблизно в 40-х роках, з другою світовою війною, і ця річ у Блечлі Парк Бомбе написана BOMBE, і це був масивний аналітичний інструмент для стискання чисельності, який проходив би через невеликі набори даних і знаходив у ньому сигнали, і використовувався для допомоги пролому кодів через Enigma.

Знову ж таки, це було по суті пристроєм, розробленим не для каталогізації, а для тегування та картографування даних, а також дозволяючи приймати шаблони та знаходити їх всередині наборів даних, в цьому випадку ламати коди, знаходити ключі та фрази та знаходити вони регулярно перебувають у наборах даних, і тому ми пройшли цей шлях пошуку речей у даних та просування до каталогізації даних.

А потім ці речі прийшли, ці масивні недорогі стелажі машин, просто позаштатні машини. І ми зробили кілька дуже цікавих речей, і одна з речей, яку ми зробили з ними, це те, що ми створили кластери з низькою вартістю, які могли б почати індексувати планету, і дуже відомі ці великі бренди, які приходять і відходять, але, мабуть, найпоширеніший дім Google бренд, про який ми всі чули - він стає фактичним дієсловом, і ви знаєте, що ви успішні, коли ваш бренд стає дієсловом. Але те, що Google навчив нас, не усвідомлюючи цього, можливо, у діловому світі, - це те, що вони змогли індексувати всю планету до певного рівня та каталогізувати дані, що були по всьому світу, і зробити їх доступними дуже просто, зручна форма у маленькій крихітній однорядковій формулі, веб-сторінка, на якій майже нічого немає, і ви вводите свій запит, він іде і знаходить його, оскільки вони вже обскакували планету, проіндексували її та зробили її доступною.

І те, що ми помітили, було: «Добре тримайтеся, ми цього не робимо в організаціях - чому це? Чому це те, що у нас є організація, яка може скласти карту всієї планети та індексувати її, сканувати та індексувати її та робити її доступною, ми можемо її шукати, а потім натискати на предмет, щоб перейти та знайти її, як ми не зробили цього всередині? "Отже, в світі зараз існує безліч цих маленьких стелажів машин, які роблять це для інтрамереж і знаходять речі, але вони все ще просто стикаються з ідеєю вийти за рамки традиційної мережі сторінки або файлового сервера.

Замість того, щоб зараз багато разів вводити цей каталог даних нового покоління, відкривати доступ до даних за допомогою записок після записів та розмов із охолодженням води - насправді вже не є належним методом відкриття та каталогізації даних, і насправді я не думаю, що це коли-небудь насправді було. Ми більше не можемо вести цей виклик перед людьми, просто пропускаючи нотатки, публікуючи нотатки та спілкуючись у чаті. Ми добре і справді виходимо за межі тієї області, де цей підхід наступного покоління до каталогізації даних з'явився і минув. Ми повинні обіймати його. Якби це було легким питанням, ми б його вже багато способами вирішили раніше, але я думаю, що це непроста проблема, лише індексація та виклик даних - це лише одна її частина, знаючи, що є в даних і збирання метаданих навколо того, що ми виявляємо, а потім надання їх доступними у легкій, споживчій формі, особливо для самообслуговування та аналітики. Проблема все ще вирішується, але багато частин головоломки за п’ять років добре і справді вирішені та доступні.

Як ми знаємо, люди, які каталогізують дані, - це рецепт невдач, тому що людська помилка - один із найбільших кошмарів, з якими ми стикаємося в обробці даних, і я регулярно розмовляю на цю тему, де, на мою думку, люди, заповнюючи паперові форми, мабуть, найбільший кошмар. ми маємо справу з великими даними та аналітикою, щоб постійно потрібно виправляти те, що вони роблять, навіть аж до простих речей, таких як дати та поля, що люди ставлять їх у неправильному форматі.

Але, як я вже говорив, ми бачили, що пошукові системи Інтернету щодня індексують світ, тому зараз ми робимо це на думці, що це можна зробити на наборах бізнес-даних у процесі відкриття, а інструменти та системи зараз легко доступні, як ви збираєтеся сьогодні дізнатися. Тож фокус, дійсно, на мій погляд, - це підбір правильних інструментів, найкращих інструментів для роботи. І ще більш доречно, щоб знайти потрібну частину, яка допоможе вам почати цей шлях. І я вірю, що ми сьогодні почуємо про це, але перш ніж ми це зробимо, я перейду до свого коледжу, Робін Блор і почую його прийняття до цієї теми. Робін, чи можу я передати тобі?

Робін Блор: Так, звичайно, можна. Давайте подивимось, чи це працює, о так, це так. Гаразд, я їду з іншого напрямку, ніж справді Дез, але я опинюсь там же. Йдеться про підключення до даних, тому я просто думав, що я пройдусь через реальність підключення до даних, по-справжньому.

Існує факт, що дані більш фрагментарні, ніж це було колись. Обсяг даних зростає феноменально, але насправді різні джерела даних також зростають з неймовірними темпами, і тому дані стають все більш фрагментарними. Але, зокрема, з прикладних програм для аналітики - але це не єдині програми - у нас є справді вагома причина підключитися до всіх цих даних, тому ми застрягли у важкому місці, ми застрягли у світі фрагментарних даних, і в даних є можливість, як називав її Dez, нове масло.

Щодо даних, ну, вона раніше жила на спінінг-диску, або у файлових системах, або в базах даних. Зараз він живе в набагато різноманітнішому середовищі, він живе у файлових системах, але він також живе в екземплярах Hadoop в наші дні, або навіть в Іскрах. Він живе в декількох видах баз даних. Не так давно ми наче стандартизували деяку реляційну базу даних, добре ви знаєте, що за останні п’ять років вийшло вікно, тому що є необхідність у базі даних документів, а в базі даних графів є потреба, так що ви знаєте, гра має змінився. Так він жив на спінінг-диску, але зараз він живе на SSD. Остання кількість SSD - безумовно, останній блок SSD виходить від Samsung - двадцять гігабайт, що величезна кількість. Тепер він живе в пам'яті, в тому сенсі, що основна копія даних може бути в пам'яті, а не на диску, ми не використовували для створення таких систем; ми робимо зараз. І живе в хмарі. Що означає, що він може жити в будь-якій з цих речей, у хмарі, ви не обов'язково будете знати, де він знаходиться у хмарі, у вас буде лише його адреса.

Просто Hadoop поки що не вдався до розширеного сховища даних. Ми сподівалися, що це стане розширюваним сховищем масштабних даних, і це просто стане однією файловою системою для всього, і це буде - веселки з’являться на небі, в основному, і єдинороги танцюють навколо, і нічого з цього не сталося. Це означає, що ми стикаємося з проблемою транспортування даних, а транспортування даних часом не виникає необхідності, але це також складно. Дані справді мають серйозну вагу, коли ви потрапили в багато терабайт даних, збираючи їх і перекидаючи, види затримок з’являються у вашій мережі або з’являються в різних місцях. Якщо ви хочете перенести дані навколо, час є важливим фактором. В даний час майже завжди є певні обмеження щодо того, скільки часу у вас є, щоб отримати одну річ, одні дані з одного місця в інше. Раніше це було те, про що ми думали як пакетні вікна, коли машина була простоюча, і незалежно від того, скільки даних у вас було, ви можете просто кинути їх, і все вийде. Ну, цього вже немає, ми живемо в набагато більш реальному світі. Тому час є фактором. Як тільки ви хочете перемістити дані, тому якщо дані мають гравітацію, ви, ймовірно, не можете їх перемістити.

Управління даними є фактором у тому сенсі, що ви насправді маєте керувати всіма цими даними, ви не отримуєте це безкоштовно, а реплікація може знадобитися для того, щоб насправді отримати дані, щоб виконати роботу, яку потрібно зробити, оскільки він може бути не там, де ви його поставили. У нього може бути недостатньо ресурсів для нормальної обробки даних. Таким чином, дані копіюються, а дані отримують більше, ніж ви могли б уявити. Я думаю, хтось давно сказав мені, що середній фрагмент даних повторюється щонайменше два з половиною рази. ESB або Kafka пропонують можливість передачі даних, але сьогодні вона потребує архітектури. Сьогодні вам справді потрібно подумати так чи інакше, про те, що насправді означає перекидати дані. Тому, як правило, бажано отримати доступ до даних там, де вони є, якщо, звичайно, ви зможете отримати необхідну ефективність, коли ви дійсно шукаєте дані, і це залежить від контексту. Так що це все-таки складна ситуація. Що стосується запитів даних, ми раніше могли мислити з точки зору SQL, ми дійсно створили зараз, ви знаєте, різні форми запитів, SQL так, але суміжні, також графічні запити, Spark - лише один приклад роблячи графік, тому що також нам потрібно робити пошук тексту, більше, ніж ми коли-небудь робили, також регекс-тип пошукових запитів, що є дуже складним пошуком шаблонів, і справжнім узгодженням шаблону, все це насправді відривається. І всі вони корисні, оскільки отримують вам те, що ви шукаєте, або можуть отримати вам те, що ви шукаєте.

Зараз запити поширюються на декілька даних, тому це не завжди робилося, і часто це вражає, якщо ви це зробите. Отже, це залежить від обставин, але люди очікують, що зможуть запитувати дані з декількох джерел даних, тому федерація даних того чи іншого типу стає все більш актуальною. Віртуалізація даних, яка є різним способом цього, залежно від продуктивності, також є дуже поширеною. Запити даних - це фактично частина процесу, а не весь процес. Варто лише зазначити, що якщо ви насправді дивитесь на ефективність аналітики, фактична аналітика може зайняти набагато довше часу, ніж збір даних, адже це залежить від обставин, але запити даних є абсолютно необхідною, якщо ви хочете робити будь-які вид аналітики на декілька джерел даних, і просто, ви насправді повинні мати можливості, що охоплюють.

Тож про каталоги. Каталоги існують з причини, принаймні, ми говоримо, що, знаєте, це, у нас є каталоги, і у нас є схеми в базах даних, і ми маємо кожен каталог, і ми куди б ви не поїхали, ви знайдете одне місце, і тоді ви фактично виявимо, що існує якийсь каталог, а уніфікований глобальний каталог - така очевидно гарна ідея. Але дуже мало компаній мають таке. Я пам’ятаю, у тому році, коли дві тисячі - рік, дві тисячі років, паніка - я пам’ятаю, що комуністи не могли навіть визначити, скільки у них виконуваних файлів, не маючи на увазі, скільки у них зберігалися різні сховища даних, і це, мабуть, так зараз Ви знаєте, що більшість компаній активно не знають у глобальному розумінні, які дані вони отримали. Але очевидно стає все більш необхідним мати глобальний каталог або, принаймні, мати глобальну картину того, що відбувається через зростання джерел даних та постійне зростання прикладних програм, і це особливо необхідно для аналітики, тому що ви також в один спосіб, і тут є інші проблеми, такі як родовід і проблеми з даними, і це необхідно для безпеки, багатьох аспектів управління даними, якщо ви дійсно не знаєте, які дані у вас є, ідея що ти збираєшся керувати, це просто абсурд. Отже, у тому, що всі дані якимось чином каталогізовано - це лише факт. Питання в тому, чи є каталог узгодженим, а власне, що з ним можна зробити. Тому я повернуся до Ребеки.

Ребекка Йозв'як: Добре, дякую Робін. Наступним ми отримали Девіда Крофорда з Алації, Девід. Я буду йти вперед і передавати м'яч тобі, і ти можеш забрати його.

Девід Крофорд: Дуже дякую. Я дуже ціную, що ви, хлопці, взяли мене на це шоу. Я думаю, що я розпочну це, тому я думаю, що моя роль тут полягає в тому, щоб взяти частину цієї теорії і побачити, як вона насправді застосовується, і результати, які ми можемо досягти у реальних клієнтів, і тому ви можете побачити декілька на слайді, я хочу поговорити про те, які результати ми зможемо побачити в аналітичних можливо покращеннях. Отже, щоб мотивувати дискусію, ми поговоримо про те, як вони туди потрапили. Тож мені пощастило, що я досить тісно співпрацюю з великою кількістю справді розумних людей, цих клієнтів, і я просто хочу зазначити декількох, хто зміг насправді виміряти, та поговорити про те, як наявність каталогу даних вплинула на їх аналітика робочий процес. І лише для того, щоб ненадовго залишитися на фронті, я думаю, що одне з речей, які ми бачимо, зміни - це вірші каталогів даних, попередні опосередковані рішення та один із способів, як відносини дійсно думають про рішення, які ми складаємо разом, - це починати з аналітиків і працювати назад. Скажімо, давайте зробимо це для забезпечення продуктивності аналітиків. На відміну від просто дотримання вимог, або на відміну від того, щоб просто мати інвентар, ми робимо інструмент, який робить аналітиків більш продуктивними.

Отже, коли я розмовляю з науковцем з даних фінансової компанії Square, там є хлопець Нік, який розповідав нам про те, як його, йому потрібні кілька годин, щоб знайти потрібний набір даних, щоб почати звіт, тепер він може зробіть це за лічені секунди, використовуючи пошук на ринковій частці, ми поговорили з їхнім організатором, який витягнув своїх аналітиків, які використовували Square, вибачте мене, використовував Alation, щоб дізнатися, що їх, які переваги вони побачили, і вони повідомили про 50 відсоткове підвищення продуктивності, і що, один з провідних рітейлерів у світі, eBay, у них є понад тисяча людей, які регулярно займаються SQL-аналізом, і я досить тісно співпрацюю з Деб Сайс, який є проектом Менеджер у своїй команді інструментів даних, і вона виявила, що коли запитуючі приймають Alation, приймають каталог, вони бачать подвійну швидкість написання нових запитів у базу даних.

Отже, це реальні результати, це люди, які насправді застосовують каталог у своїй організації, і я хочу ознайомити вас з тим, що потрібно для налаштування. Як каталог налагоджується в компанії, і, мабуть, найголовніше, що потрібно сказати, - це те, що багато цього відбувається автоматично, тому Dez говорив про системи, вивчаючи системи, і саме це робить сучасний каталог даних. Тож вони встановлюють Alation у своєму центрі обробки даних, а потім підключають його до різних джерел метаданих у своєму середовищі даних. Я трохи зупинюсь на базах даних та інструментах BI - з обох цих даних ми збираємося витягувати технічні метадані, про в основному те, що існує. Правильно, так які столи? Які звіти? Що таке визначення звіту? Таким чином, вони витягують ці технічні метадані, і сторінка каталогу автоматично створюється для кожного об'єкта всередині цих систем, а потім вони також витягують і шарують поверх цих технічних метаданих, вони шарують поверх даних про використання. Це в першу чергу робиться шляхом читання журналів запитів із бази даних, і це справді цікаве джерело інформації. Отже, щоразу, коли аналітик пише запит, коли-небудь інструмент звітності, чи вирощується він вдома, чи не на полиці, чи інструмент звітності виконує запит з метою оновлення інформаційної панелі, коли додаток запускає запит, щоб вставити дані для роботи набір даних - усі ці речі фіксуються в журналах запитів бази даних. Чи є у вас каталог чи ні, вони записуються в журнал запитів із базою даних. Що може зробити каталог даних, а особливо те, що може зробити каталог Alation, - це прочитати ці журнали, задати запити всередині них та створити дійсно цікавий графік використання на основі цих журналів, і ми введемо це в гру для інформування майбутніх користувачів даних про те, як минулі користувачі даних ними користувались.

Отже, ми збираємо всі ці знання разом у каталог, і щоб зробити це справді справжнішим, це інтеграції, які вже розгорнуті у клієнтів, тож ми побачили Oracle, Teradata, Redshift, Vertica та купу інших реляційні бази даних. У світі Hadoop існує ряд SQL на Hadoop, подібні реляційні, мета-магазини на вершині файлової системи Hadoop, Impala, Tez, Presto і Hive; ми також спостерігали успіх у хмарних приватних постачальників Hadoop, таких як Altiscale, і ми також змогли підключитися до серверів Tableau, серверів MicroStrategy та індексувати там панелі інформаційних панелей, а також інтеграцію з інструментами діаграми з науковими даними, як Plotly.

Отже, ми підключаємося до всіх цих систем, ми підключали ці системи до клієнтів, ми втягували технічні метадані, ми втягували дані використання, і ми на зразок автоматично грунтували каталог даних, але таким чином ми централізація знань, але просто централізація речей у каталозі даних сама по собі не забезпечує ті дійсно чудові підвищення продуктивності, про які ми говорили з eBay, Square та часткою ринку. Для цього нам насправді потрібно змінити спосіб мислення щодо передачі знань аналітикам. Одне із запитань, яке вони задають, щоб підготуватися до цього, було "Як каталог насправді впливає на робочий процес аналітика?"

Ось що ми витрачаємо цілий день на роздуми, а для того, щоб говорити про цю зміну в мисленні, про поштові вірші та натягуючу модель, я хотів зробити швидку аналогію тому, яким був світ до і після читання на Kindle. Тож це просто досвід, який можуть мати деякі з вас, коли ви читаєте фізичну книгу, ви натрапляєте на слово, ви не впевнені, що знаєте визначення цього слова дуже добре, ви можете, можливо, здогадатися про це з контексту, не дуже ймовірно, що ви збираєтеся піднятися з дивана, підійдіть до своєї книжкової полиці, знайдете свій словник, запиліть його і переверніть на потрібне місце в алфавітному переліку слів, щоб переконатися, що так, так, у вас це визначення було правильно, і ви знаєте нюанси його. Так це насправді не відбувається. Отже, ви купуєте додаток Kindle і починаєте там читати книги, і ви бачите слово, в якому ви не зовсім впевнені, і доторкаєтесь до цього слова. Раптом, прямо на цьому ж екрані, є словникове визначення цього слова з усіма його нюансами, різними прикладними звичаями, і ви трохи провести пальцем, і ви отримаєте статтю з Вікіпедії на цю тему, ви знову проведіть пальцем, ви отримуєте інструмент для перекладу, який може перекласти його на інші мови чи з інших мов, і раптом ваше знання мови є набагато багатшим, і це просто відбувається вражаюча кількість разів, порівняно з тим, коли вам довелося їхати і витягніть цей ресурс для себе.

І тому, що я збираюся стверджувати, це те, що робочий процес для аналітика та спосіб, який аналітик буде працювати з документацією даних, насправді дуже схожий на те, як читач буде взаємодіяти зі словником, чи то фізичним, чи то Kindle, і так, що ми, як ми дійсно бачили це підвищення продуктивності, - це не розсипати каталог, а підключити його до робочого процесу аналітика, і так, вони попросили мене зробити тут демонстрацію, і я хочу зробити так, щоб у центрі уваги цієї презентації. Але я просто хочу встановити контекст для демонстрації. Коли ми думаємо про те, щоб донести знання даних до користувачів, коли їм це потрібно, ми вважаємо, що правильне місце для цього - місце, де вони проводять свій час і де вони роблять аналіз, - це інструмент запитів SQL. Місце, де ви пишете та запускаєте SQL запити. І ми створили один, і ми побудували його, і річ, яка насправді відрізняється від інших інструментів запитів, - це його глибока інтеграція з каталогом даних.

Отже наш інструмент запиту називається Alation Compose. Це веб-інструмент запитів, і я вам його покажу за секунду. Веб-інструмент запитів, який працює над усіма тими логотипами баз даних, які ви бачили на попередньому слайді. Зокрема, я спробую демонструвати те, як інформація про каталог надходить до користувачів. І це робиться за допомогою цих трьох різних способів. Це робиться за допомогою втручань, і саме там хтось, хто є адміністратором даних, управителем даних або яким-небудь чином адміністратором, або менеджером, може сказати: "Я хочу впорядкувати зауваження з приміткою чи попередженням у робочий процес і переконайтеся, що він доставлений користувачам у потрібний час ». Отже, це втручання, і ми це покажемо.

Розумні пропозиції - це спосіб, коли інструмент використовує всі свої узагальнені знання про каталог, щоб запропонувати предмети та частини запиту під час його написання. Найголовніше, що потрібно знати, це те, що він дійсно використовує журнал запитів, щоб зробити це, запропонувати речі на основі використання, а також знайти навіть частини запитів, які були написані раніше. І ми це покажемо.

А потім попередній перегляд. Попередній перегляд, коли ви вводите назву об'єкта, ми показуємо вам все, що знає каталог, або, принаймні, найбільш релевантні речі, які каталог знає про цей об’єкт. Отже, зразки даних, які раніше їх використовували, логічне ім'я та опис цього об’єкта, всі підходять до вас, поки ви їх записуєте, не звертаючись до них.

Тож без зайвих розмов я дістанусь до демонстрації, і я просто чекаю, коли вона з’явиться. Що я вам тут покажу, - це інструмент запитів. Це спеціалізований інтерфейс для запису SQL. Це окремий інтерфейс від каталогу, в певному сенсі. Дез і Робін поговорили про каталог, і я трохи перестрибую інтерфейс каталогу прямо до того, як він вводиться безпосередньо для обслуговування робочого процесу.

Я просто показую тут місце, де я можу набрати SQL, і внизу ви побачите, що у нас є якась інформація про об'єкти, на які ми посилаємось. Тож я просто почну вводити запит, і я зупинюсь, коли доїду до однієї з цих втручань. Тому я наберу "select", і я хочу рік. Я хочу ім'я. І я збираюся переглянути деякі дані про зарплату. Отже, це набір даних про освіту. У ньому є інформація про вищі навчальні заклади, і я переглядаю середню зарплату викладачів, яка знаходиться в одній із цих таблиць.

Тому я фактично набрав слово "зарплата". Це не зовсім так, як називається стовпець. Ми використовуємо як логічні метадані, так і фізичні метадані, щоб робити пропозиції. І що я хочу тут зазначити, це жовте поле, яке з’являється тут. У ній написано попередження про цю колонку. Я не шукав цього, не брав заняття, як правильно використовувати ці дані. Це дійшло до мене, і це, по суті, попередження про угоду про конфіденційність, що стосується цих даних. Отже, є деякі правила розкриття інформації. Якщо я збираюся запитувати ці дані, я вийму дані з цієї таблиці, я повинен бути обережним, як я їх розкриваю. Тож у вас тут політика управління. Існують деякі проблеми з дотриманням правил, завдяки яким це набагато простіше виконувати цю політику, коли я знаю про неї в той момент, коли я переглядаю дані.

Тож я до мене це підійшов, і тоді я теж буду дивитися на навчання. І ось ми бачимо, що попередні перегляди вступають у гру. У цьому стовпчику навчання я бачу - на таблиці закладу стовпчик навчання, і я бачу профіль цього. Alation йде і витягує зразки даних з таблиць, і в цьому випадку він показує мені щось цікаве. Він показує мені розподіл значень, і мені показує, що нульове значення виявилося в вибірці 45 разів і більше, ніж будь-яке інше значення. Тож у мене є певне відчуття, що ми можемо бракувати деяких даних.

Якщо я передовий аналітик, то це, можливо, вже є частиною мого робочого процесу. Особливо, якщо я є особливо прискіпливим, де я б зробив купу запитів з профілювання достроково. Щоразу, коли я наближаюсь до нового фрагмента даних, я завжди замислююся про те, що таке наше покриття даних. Але якщо я новачок у аналізі даних, якщо я новачок у цьому наборі даних, я можу припустити, що якщо є стовпець, він заповнюється весь час. Або я можу припустити, що якщо він не заповнений, він не дорівнює нулю, він є нульовим або щось подібне. Але в цьому випадку у нас багато нулів, і якби я робив середнє значення, вони, ймовірно, помиляться, якби я просто припускав, що ці нулі насправді дорівнюють нулю, а не відсутніх даних.

Але Alation, ввівши цей попередній перегляд у ваш робочий процес, начебто просить вас поглянути на цю інформацію і дає навіть деяким новичкам-аналітикам шанс побачити, що тут є що помітити щодо цих даних. Отже, у нас є попередній перегляд.

Наступне, що я збираюся зробити, - це я спробую з’ясувати, з яких таблиць отримати цю інформацію. Тож тут ми бачимо розумні пропозиції. Йде весь час, але, зокрема, тут я навіть нічого не вводив, але мені підкаже, які таблиці я б хотів використовувати для цього запиту. І найголовніше, що потрібно знати про це, це те, що він користується статистикою використання. Так що в таких умовах, як, наприклад, eBay, де у вас є сотні тисяч таблиць в одній базі даних, інструмент, який може нанести удар по пшениці з пшениці, і використовувати ці статистичні дані, є дуже важливими для їх створення. пропозиції чогось варті.

Отож, запропонуємо цю таблицю. Переглядаючи попередній перегляд, ми фактично виділяємо три колонки, про які я вже згадував у своєму запиті. Тому я знаю, що у нього є три, але це не має назви. Мені потрібно отримати ім’я, тому я збираюся зробити приєднання. Коли я роблю приєднання, я знову маю ці попередні перегляди, щоб допомогти мені знайти, де знаходиться таблиця з назвою. Тож я бачу, що цей має добре відформатоване, своєрідно написане з великої літери ім'я. Здається, для кожного закладу є один рядок із назвою, тому я збираюсь це схопити, і зараз мені потрібна умова приєднання.

І ось, ось що робить Alation - це знову озиратися на журнали запитів, бачачи попередні рази, що ці дві таблиці були об'єднані, і пропонує різні способи їх приєднання. Ще раз, є якесь втручання. Якщо я перегляну одну з них, то отримає попередження, яке показує мені, що це слід використовувати лише для сукупного аналізу. Це, ймовірно, призведе до неправильної речі, якщо ви намагатиметесь щось робити через установу. Враховуючи це, ID OPE затверджений як належний спосіб з'єднання цих двох таблиць, якщо потрібно дані університетського рівня. Тож я це роблю, і це короткий запит, але я написав свій запит, не маючи обов'язково розуміння, що це за дані. Я ніколи насправді не переглядав ER-схему цього набору даних, але знаю досить багато про ці дані вже тому, що відповідна інформація надходить до мене.

Таким чином, це своєрідні три способи, за допомогою яких каталог через інтегрований інструмент запитів може безпосередньо впливати на робочий процес під час написання запитів. Але однією з інших переваг того, що інструмент запитів інтегровано до каталогу, є те, що, коли я закінчую запит і зберігаю його, я можу поставити назву на кшталт «Навчання в навчальному закладі та виплата факультету», і тут у мене є кнопка, що дозволяє мені просто опублікувати його в каталозі. Мені стає дуже просто годувати цю спину. Навіть якщо я не публікую його, він захоплюється як частина журналу запитів, але коли я публікую його, він фактично стає частиною шляху централізованого місця, де живе все знання даних.

Тож якщо я натискаю Шукати всі запити в Alation, мене приймуть - і тут ви побачите ще деякий інтерфейс каталогу - я перейду до спеціального пошуку запитів, який показує мені спосіб пошуку запитів у всіх вся організація. І ви бачите, що мій нещодавно опублікований запит знаходиться вгорі. І дехто може помітити тут, коли ми записуємо запити, ми також захоплюємо авторів, і ми наче встановлюємо цей зв’язок між мною як автором та цими об'єктами даних, про які я зараз щось знаю. І я встановлююсь як експерт із цього запиту та цих об'єктів даних. Це дуже корисно, коли людям потрібно дізнатися про дані, тоді вони можуть знайти потрібну людину, про яку можна дізнатися. І якщо я насправді новачок у даних, чи я просунутий аналітик - як просунутий аналітик, я можу переглянути це і побачити купу прикладів, які б почали мене починати з нового набору даних. Як хтось, хто може не відчувати надто розумної роботи з SQL, я можу знайти заздалегідь зроблені запити, це звіти, якими я можу скористатися.

Ось один Філ Мазанетт про медіанні балів SAT. Натисніть на це, і я отримаю якусь сторінку каталогу для самого запиту. У ньому йдеться про написану статтю, в якій посилається на цей запит, тому я маю певну документацію, яку я повинен прочитати, якщо я хочу навчитися її використовувати. І я можу відкрити його в інструменті запитів, натиснувши кнопку Написати, і я можу просто запустити його тут, навіть не редагуючи. Насправді, ви можете побачити трохи наших легких можливостей звітування, де під час написання запиту ви можете вписати змінну шаблону, як ця, і це створить простий спосіб створити форму для виконання запиту на основі на пару параметрів.

Так що я маю для демонстрації. Я перейду назад до слайдів. Просто для підбору підсумків ми показали, як адміністратор, керуючий даними, може втручатися, розміщуючи попередження щодо об’єктів, які відображаються в інструменті запитів, як Alation використовує свої знання щодо використання об'єктів даних для створення розумних пропозицій, як це приносить в профілюванні та інших порадах щодо покращення робочих процесів аналітиків, коли вони торкаються певних об'єктів, і як усі подібні подачі повертаються в каталог, коли запитуються нові запити.

Очевидно, що я є представником компанії від імені компанії. Я збираюся сказати приємні речі про каталоги даних. Якщо ви хочете почути прямо від одного з наших клієнтів, Крісті Аллен із Safeway працює командою аналітиків і має дійсно прикольну історію про час, коли їй потрібно було по-справжньому побити годинник, щоб здійснити маркетинговий експеримент, і про те, як її все Команда використовувала Alation, щоб співпрацювати і дуже швидко розгортатися над цим проектом. Тож ви можете перейти за цим посиланням bit.ly, щоб перевірити цю історію, або якщо ви хочете трохи дізнатися про те, як Alation може внести каталог даних у вашу організацію, ми раді налаштувати персоналізовану демонстраційну версію. Дуже дякую.

Ребекка Йозв'як: Дякую, Давид. Я впевнений, що у Деза і Робіна є кілька запитань, перш ніж я перейду до питань аудиторії. Дез, ти хочеш першим піти?

Дез Бланшфілд: Абсолютно. Мені подобається ідея цієї концепції опублікованих запитів і пов'язування її з джерелом створення. Я був давнім чемпіоном цієї ідеї власного магазину додатків, і я думаю, що це справді чудова основа, на якій потрібно будувати.

Я прийшов, щоб ознайомитись з деякими організаціями, які ви бачите, як це робите, і деякими історіями успіху, які вони могли б мати протягом усієї подорожі, не тільки використовувати ваш інструмент та платформу для пошуку даних, але й а потім трансформують свої внутрішні культурні та поведінкові риси навколо. Тепер, маючи такий власний магазин додатків, де ви начебто просто завантажуєте, концепцію, де вони не просто можуть їх знайти, але вони можуть насправді почати розвивати маленькі спільноти з власниками цих знань.

Девід Крофорд: Так, я думаю, що ми здивувалися. Ми віримо в цінність обміну запитами, як з мого минулого як менеджера по продуктах в Adtech, так і від усіх клієнтів, з якими ми спілкувалися, але я все ще дивувався тому, як часто це одна з найперших речей, яку клієнти говорити про те, як про цінність, яку вони отримують із Алації.

Я робив тестування інструменту запитів у одного з наших клієнтів під назвою Invoice2go, і у них був менеджер продукту, який був відносно новим, і вони сказали - він насправді сказав мені, не запрошений під час тестування користувача, "я фактично не хотів взагалі пишуть SQL, за винятком того, що Alation це полегшить. "І звичайно, як прем'єр-міністр, я начебто йду:" Що ти маєш на увазі, як ми це зробили? "І він сказав:" Ну, справді це просто тому що я можу ввійти в систему і бачу всі ці існуючі запити ". Починати з порожнього сланця з SQL - це надзвичайно важко, але змінити існуючий запит, де можна побачити результат, який вийшов, і ви можете сказати, "О, мені просто потрібен цей додатковий стовпець", або "мені потрібно відфільтрувати його до певного діапазону дат", це набагато простіше зробити.

Ми бачили подібні допоміжні ролі, як, наприклад, менеджери продуктів, можливо, люди, котрі починають брати участь у продажах, і які завжди хотіли вивчити SQL і почати підбирати його за допомогою цього каталогу. Ми також бачили, що багато компаній намагалися зробити відкритий код. Я намагався створювати такі речі всередині, де вони відстежують запити та роблять їх доступними, і є деякі справді складні проблеми дизайну, щоб зробити їх корисними. У Facebook був внутрішній інструмент, який вони назвали HiPal, який охопив усі запити, написані на Hive, але те, що ви дізнаєтесь, це те, що якщо ви не налаштовуєте користувачів правильним чином, ви просто закінчите дуже довгий перелік вибраних висловлювань. І як користувач, який намагається розібратися, чи корисний для мене запит, чи він корисний, якщо я просто перегляну довгий список вибраних висловлювань, мені знадобиться набагато більше часу, щоб отримати щось цінне там, ніж починаючи з нуля. Ми досить ретельно продумали, як скласти каталог запитів, який виводить потрібні речі на передній план і надає їх корисним чином.

Дез Бланчфілд: Я думаю, що всі ми проходимо цю подорож від наймолодшого віку, до зрілого віку, багато в чому. Купа технологій. Я, особисто я, пережив цю саму справжню річ, як, навчившись скорочувати код. Я б переглянув журнали, потім книги, і вивчив би певний рівень, і тоді мені потрібно було піти і насправді отримати ще якусь підготовку та освіту.

Але мимоволі я виявив, що навіть коли я йшов від викладання себе і читання журналів, читання книг і відбивання чужих програм та переходу на курси, я все-таки закінчив вчитися стільки ж, як робити курси, як просто говорив з іншими люди, які мали певний досвід. І я думаю, що це цікаве відкриття, що тепер, коли ви доводите це до аналітики даних, ми в основному бачимо ту саму паралель, що люди незмінно досить розумні.

Інша річ, яку я дуже хочу зрозуміти, це те, що на дуже високому рівні багато організацій збираються запитати: "Скільки часу потрібно, щоб дійти до цього пункту?". ваша платформа встановлена, і вони почали відкривати типи інструментів? Наскільки швидко люди просто бачать, як ця річ перетворюється на справді негайний "а-ха" момент, коли вони розуміють, що навіть не турбуються про рентабельність інвестицій, тому що вона є, але зараз вони насправді змінюють спосіб свого ведення бізнесу. ? І вони виявили втрачене мистецтво і сподіваються, що зможуть зробити щось справді, дуже цікаво.

Девід Крофорд: Так, я можу трохи торкнутися цього. Я думаю, що коли ми встановлюємо, що одна з приємних речей, одна з речей, що люблять у каталозі, безпосередньо пов’язаному з системами даних, - це те, що ви не починаєте пустувати там, де вам належить заповнити його. сторінка за сторінкою. І це справді стосується попередніх рішень даних, де ви б почали з порожнього інструменту і вам слід почати створювати сторінку для всього, що ви хочете документувати.

Оскільки ми записуємо так багато речей автоматично, витягуючи метадані, по суті, протягом декількох днів після встановлення програмного забезпечення, ви можете мати в своєму інструменті зображення свого середовища даних, яке не менше 80 відсотків. І тоді я думаю, що як тільки люди почнуть писати запити за допомогою інструменту, вони автоматично зберігаються назад у каталог, і вони також почнуть відображатися.

Я не хочу надто нетерпляче заявляти про це. Я думаю, що два тижні - це досить хороша консервативна оцінка, до місяця. За два тижні до місяця, консервативна оцінка дійсно обертається і відчуваєш, як ти отримуєш цінність від цього, як ти починаєш ділитися деякими знаннями та бути в змозі поїхати туди та дізнатися про свої дані.

Дез Бланчфілд: Насправді це дуже дивно, коли ти думаєш про це. Справа в тому, що деякі із великих платформ даних, які ви ефективно індексуєте та каталогізуєте, потребуватимуть іноді до року, щоб належним чином впровадити та розгорнути та встановити.

Останнє запитання, яке я маю до вас, перш ніж віддати Робіну Блору, - це роз’єми. Одна з речей, яка негайно вискакує на мене, - це те, що ти, очевидно, розібрався з цим усім викликом. Тож виникає пара питань просто дуже швидко. По-перше, як швидко реалізуються роз'єми? Очевидно, ви починаєте з найбільшої платформи, як-от Oracles і Teradatas і так далі і DB2. Але наскільки регулярно ви бачите нові роз'єми, і який час їх виконання потрібно? Я думаю, ти маєш для них стандартні рамки. І наскільки глибоко ти вникаєш у це? Наприклад, Oracles і IBM світу, і навіть Tereadata, а потім деякі більш популярні пізні платформи з відкритим кодом. Вони безпосередньо працюють з вами? Ви самі це відкриєте? Чи потрібно мати знання про ці платформи?

Як виглядає, як розробити роз'єм і наскільки глибоко ви залучитесь до цих партнерств, щоб забезпечити виявлення цих роз'ємів всього, що можливо?

Девід Крофорд: Так, звичайно, це чудове питання. Я думаю, що здебільшого ми можемо розробити роз’єми. Ми, звичайно, робили, коли ми були молодшими стартапами і не мали клієнтів. Ми можемо розвивати з'єднання, безумовно, не потребуючи внутрішнього доступу. Ми ніколи не отримуємо спеціального доступу до систем даних, які не є загальнодоступними та часто не потребують внутрішньої інформації. Ми користуємося послугами метаданих, доступними самими системами даних. Часто вони можуть бути досить складними і з ними важко працювати. Зокрема, я знаю SQL Server, яким чином вони керують журналом запитів, є кілька різних конфігурацій, і над цим вам дійсно потрібно працювати. Ви повинні розуміти нюанси, ручки та циферблати на ньому, щоб правильно їх налаштувати, і це те, над чим ми працюємо з клієнтами, оскільки ми це робили кілька разів раніше.

Але певною мірою ми використовуємо такі публічні API, які доступні, або доступні публічні інтерфейси. Ми маємо партнерські стосунки з декількома з цих компаній, це здебільшого є підставою для сертифікації, щоб вони почували себе комфортно, кажучи, що ми працюємо, а також вони можуть надати нам ресурси для тестування, іноді - раннього доступу, можливо, до платформи, яка виходить, щоб переконатися, що ми працюємо над новими версіями.

Щоб перетворити новий зв'язок, я б сказав ще раз, намагаючись бути консервативним, скажімо, від шести тижнів до двох місяців. Це залежить від того, наскільки вона схожа. Тож деякі з Postgre мають вигляд дуже схожий на Redshift. Redshift та Vertica діляться безліччю своїх деталей. Тож ми можемо скористатися цими речами. Але так, шість тижнів до двох місяців було б справедливо.

У нас також є API, так що - ми вважаємо Alation також платформою метаданих, тому якщо щось недоступне для нас, щоб дістатись і автоматично схопити, є способи, щоб ви могли самостійно написати роз'єм і запустити його в нашу систему що все ще централізується в одній пошуковій системі.

Dez Blanchfield: Фантастичний. Я ціную це. Тож ми збираємось передати це Робіну, тому що я впевнений, що у нього також є безліч питань. Робін?

Ребекка Йозвяк: Робін, можливо, не працює.

Дез Бланчфілд: Ви перемкнули звук.

Робін Блор: Так, так. Вибачте, я приглушив себе. Коли ви це реалізуєте, який процес? Мені якось цікаво, бо в багатьох місцях може бути багато даних. То як це працює?

Девід Крофорд: Так, звичайно. Ми вступаємо, спочатку це свого роду ІТ-процес, щоб переконатися, що наш сервер забезпечений, переконавшись, що мережеві з'єднання доступні, що порти відкриті, щоб ми могли фактично отримати доступ до систем. Всі вони часто знають, з яких систем хочуть почати. Знаючи всередині системи передачі даних, що - а іноді ми і справді їм допоможемо. Ми допоможемо їм пройти початковий перегляд журналу запитів, щоб зрозуміти, хто використовує що і скільки користувачів у системі. Тож ми допоможемо дізнатися, де - вони часто, якщо у них є сотні чи тисячі людей, які можуть увійти до баз даних, вони насправді не знають, де вони входять, тому ми можемо дізнатисясь із запитує журнали запитів, скільки унікальних облікових записів користувачів ви фактично входите в систему і виконуєте тут запити протягом місяця або близько того.

Тож ми можемо цим скористатися, але часто лише на найважливіших. Ми налаштовуємо їх, і тоді йде процес: «Давайте розставити пріоритети». Існує ряд заходів, які можуть відбуватися паралельно. Я б зосередився на навчанні використання інструменту запитів. Після того, як люди починають використовувати інструмент запитів, насамперед, багато людей люблять те, що це лише єдиний інтерфейс для всіх їх різних систем. Вони також люблять те, що це веб-версія, не передбачає встановлення, якщо вони цього не хочуть. З точки зору безпеки, їм подобається мати єдину точку входу, з точки зору мережі, між різновидом корпоративної ІТ-мережі та центром обробки даних, де живуть виробничі джерела даних. Отже, вони встановлять Alation як інструмент запитів і почнуть використовувати Compose як точку доступу для всіх цих систем.

Отже, як тільки це трапиться, то, на чому ми зосереджуємось на навчанні, - це зрозуміти, які існують деякі відмінності між веб-інструментом або інструментом запиту на основі сервера від того, який ви матимете на робочому столі, та деякі нюанси використання що. І в той же час, що ми спробуємо зробити, це виявити найцінніші дані, знову скориставшись інформацією журналу запитів і сказавши: «Ей, ви можете зайти і допомогти людям зрозуміти це. Давайте почнемо публікувати репрезентативні запити на цих таблицях. "Це іноді найефективніший спосіб дуже швидко розкрутити людей. Давайте розглянемо вашу власну історію запитів, опублікуємо ці речі, щоб вони відображалися як перші запити. Коли люди переглядають сторінку таблиці, вони можуть бачити всі запити, які торкалися цієї таблиці, і вони можуть починати звідти. А потім почнемо додавати заголовки та описи до цих об’єктів, щоб їх було легше знаходити та шукати, щоб ви знали деякі нюанси того, як ним користуватися.

Ми переконуємося, що ми ретельно вивчаємо журнал запитів, щоб ми могли генерувати походження. Одне з тих, що ми робимо, - це переглядати журнал запитів у часи, коли дані переміщуються з однієї таблиці в іншу, і це дозволяє нам ставити одне з найбільш часто заданих питань щодо таблиці даних, звідки це взялося? Як я їй довіряю? І тому, що ми можемо показати, це не тільки з яких інших таблиць, з яких вона вийшла, але і як вона трансформувалася по дорозі. Знову ж таки, це своєрідне керування журналом запитів.

Таким чином, ми переконуємося, що ці речі налаштовані і що ми вносимо рядкові системи в систему, і ми націлюємо на найцінніші та найвищою мірою використані фрагменти метаданих, які ми можемо встановити на сторінках таблиці, так що під час пошуку ви знаходите щось корисне.

Робін Блор: Гаразд. Інше питання - тут багато запитань від аудиторії, тому я не хочу займати тут занадто багато часу - інше питання, яке спадає на думку, - це лише больові моменти. Багато програмного забезпечення купується через те, що люди так чи інакше мають труднощі. То яка спільна больова точка приводить людей до Аляції?

Девід Крофорд: Так. Я думаю, що їх небагато, але я думаю, що одним із тих, кого ми чуємо досить часто, є аналітик на борту. "Мені потрібно буде найняти 10, 20, 30 людей найближчим часом, яким доведеться отримувати нові відомості з цих даних. Як вони будуть швидкими?" Отже, аналітик на борту - це те, що ми, звичайно, снасті Існує також просто позбавити старших аналітиків витрачати весь свій час на відповіді на запитання інших людей щодо даних. Це теж дуже часто. І те, і інше - це проблеми освіти.

І тоді я б сказав, що ми бачимо, що люди приймають Alation, коли вони хочуть створити абсолютно нове середовище даних для того, щоб хтось працював. Вони хочуть рекламувати та продавати це внутрішнє, щоб люди могли ним скористатися. Тоді зробити Alation передовою до цього нового аналітичного середовища дуже привабливо. У ньому є документація, є єдиний пункт введення до - єдиної точки доступу до систем, і тому це ще одне місце, куди люди приїдуть до нас.

Робін Блор: Гаразд, я передам вас до Ребекки, оскільки публіка намагається дістатися до вас.

Ребекка Йозвяк: Так, у нас тут дуже багато справді хороших питань аудиторії. А Давид, цей був поставлений саме вам. Це від когось, хто, мабуть, має певний досвід роботи з людьми, що неправильно застосовує запити, і він начебто говорить, що чим більше ми надаємо користувачам, тим складніше керувати відповідальним використанням обчислювальних ресурсів. То чи можете ви захищатися від поширення помилкових, але поширених запитів?

Девід Крофорд: Так, я бачу це питання. Це чудове запитання - таке ми отримуємо досить часто. Я бачив біль у попередніх компаніях, де потрібно навчати користувачів. Наприклад, "Це таблиця журналів, журнали повертаються роками. Якщо ви збираєтеся написати запит у цю таблицю, вам дійсно доведеться обмежити дату ». Отже, наприклад, це навчання, яке я пройшов у попередній компанії, перш ніж мені було надано доступ до бази даних.

У нас є кілька способів вирішити це. Я б сказав, що я думаю, що дані журналу запитів справді унікально цінні для їх вирішення. Це дає ще одне уявлення про те, що база даних робить внутрішньо зі своїм планувальником запитів. І те, що ми робимо, це одне з таких втручань - у нас є ручні втручання, які я показав, і це корисно, правда? Так, наприклад, при певному приєднанні ви можете сказати: "Давайте це зневажимо". Він буде мати великий червоний прапор, коли він з’явиться у розумній пропозиції. Тож це один із способів намагатися дістатись до людей.

Інша річ, яку ми робимо, - це автоматизована під час виконання втручання. Це насправді буде використовувати дерево розбору запиту, перш ніж ми його запустимо, щоб він побачив, чи включає він певний фільтр або пару інших речей, які ми також робимо там. Але одна з найцінніших і найпростіших, що пояснюється, - це включає фільтр? Отож, як у тому прикладі, який я щойно подав, у цій таблиці журналів, якщо ви збираєтеся запитувати його, повинен бути діапазон дат, ви можете вказати на сторінці таблиці, що вам призначено застосувати цей фільтр діапазону дат. Якщо хтось спробує запустити запит, який не включає цей фільтр, він фактично зупинить їх з великим попередженням, і він скаже: "Ви, ймовірно, повинні додати до свого запиту деякий SQL, який виглядає таким чином". Вони можуть продовжуватися, якщо вони хочуть. Ми не збираємось фактично повністю заборонити їм їх використовувати - це також запит, він повинен, наприкінці дня, виконувати запити. Але ми ставимо перед ними досить великий бар'єр, і ми даємо їм пропозицію, конкретну застосовну пропозицію, щоб змінити запит, щоб покращити їхню ефективність.

Ми також це робимо автоматично в деяких випадках, знову ж таки спостерігаючи за журналом запитів. Якщо ми бачимо, що якийсь дійсно великий відсоток запитів у цій таблиці скористається певним фільтром або певним пунктом приєднання, то ми насправді з’явимо це. Ми сприятимемо цьому до втручання. Насправді це сталося зі мною на внутрішньому наборі даних. У нас є дані про клієнтів і у нас є ідентифікатори користувачів, але ідентифікатор користувача встановлений, оскільки це свого роду - ми маємо ідентифікатори користувачів у кожного клієнта. Це не унікально, тому для отримання унікального ключа з'єднання вам доведеться поєднати його з ідентифікатором клієнта. І я писав запит, і я спробував щось проаналізувати, і він з’явився, і сказав: «Ей, всі інші, здається, приєднуються до цих таблиць і з ідентифікатором клієнта, і з ідентифікатором користувача. Ви впевнені, що не хочете цього робити? "І це насправді заважало мені робити некоректний аналіз. Таким чином, це працює як для точності аналізу, так і для продуктивності. Ось так ми вирішуємо цю проблему.

Ребекка Йозв'як: Мені це здасться ефективним. Ви сказали, що не обов'язково будете перешкоджати людям забирати ресурси, але навчите їх тому, що те, що вони роблять, може бути не найкращим, правда?

Девід Крофорд: Ми завжди припускаємо, що користувачі не є злісними - дайте їм найкращі наміри - і ми намагаємось бути таким чином відкритим.

Ребекка Йозвяк: Гаразд. Ось ще одне питання: «Яка різниця між менеджером каталогу, як, наприклад, вашим рішенням, та інструментом MDM? Або він насправді покладається на інший принцип, розширюючи вибір таблиць запитів, тоді як MDM зробить це автоматично, але з тим самим основним принципом збирання метаданих ".

Девід Крофорд: Так, я думаю, що, дивлячись на традиційні рішення МДМ, головна відмінність - філософська. Це все про те, хто такий користувач. Такий, як я сказав на початку своєї презентації: Алація, я думаю, що коли ми були засновані, ми були засновані з метою дати можливість аналітикам виробляти більше розумінь, швидше їх виробляти, бути більш точними в розумінні того, що вони виробляти. Я не думаю, що це колись було метою традиційного рішення MDM. Ці рішення, як правило, орієнтовані на людей, яким необхідно складати звіти про те, які дані були захоплені до ДМС або внутрішньо для будь-якого іншого типу аудиту. Іноді це може ввімкнути аналітиків, але частіше, якщо він буде дозволити практикуючим у своїй роботі, то швидше включити архітектора даних, як DBA.

Коли ви думаєте про речі з точки зору аналітика, саме тоді ви починаєте створювати інструмент запитів, який ніколи не зробив би інструмент MDM. Ось тоді ви починаєте думати про ефективність та точність, а також розуміти, які дані стосуються моєї справи. Все це - речі, які начебто попсуються в нашій свідомості, коли ми розробляємо інструмент. Це входить в наші алгоритми пошуку, вкладається в макет сторінок каталогу та можливість внести знання з усієї організації. Це полягає в тому, що ми побудували інструмент запитів і що ми вбудували каталог безпосередньо в нього, тому я думаю, що це насправді випливає з цього. З яким користувачем ви спочатку пам’ятаєте?

Ребекка Йозвяк: Добре, добре. Це справді допомогло пояснити це. хто вмирав, щоб отримати сховище за архів, тому що йому довелося виїхати, але він дуже хотів, щоб його питання відповів. Він сказав, що на початку згадувалося, що існує кілька мов, але чи є SQL єдиною мовою, що використовується в компоненті Compose?

Девід Крофорд: Так, це правда. І одна з речей, яку я помітив, коли я був свідком вибуху різних типів баз даних, баз даних документів, баз даних графіків, ключових сховищ цінностей, - це те, що вони справді потужні для розробки додатків. Вони можуть обслуговувати конкретні потреби дійсно добре, кращими способами, ніж можуть реляційні бази даних.

Але коли ви повертаєте його до аналізу даних, коли ви повертаєтесь до нього - коли ви хочете надати цю інформацію людям, які збираються робити спеціальні звіти чи спеціальні копання даних, вони завжди повертаються до реляційних даних, принаймні, інтерфейс для людей. Частина цього лише тому, що SQL є lingua franca аналізу даних, тож це означає, що для людей це також інструменти, які інтегруються. Я думаю, що це причина того, що SQL на Hadoop настільки популярний і існує стільки спроб вирішити його, це тому, що в кінці дня це знають люди. Напевно, є мільйони людей, які вміють писати SQL, і я б ризикнув не мільйони, які знають, як написати рамковий запит конвеєрного конвеєра Монго. І що це стандартна мова, яка використовується для інтеграції на дуже широкому спектрі платформ. Отже, все, що це говорить, нас дуже рідко просять виходити за межі цього, тому що це інтерфейс, який використовує більшість аналітиків, і це місце, де ми зосередилися, особливо в Compose, що ми зосередилися на написанні SQL.

Я б сказав, що наукові дані - це місце, де вони працюють більше за все, і тому у нас виникають запитання щодо використання Pig або SAS. Це речі, з якими ми точно не справляємося в Compose, і які ми хотіли б зафіксувати у каталозі. І я бачу також R та Python. У нас є декілька способів, що ми створили інтерфейси, за допомогою яких можна використовувати запити, написані в Alation всередині сценаріїв R і Python, тому, часто, коли ви є науковцем даних і працюєте на мові сценаріїв, вихідні дані знаходяться у реляційній базі даних. Ви починаєте з SQL запиту, а потім обробляєте його далі і створюєте графіки всередині R та Python. І ми створили пакети, які ви можете імпортувати в ті сценарії, які витягують запити або результати запиту від Alation, щоб ви могли там мати змішаний робочий процес.

Ребекка Йозвяк: Добре, чудово. Я знаю, що ми трохи пробігли вершину години, я просто задам ще два-два питання. Я знаю, що ви говорили про всі різні системи, до яких можна підключитися, але що стосується даних, розміщених на зовнішньому рівні та даних, розміщених на внутрішньому рівні, чи можна їх спільно шукати у вашому єдиному представленні, на вашу єдину платформу?

Девід Крофорд: Звичайно. Є кілька способів зробити це. Я маю на увазі, зовні хостинг, я б уявив, я намагаюся подумати, що саме це може означати. Це може означати базу даних, яку хтось розміщує для вас в AWS. Це може означати загальнодоступне джерело даних з data.gov. Ми підключаємось безпосередньо до баз даних, входячи так само, як і інша програма, з обліковим записом баз даних, і ось так ми витягуємо метадані. Тож якщо у нас є обліковий запис і відкритий мережевий порт, ми можемо дістатись до нього. І тоді, коли у нас немає таких речей, у нас є щось, що називається віртуальним джерелом даних, що дозволяє вам по суті наштовхувати документацію, будь то автоматично, написавши власний роз'єм або заповнивши його, виконавши навіть як завантаження CSV, для документування даних поряд із внутрішніми даними. Це все потрапляє в пошукову систему. Це стає посилається на статті та іншу документацію та бесіди всередині системи. Тож так ми поводимось, коли не можемо безпосередньо підключитися до системи.

Ребекка Йозвяк: Гаразд, це має сенс. Я просто вистрілю ще одне питання до вас. Один учасник - це запитуючи: "Як слід перевіряти, перевіряти чи підтримувати вміст каталогу даних, як оновлення вихідних даних, як змінені вихідні дані тощо"

Девід Крофорд: Так, це питання, якого ми отримуємо багато, і я думаю, що одна з речей, що ми - одна з наших філософій, як я вже сказав, ми не вважаємо, що користувачі злісні. Ми припускаємо, що вони намагаються внести найкращі знання. Вони не збираються заходити і навмисно вводять людей в оману щодо цих даних. Якщо це проблема у вашій організації, можливо, Alation не є правильним інструментом для вас. Але якщо ви приймаєте на себе добрі наміри з боку користувачів, то ми думаємо про це як про щось, де надходять оновлення, і тоді, як правило, ми робимо управителя, відповідаючи за кожен об'єкт даних або кожен розділ даних. І ми можемо сповістити цих управителів, коли будуть внесені зміни в метадані, і вони можуть обробляти це таким чином. Вони бачать оновлення, які надходять, перевіряють їх. Якщо вони не праві, вони можуть повернутись, змінити їх та повідомити, і, сподіваємось, навіть зв’язатися з користувачем, який надав інформацію та допоможе їм дізнатися.

Тож це основний спосіб, коли ми думаємо про це. Це така пропозиція з боку натовпу та управління стюардами, тому у нас є певні можливості.

Ребекка Йозвяк: Добре, добре. І якщо ви можете просто повідомити людям, як найкраще розпочати роботу з Alation, і куди вони можуть піти конкретно, щоб отримати більше інформації. Я знаю, ви поділилися цим одним bit.ly. Це найкраще місце?

Девід Крофорд: Alation.com/learnmore Я думаю, що це прекрасний шлях. Щоб підписатися на демонстрацію, на сайті Alation.com є багато чудових ресурсів, довідки клієнтів та новини про наше рішення. Тому я думаю, що це чудове місце для початку. Ви також можете надіслати електронною поштою.

Ребекка Йозвяк: Добре, чудово. І я знаю, відвідувачі, вибачте, якщо я не дійшов до всіх питань сьогодні, але якщо ні, вони будуть переслані Девідові або його торговій команді чи комусь із компанії Alation, тож вони точно зможуть допомогти відповісти на ваші запитання та допомогти зрозуміти що робить Алація або що вони роблять найкраще.

І з цим, люди, я піду підписати нас. Ви завжди можете знайти архіви на сайті InsideAnalysis.com. Ви також можете знайти його на Techopedia.com. Вони, як правило, оновлюються трохи швидше, тому обов'язково перевірте це. І сьогодні дуже дякую Девіду Крофорду, Дез Бланчфілду та Робіну Бор. Це була чудова трансляція. І з цим я попрощаюся з тобою. Дякую, люди. Бувай.

Девід Крофорд: Дякую

Сила навіювання: як каталог даних дає можливість аналітикам