У минулі часи, думаючи про цифрові дані, було доцільно розділяти дані між транзакційними даними, даними, отриманими в бізнес-додатках, що зберігаються в таблицях баз даних і представленими засобами BI, та всіма іншими даними: електронними листами, веб-сторінками, зображеннями, відео і так далі. В даний час ми, як правило, називаємо такі "інші дані" як неструктуровані дані.
Тим не менш, це було проаналізовано і програмне забезпечення для отримання значення з таких даних перетнуло прірву. Саме той аналітичний імператив, що більше за все інше, породив оригінальну концепцію озера даних, сховища даних для обох видів даних, а також для даних, зібраних із багатьох джерел, що знаходяться поза бізнесом, деякі з яких неминуче були неструктуровані.
У цій роботі ми розглянемо, як нова екосистема, створена озером даних, більше не буде складатися повністю з транзакцій (або подій) бізнесу. Він також буде включати дані з інших джерел, які бізнес використовує для проведення аналітики та інформує своїх користувачів про важливу інформацію, на якій можуть базуватися рішення. Система запису буде, як це було завжди, золотою копією корпоративних даних та аудиторським слідком ІТ-діяльності бізнесу.