Зміст:
Клінічна геноміка - захоплююча тема, де люди працюють над передовими технологіями для обробки швидких та точних результатів. На ринку існує безліч геномних секвенсорів, і вони виробляють петабайти даних про послідовності, і зростання послідовності буде виробляти екзабайти даних найближчим часом. Тут Hadoop є ідеальною платформою для обробки складних робочих потоків геноміки. Hadoop може зберігати та сортувати величезну кількість інформації, а також може робити важливий аналіз. (Щоб отримати уявлення про те, скільки даних насправді пов’язано з цим, прочитайте "Розуміння бітів, байтів та їхніх множин".)
Сучасність і майбутнє геноміки
Сьогодні картографування геному досягло свого апогею. Багато людей, пов’язаних з галуззю геноміки, розриваються цікавістю, і оскільки нові можливості представляють себе, краща технологія є потребою години. Секвенування геному - це дуже повторюване та ресурсомістке завдання. Тільки в 2013 році було створено близько 15 петабайт даних, і лише 2000 секвенсаторів. Ця сума, що відкидає щелепу, включала 300 КБ даних про секвенсований геном людини. За такої швидкості виробництва даних можна підрахувати, що до 2018 року буде вироблено приблизно один екбабайт даних. Це буде пов’язано із зростанням секвенсорів, які дозволять отримувати все більше даних за цикл. Ще одна причина - поява надзвичайно потужних і недорогих машин для секвенування геномів. З 2008 року ціна цих машин постійно знижується. Це пояснюється потужними машинами нового покоління, які вийшли на ринок.
Потреби індустрії картографування геномів
Складні алгоритми використовуються для обробки даних, які збираються з геному людини. Потім цю інформацію потрібно зберігати. Він може бути переглянутий у майбутньому для порівняння з вихідними даними. Завдання обробки та зберігання 100 Гб даних не надто складна, особливо коли ви це робите з потужними машинами, задіяними в центрах послідовності. Дослідження показують, що ця кількість даних може бути оброблена всього за 1000 годин процесора, тому це дуже просто. При такій швидкості технічного прогресу очевидно, що індустрія геномів незабаром обробить тисячі гігабайт всього за кілька секунд.