|
|
|||
|
||||
Apache Hadoop (Владимир Климонтович на ADD-2010)0
добавлен 23.12.10 21:57
Владимир Климонтович поделился своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.
История вопроса. * Почему проблема обработки большего объема данных становится все более актуальной (пример роста количества данных в разных областях). * Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы. * Краткое описание смежных областей (distributed file system, bigtable-like storage). * История и краткое описание платформы Apache Hadoop. Примеры использования. * Использование платформы hadoop в трех отдельно взятых областях: в last.fm (построение charts), в online-advertising'e (построение статистики), в Yahoo (построение поискового индекса). * Описание традиционного подхода (SQL базы данных) и подхода с использованием Hadoop для каждой из вышеобозначенных проблем. Достоинства и недостатки SQL/Hadoop подхода * Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы. Платформы, построенные поверх Hadoop. * Краткое описание ETL-framework'а Hive and Pig, построенных на базе Hadoop. * Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL подходом Проблемы с real-time доступом к данным при использовании Apache Hadoop. * Описания случаев, когда real-time нужен, а когда нет. * Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL * Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase. Hadoop как тренд. * Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop * Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным.
Скачать mp3-файл (34.7 Мб, 96 kbps)
обращений: 353
|
Аудиозаписи с конференций Application Developer Days. ссылка
Выходит с 22 декабря 2010 года Подкастов: 27 Подписчиков: Последняя запись: 31 декабря 2010 года |
|