Компания Yahoo утверждает, что ей удалось побить мировой рекорд, создав самую большую и нагруженную базу данных в мире. Объём данных: 2 петабайт, нагрузка: 24 млрд событий в сутки. БД работает под управлением модифицированного PostgreSQL. В качестве однго из самых крупных изменений, можно отметить ориентацию на по-колоночное хранение вместо традиционного построчного, что замедляет запись на диск, но обеспечивает лучшую скорость доступа к данным для аналитических целей.
В базе хранится история поведения веб-пользователей, утверждается, что в месяц сохраняются данные о полумиллиарде пользователей. Некоторые таблицы в базе содержат триллионы строк, которые не просто лежат мёртвым грузом на дисках, но могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде.
Инженеры Yahoo ожидают рост до 5 петабайт к следующему году. И они готовы к такому росту. Для сравнения: редко встречаются БД уровня предприятия объёмом более десятков терабайт. Например, одна из самых больших публично известных БД в мире — база данных налоговой службы США «весит» всего лишь 150 терабайт. Компания EBay заявляет, что работает с системами, обрабатывающими 10 млрд строк в сутки, при этом суммарный объём данных в этих системах составляет 6 петабайт, а объём данных у самой большой из систем — около 1.4 петабайт.
Стоит понимать, что речь идёт именно о СУБД и БД, построенных на них. Есть хранилища данных с ещё более впечатляющим объёмам, но практически недоступными для анализа и обработки. К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 петабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF).



Николай
28 сен 09, 18:35
Dworkin 0
25 сен 09, 19:04
Ghostwriter 0
14 июл 09, 19:17
Сергей Коноплёв 0
10 июл 09, 16:11
Сергей Коноплёв 0
30 мар 09, 11:41
Иван Золотухин 0
16 окт 08, 12:06
Дмитрий Котеров 0
16 окт 08, 00:56
Дмитрий Котеров 0
16 окт 08, 00:56