Изменения

Распределенные базы данных. Цели и проблемы

5562 байта добавлено, 02:12, 20 декабря 2021

Нет описания правки

** От сети, например, в дата центрах будет быстрая локальная связь;

** От типа СУБД, хотелось бы уметь делать распределенную БД, которая обслуживается разными системами управления БД (Oracle, Postgres, etc). Но в реальности все очень печально.

== Проблемы распределенных баз данных ==

=== CAP теорема ===

Можем удовлетворить только двум из следующих трем свойств одновременно:

* Consistency {{---}} информация на разных узлах согласована;

* Availability {{---}} система отвечает на запросы;

* Partition tolerance {{---}} связи между узлами могут обрываться.

Но свойства не бинарные, а доказательство верно только для бинарных свойств.

То есть зачастую согласованность нужна не во всех случаях, не в всегда нельзя пережить без ответа системы и так далее, а значит, что не попадаем под условие CAP-теоремы.

Чаще всего компромиссы рассматривают с точки зрения partition tolerance. В случае разрыва связи можем:

* Частично отказаться от доступности, поэтому функционировать

будет только одна часть системы (например, самая большая);

* Частично отказаться от согласованности, поэтому не все узлы будут в согласованном состоянии,

но при объединении системы будут протоколы, приводящие всю систему в согласование.

Без обрыва связи система не разделена и будет полностью выполняться как доступность, так и согласованность.

Есть подход BASE, ослабляющий CAP

==== Принцип BASE ====

* Basically Available - сбой узла приводит к отказу только для части пользователей

(тех, которые присоединены были в данному узлу);

* Soft-state - изменение состояния без внешнего вмешательства;

* Eventual consistency - временная несогласованность.

Последние два свойства нужны для того, чтоб при восстановлении связи система постепенно (не мгновенно) приходила в согласованное состояние.

=== Разрешение несогласованности ===

Можно, например, с помощью меток времени или векторных часов.

Если разрешать при чтении, то замедляется чтение.

При записи - замедляется запись.

Может быть отдельный асинхронный процесс, приводящий систему к согласованию, но это тоже ресурсы.

=== Оптимизация вопросов ===

В распределенном случае еще сложнее, поскольку нужны новые механизмы агрегации, которые будет учитывать планировщик запросов.

==== Цели ====

* Минимизация время выполнения;

* Минимизация количества затронутых данных (в том числе удаленных), коммуникаций.

==== Средства ====

* Выбор узлов получения и обработки данных;

* Полусоединения;

* Применение репликации.

=== Управление параллельностью ===

==== Цели ====

* Распараллеливание запроса;

* Изоляция транзакций;

* Детектирование распределенных взаимных блокировок.

==== Средства ====

* Распределенные транзакции;

* Распределенные блокировки;

* Стратегия основной копии.

=== Управление каталогом ===

==== Цели ====

* Независимость от расположения;

* Независимость от фрагментации;

* Возможность переноса данных.

==== Методы ====

* Централизованное хранилище;

* Полная репликация;

* Локальное секционирование;

* Секционирование и репликация.

=== Независимость от окружения ===

Используется механизм шлюзов {{---}} разные СУБД могут общаться друг с другом за данными несмотря на разные форматы хранения данных, запросов.

==== Задачи шлюза ====

* Реализация протоколов с помощью семантического взаимодействия;

* Конвертация данных, запросов, каталога;

* Поддержка распределенных транзакций, блокировок.

SemBarner

101

правка

Изменения

Распределенные базы данных. Цели и проблемы

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты