Принципы управления хранением



Прежде всего я хотел бы сформулировать фундаментальное правило управления хранением.

Данные находятся в сохранности только тогда, когда они хранятся более чем на одном носителе и более чем в одном месте.

Это утверждение может показаться одной из самоочевидных истин, однако новые технологии его так легко вуалируют, что мы теряем ощущение реальности. Любой носитель может выйти из строя, будь это диск оперативного доступа, магнитная лента или оптический диск. Аналогично может быть разрушено любое место хранения - например сгореть.

Первый принцип управления хранением - хранить данные в безопасности. Проблема, из-за которой мы уделяем так много внимания данной теме, состоит в том, чтобы сделать это наиболее доступным по цене способом. Вместо единого решения, которое подходило бы для всех вариантов хранения, существуют компромиссы. Обычно они возможны между стоимостью хранения, усилиями по выполнению резервирования и стоимостью простоев и потери данных. Стоит еще раз напомнить самим себе, - зачем мы делаем резервирование - чтобы защититься от случайностей ("о, я только что удалил не тот файл") и разных бедствий (разрушен диск или сгорел центр обработки данных).

Существуют гибкие методики, такие как RAID, включая "зеркалирование" (mirroring), однако хотя они и повышают надежность системы, но не защищают ни от катастрофы (если у вас нет удаленной зеркальной копии), ни тем более от случайного удаления.

Организация учета бумажных и микрографических документов

Архивная система кроме работы с электронными документами должна учитывать бумажные и микрографические документы - система должна хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций: выдача документа, возврат документа и т. п.

Организация поиска документов

Наряду с организацией хранения документов необходимо их быстро и эффективно искать. Если со скоростью поиска все понятно, то для пояснения понятия эффективности поиска рассмотрим модели поиска. Существует два подхода к поиску документов. Первый подход состоит в том, что в процессе поиска ищется документ, который точно существует в системе, и задача состоит в том, чтобы процесс поиска свелся к нахождению требуемого документа или документов. Этот подход применятся в 90% всех случаев поиска. Второй подход состоит в том, что ищутся все документы по интересующему вопросу. Для этого подхода присущи такие понятия, как полнота - соответствие между найденными документами по данному запросу и действительному списку документов и шум - соответствие документов, отвечающих запросу и документов, нерелевантных ему.

Существует два основных типа поиска. Атрибутивный - каждому документу присваивается набор определенных атрибутов, присваиваемых документу во время его размещения в архиве. В дальнейшем документ ищется на совпадение значений этих атрибутов полям запроса. К атрибутам документа можно отнести имя документа, время создания, автор, машинистка, имя подразделения, тип документа (факс, письмо, контракт, спецификация и т. д.). Очевидно, что список таких атрибутов должен быть расширяем. Совокупность атрибутов документа называется карточкой документа. Эти поля могут заполняться произвольно или из предопределенных справочников.

Второй тип поиска, носит название полнотекстовый - автоматически обрабатывается все содержание документа, и затем по любому слову, входящему в данный документ, можно найти сам документ. Соответственно существует зависимость между типами поиска и подходами к поиску. Для поиска известного документа, очевидно, более применим атрибутивный поиск, для исследовательского поиска - полнотекстовый. Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются так же, как все содержание документа. Полнотекстовый поиск зависит от формата документа и языка, на котором он создан. Электронный документ любого формата необходимо предварительно преобразовывать в плоский текст для обработки системой полнотекстового поиска, следовательно, любая такая система должна содержать в своем составе конвертеры форматов. Зависимость от языка выражается в следующих факторах: поиск документа будет более полным, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те документы, в которых присутствуют различные словоформы слова в запросе. Данная технология носит название нормализации. Причем эффективность метода зависит от применяемого алгоритма нормализации. Для русского языка наиболее эффективен словарный метод - слово нормализуется на основе словарей, в которых содержатся словоформы. Кроме словарного метода может применяться эвристический метод нормализации, когда слово может быть приведено к нормальному виду путем выполнения определенных правил, описывающих алгоритмику нормализации. Если для английского языка свод правил нормализации составляет 300 страниц машинописного текста, то для русского языка этот свод на несколько порядков больше. Аналогично нормализации было бы логично выполнять поиск не только по конкретному слову, но и по его синонимам.


Дата добавления: 2019-07-15; просмотров: 303; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!