ЖАНРЫ

Аналитика: методология, технология и организация информационно-аналитической работы

Конотопов Павел Юрьевич

Шрифт:
Объектные базы данных

Мы уже рассмотрели реляционные и навигационные БД, но ни те, ни другие не были признаны нами в качестве средства хранения данных, отвечающего потребностям ИАР и сущности системного подхода (это не значит, что они вообще не могут быть эффективно использованы при ведении ИАР). Еще одной парадигмой построения баз данных, наследующей свойства навигационных баз данных, является парадигма объектных баз данных. Парадигма объектных баз данных по своей сути близка идеологии имитационного моделирования: для описания объектов учета такие БД используют комплекс компонент описания, обеспечивающий учет не только атрибутов объекта, но и системных связей, их параметров, правил комбинирования, проверки допустимости значений и так далее. В классическом варианте объектных БД объекты идентифицируются по именному принципу, их свойства определяются набором общих (свойственных родительскому классу) и частных (свойственных данному экземпляру объекта или производному классу) характеристик. Чрезвычайно полезными механизмами, введенными в модель объектных БД, являются механизмы наследования и переопределения свойств объектов и классов. Чтобы проиллюстрировать этот механизм, приведем следующие утверждения в «объектном стиле»: «Книга — есть документ, отличающийся тем, что носитель символьных данных объединен в блок. Свиток — есть документ, отличающийся тем, что носитель символьных данных представляет собой скрученную в рулон широкую ленту». Как видим, понятия введены на основе использования ранее введенных понятий-классов верхнего уровня «документ» и «носитель символьных данных», за счет чего упрощено описание производных понятий (а термины и понятия, естественно, могут выступать в роли объектов хранения).

Своим бурным развитием объектные базы данных обязаны человеческой лени (как двигателю прогресса), системному анализу, языку программирования Си и, в первую очередь — системам автоматизированного проектирования, использовавших такие способы описания для представления информации об элементной базе проектирования (микросхемах, транзисторах и т. д.). Свойства таких элементов было удобно описывать с применением методов наследования и переопределения свойств и техники стратификации: отдельно — логические функции элемента, отдельно — описание габаритных параметров, отдельно — временные и частотные характеристики, отдельно — параметры входных и выходных сигналов (уровни нуля и единицы, амплитудно-частотная характеристика и т. д.). В результате комбинирования элементов, описанных таким образом, еще на стадии разработки устройства выявляются грубые ошибки проектировщика, смоделированы и рассмотрены эпюры сигналов в контрольных точках и так далее. По существу одновременно с проектированием устройства синтезировалась имитационная модель проектируемого устройства. Естественно, что как бы ни была многообразна элементная база, используемая для разработки электронных устройств, количество уникальных имен было конечным, а задача идентификации конкретного элемента могла решаться, например, по реализуемой им логической функции, что не требовало высокого развития логического аппарата поиска данных.

Постепенно приходило понимание того, что подобный подход приемлем и при описании объектов другой природы, в том числе, и людей, выступающих в фиксированных (заданных некими регламентами, например, должностными инструкциями) ролях. То есть, всего того, что может рассматриваться в качестве объекта, принадлежащего к некоторому классу и обладающего собственными и системными свойствами, для которого определены нормативные способы манипулирования им, его нормативное поведение и иные характеристики.

Еще одним полезным свойством объектных технологий является то, что данные, описывающие объект учета, могут быть сопровождены и информацией об интерфейсе их представления. Например, в качестве одного из атрибутов при описании микросхемы в системах автоматизированного проектирования (САПР) использовалось описание ее графического начертания. Однако это было только начало, поскольку метод отображения начертания был реализован в оболочке САПР. Позже, за счет унификации языков программирования и графических интерфейсов операционных систем, стало возможным и совместное хранение данных с описаниями методов их отображения и обработки. Это позволяет при получении исполнительной системой комбинированного блока данных и формализованных описаний алгоритмов их обработки, воспользоваться теми процедурами, которые позволяют корректно обрабатывать и отображать именно этот экземпляр или класс данных. То есть, на момент получения данных их потребитель может в принципе не располагать методами и программами обработки данного класса данных, а все изменения в методах обработки данных, автоматически станут доступны их потребителям. Такая идеология рассматривается как наиболее перспективная, в ее русле разработаны языки гипертекстовой разметки SGML, XML, HTML, MathML, языки программирования Java Script, Java и ряд иных языков программирования и управления представлением данных, разработанных в последние годы.

Однако, основной бич объектных баз данных — система именования объектов. Да, вы можете получить и изучить иерархию объектов и классов, схему наследования и переопределения свойств для конкретного класса объектов хранения, но этого мало… Поскольку основным идентификатором объекта является его имя, а не свойства (!), манипуляция экземплярами классов затруднена: это уже не таблицы, а более сложные структуры данных. А значит, решение исследовательских задач, связанных со сравнением свойств объектов, в таких БД затруднено (ведь речь идет уже не о сравнении величин, а о сравнении объектов, структура которых может и различаться). А сами объектные базы данных в большей степени пригодны для решения задач синтеза, то есть, работ типа проектирования, но не для анализа. Хотя, если рассматривать ИАР как целостный цикл работы с информацией, то становится понятно, в чем именно заключается привлекательность объектных баз данных с точки зрения аналитика — они представляют собой инструмент подготовки и проведения имитационного моделирования и проверки гипотез. Но, к сожалению, классические объектные БД не могут выступать в роли инструмента анализа, проводимого по схеме восхождения от общего к частному и обратно.

Жаль… А ведь как привлекательна идея «данные, модели и методы в одном флаконе»! Так и хочется спросить: «Девушка, а у вас такого же, но с перламутровыми пуговицами не найдется?». Что ж, Технология — девушка запасливая: есть у нее и «с перламутровыми»…

Поиски путей согласования системного подхода с компьютерными технологиями хранения, поиска и обработки данных привели к разработке еще двух технологий: объектно-реляционной модели организации хранения данных и модели гетерогенных хранилищ данных (или хранилищ данных — Data Warehouse). Однако по порядку…

Объектно-реляционные базы данны1х

Парадигма объектно-реляционных БД объединяет основные преимущества реляционных СУБД и некоторые, унаследованные от объектных СУБД. Заметим, что «объектность» в объектно-реляционных СУБД иная, нежели в объектных СУБД — объектом в них являются данные (именно для манипуляций над ними разрабатываются методы), а не семантика связей реального мира. Это позволяет, с одной стороны, использовать механизмы наследования и переопределения, обращения к объектам с применением специализированных методов, а с другой — решать сложные аналитические задачи, связанные с логическим анализом значений атрибутов.

Одним из представителей этого класса систем является СУБД IBM DB2, обеспечивающая работу с различными классами данных, включая и классы, определенные пользователем. В ней предусмотрен ряд полезных возможностей: анализ совместимости типов данных и указание правил оперирования данными (например, исключающих возможность появления квадратных долларов при умножении стоимости на стоимость и т. д.), указания внешних ссылок на ресурсы, хранимые вне БД, создания лингвистических индексов (по Г.К. Зипфу) для больших текстовых массивов и иные. Не так уж и много, но и немало.

Конечно, такие возможности несколько разочаровывают, но при совершении некоторого «интеллектуального насилия» над СУБД, заключающегося в использовании механизма подключаемых внешних процедур, объектно-реляционная система приобретает те свойства, которые могут быть чрезвычайно полезны при создании информационно-аналитических систем. Например, может быть определен объект типа «модель», правила обращения с которым будут определены во внешних процедурах, что позволит использовать такую БД в качестве системы хранения компонентов моделей, или объектов типа «сценарий», что также весьма ценно… В этом случае СУБД сможет выступать в роли системы, которая помимо функции хранения данных сможет выполнять функции диспетчера, координирующего работу множества прикладных процессов, инициируемых событиями, обработка которых предусмотрена данной СУБД (например, вставка новой записи, изменение данных и т. д.).

Хранилища данных

Идея хранилищ данных (Data Warehouse) впервые была предложена Б. Инмоном. Сейчас аналитикам многих западных компаний уже трудно представить, как они обходились с дезинтегрированными ресурсами различных баз данных, созданных в различные периоды времени в разных организациях с применением различных технологических платформ… Однако теперь, после внедрения технологии хранилищ данных, столь удачно сочетающейся с концепцией оперативной аналитической обработки данных (OLAP), эти различия перестали быть ощутимыми для потребителей. Хранилища данных прочно заняли одно из почетных мест в инструментарии аналитика. Практика построения хранилищ данных доказала необходимость переноса идеологии виртуальных таблиц, реализованной в реляционных базах данных, на крупномасштабные приложения и развития ее до технологии витрин данных (Data Mart), позволяющих сделать прозрачным доступ к данным, хранимым в технологически неоднородных средах.

За прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ и витрин данных, предназначенных для поддержки принятия решений и аналитических исследований. В создании крупных хранилищ данных лидируют такие фирмы, как IBM, Informix, NCR, Oracle, Red Brick, SAS, Sybase.

С другой стороны, следует понимать, что хранилища данных также используют и объектную идеологию, однако на уровне доступа к макроресурсам, а не отдельным записям баз данных. Основная их задача — организация прозрачного доступа к данным, размещенным в БД, функционирующих под управлением различных СУБД (в том числе, и таких, которые реализованы в соответствии с разными парадигмами). По существу, хранилище данных — это система более высокого уровня, нежели база данных, такая система могла бы назваться базой баз данных. В нем (в хранилище) содержатся объектные описания правил манипулирования информационными объектами включенных в хранилище БД, а также метаданные, описывающие систему логических отношений между объектами учета и их атрибуты.

Поделиться с друзьями: