Тема 9. Хранилища данных

В данном разделе рассматриваются ХРАНИЛИЩА ДАННЫХ (свойства, типовая схема, этапы становления, интеграция, качество данных, ITL, метаданные). Безусловно в последнее десятилетие (2003…2012) – это одно из ключевых направлений развития и использования информационных систем. Это связано, прежде всего, с ростом объема разнородных данных, и широким применением приложений бизнес-аналитики (BI) .

«На протяжении многолетней истории ИТ специалисты были заняты одной стороной проблемы – они учились накапливать данные. Теперь же, когда эта задача, так или иначе, решена, выяснилось, что надо понять, как представлять данные пользователям » (CW№ 20 29-05-2007)

Если свести ХД только к сбору и агрегированию данных. когда усилия проектировщиков будут сведены только к технической стороне, а пользователь будет забыт. Цель, ради которой создавалось ХД, не будет достигнута.

Поэтому так критичны такие факторы, как качество данных, их актуальность, доверие к данным со стороны потребителей и ихудовлетворенность данными .

Билл Инмон (2006 год) – «Стоимость отчета, генерируемого из «сырых» данных составляет от 25 тысяч до 1 миллиона долларов и на его выпуск уходит от двух месяцев до года (минимально для среднего предприятия численностью несколько сот человек, максимально для крупной корпорации, имеющей десятки…сотни тысяч сотрудников). Если на предприятии уже есть хранилище, то на решение той же задачи нужно от получаса до 2 недель, а затраты не превышают 10 тысяч долларов… (2008г.) Средние затраты на построение хранилища составляют от 100 тыс. до 1 миллиона долларов. Если предприятию необходимо регулярно выпускать отчеты …». Важной характеристикой является не только стоимость, но искорость полученияотчета.

Термин datawarehouse чаще всего переводится на рус­ский язык как"хранилище данных" или "информационное хра­нилище ".


Второй перевод противоречит самой идее кон­цепции (концентрация корпоративных данных для обеспече­ния возможности их анализа с целью извлечения полезной информации), за что и критикуется многими авторами.

Хранилища данных - это сравнительно новое технологическое решение, которое стало использоваться только в середине 1990-х годов. После того как Билл Инмон (Bill Inmon), получивший всеобщее признание как "отец концепции Хранилища данных", опубликовал свою первую книгу по этой теме. W.H. Inmon, Building the Data Warehouse, QED/Wiley, 1991.

ПРИЧИНЫ: Отдельные элементы этой концепции и их техническое воплощение существовали раньше (по сути, с 1970-х годов), но только к середине 1990-х годов:

1) В полной мере осознана необходимость интеграции и надлежащего управления корпоративной информацией.

2) Появились технические возможности для создания подобных систем.

Хранилище данных – аппаратно-программный комплекс, обеспечивающийинтеграцию, актуализацию и согласование оперативных данных из разнородных источниковдля формирования единого непротиворечивого взгляда на объект управления в целом

Целью построения корпоративного хранилища данных является

1) интеграция, актуализация и согласование оперативных данных из разнородных источников:

Для этого разработана специальная технология ETL(Extract,TransformandLoad). В целом это достаточно сложная и нетривиальная задача (подробнее в разделе 9.4)

2)для формирования единого непротиворечивого взгляда на объект в целом.

Фактически это означает, что в основе концепции хранилищ данных лежит признание необходимости разделения:

Наборов данных, ис­пользуемых для оперативной обработки. Это традиционные многочисленные БД, существующие на предприятии

Наборов данных, применяемых в стратегических СППР – хранилище данных.

2 ключевые проблемы :

(1) объемы информации превосходят все, что когда-либо доводилось видеть в мире обработки транзакций (десятки и сотни терабайт)

(2) нет единого мнения – оправданно ли создание ХД с экономической точки зрения

W.Inman, автор концепции,определяет хра­нилища данных как:

Хранилище данных – этопредметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные с целью поддержки управле­ния. призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и поддержки принятия решений.

Основные свойства хранилищ данных

Все собранные данные, относящиеся к объекту исследования, равноправны в хранилище независимо от их происхождения. Это кардинально отличается от БД – где данные подобраны в соответствии с требованиями приложений.

подразумевает согласование, унификацию и стандартизацию данных. т.е. приведение их к общему знаменателю.Форматы, семантика, агрегация .

однажды загруженные данные никогда не изменяются.

данные хронологически структурированы и отражают историю.

В БД архивация не актуальных данных. Теперь фактически неограниченное число состояний объекта в процессе существования. Ретроспективный анализ.

событийная история – данные;

набор изменений сущности – объектов.

Альтернативным спо­собом формирования единого взгляда на корпоративные дан­ные является создание виртуального источника, опирающегося на распределенные базы данных различных СОД.

При этом каж­дый запрос к такому источнику динамически транслируется в запросы к исходным базам данных, а полученные результаты на лету согласовываются, связываются, агрегируются и воз­вращаются к пользователю.

Время обработки запросов к распределенному хранилищу значительно превышает соответствующие показатели для централизованного хранилища.

Интегрированный взгляд на распределенное корпоративное хранилище возможен только при выполнениитребования по­стоянной связи всех источников данных в сети.

Любая вре­менная недоступность хотя бы одного из источников может либо сделать работу невозможной, либо привести к ошибочным результатам.

Выполнение сложных аналитических запросов к таблицам СОД потребляет большой объем ресурсов сервера БД и приво­дит к снижению быстродействия СОД. что недопустимо (время выполнения операций СОД часто весьма критично).

Различные СОД могут поддерживать разные форматы и коди­ровки данных. В таком случае цель (формирование единого непротиворечивого взгляда на объект управления) может не быть достигнута.

Час­то на один и тот же вопрос может быть получено несколько вариантов ответа. что может быть связано:

Несинхронностью моментов обновления данных,

Отличиями в трактовке отдельных событий, понятий и данных и т.д.

Главным же недостатком следует признать практическую невозможность обзора длительных исторических последова­тельностей:

Основное назна­чение СОД – это оперативная обработка данных. По мере устарева­ния данные выгружаются в архив и удаляются из оперативной БД.

Что касается аналитической обработки, то для нее как раз наиболее интересен взгляд на объект управления в исторической ретроспективе.

9.2. Типовая схема функционирования хранилища данных

Хранилище данных функционирует по следующему сценарию .

1) По заданному регламенту в него соби­раются данные из различных источников -баз данных систем оперативной обработки.

2) В хранилище поддерживается хроно­логия . наравне с текущими данными хранятся исторические данные с указанием времени, к которому они относятся.

3) В результате необходимые доступные данные об объекте управления соби­раются в одном месте, А) приводятся к единому формату. Б) согла­совываются (семантика) и В) агрегируются до минимально требуемого уровня обобщения .

Облегченным вариантом корпоративного хранилища дан­ных могут быть витрины данных (DataMart):

тематиче­ские ХД, содержащие информацию, относящуюся к отдельным аспектам деятельности организации.

Концепция витрин дан­ных была предложена Forrester Research в 1991 году. При этом главная идея заключалась в том, что витрины данных содержат тематические подмножества заранее агрегированных данных, по размерамгораздо меньшие, чем общекорпоративное хранилище данных, и, следовательно, требующие менее произ­водительной техники для поддержания .

В 1994 году М. Demarest предложил объединить две концепции и исполь­зовать хранилище данных в качестве единого интегрирован­ного источника для многочисленных витрин данных .

Типовая архитектура хранилища данных (09p1- типовая схема ХД). Основные компоненты:

1) Источники данных (datasources), т.е. места, из ко­торых пополняется хранилище. Они могут быть как

внутрен­ними источниками (БД приложений или унаследованных систем),

внешними источниками, полученными у других организаций и из Internet.

2) Извлечение, очистка и загрузка (ETL-EXTRACT,TRANSFOR­MATIONANDLOADING) -набор средств загрузки данных, как правило, в сочетании с дополнительной обработкой:

проверкой данных на чисто­ту, консолидацией, форматированием, фильтрацией и пр.

3) Буферный накопитель (stagingarea). Это временное место хранения данных, которые уже извлечены, но еще не помещены в хранилище.

4)Интегрированное хранилище(integratedwarehouse) представляет собой ядро всей системы – это один или несколь­ко серверов, реализующих выбранную структуру хранили­ща.

На сегодняшний день существует два основных подхода к архитектуре Хранилищ данных (Дополнительно: два основных подхода к архитектуре ХД):

Корпоративная информационная фабрика (CorporateInformationFactory, CIF) Б. Инмона

Хранилище данных с архитектурой шины (DataWarehouseBus, BUS) Ральфа Кимболла (Ralph Kimball).

5) Инструменты доступа к данным (data access tools) - обеспечивают непосредственное общение пользователя с данными хранилища, направленное на поддержку принятия решений.

ТРЕХ БАЗО­ВЫХ СФЕРЫ – ТРИ МЕТОДА ОБРАБОТКИ ДАННЫХ

Сфера детализированных данных (Relation Space). Под­держка принятия решений здесь достигаетсяза счет по­иска наиболее полной информации об интересующих ин­формационных объектах. а также выявления связей между ними.

Сфера агрегированных показателей (Aggregation Space). Целью данной сферы являетсякомплексный взгляд на со­бранную информацию, ее обобщение и агрегация. гипер-кубическое представление и многомерный анализ.Все это является задачами систем оперативной аналитиче­ской обработки данных (OLAP).

Сфера закономерностей (Influence Space). Главными за­дачами здесь являютсяпоиск функциональных и логиче­ских закономерностей в накопленной информации, по­строение моделей и правил, которыеобъясняют найден­ные аномалии и/или (с определенной вероятностью) про­гнозируют развитие некоторых процессов. Интеллекту­альная обработка производится методами прогнозной аналитики (интеллектуаль­ного анализа данных, ИАД, Data Mining).

Хранилища данных, несмотря на всю внешнюю новизну, не являются принципиально новым подходом к организации и обработке данных. Можно увидеть, что данный подход берет свою основу от первых шагов внедрения ИТ в деятельности предприятий.

9.3. Стадии совершенствования хранилища данных

Модель совершенствования включает шесть стадий: "зачатие", "младенчество", "детство", "юность", "зрелость" и "мудрость". Ценность хранилища данных для организации (бизнеса) возрастает, по мере того как оно успешно проходит каждую из этих стадий (рис. 9.1).

Рис.9.1. Модель совершенствования Хранилища данных.

Большинство организаций сейчас находятся НА СТАДИЯХ "ДЕТСТВА" И "ЮНОСТИ".

Стадии определяются целым набором характеристик :

уровень, аналитическая структура, восприятие руководителями, типы аналитики, управление, финансирование, технологическая платформа, организация внесения изменений и управление ими.

Организации проходят через эти шесть стадий с различной скоростью :

в каждой из них могут одновременно присутствовать признаки нескольких стадий.

По существу, никто не может ожидать ясной и точной смены этих стадий.

В развитии любого Хранилища данных или бизнес-аналитики есть две поворотные точки. которые на рис.9.1 обозначены как "трещина" и "пропасть".

Многие проекты Хранилищ данных или бизнес-аналитики останавливаются в этих точках. Они замирают, находясь одной ногой в прошлом, а другой в будущем, не в состоянии совершить скачок. В результате им так и не удается в полной мере воспользоваться преимуществами последующих стадий.

Основной путь преодолеть эти препятствия - изменить восприятие руководителей .

Чтобы пересечь трещину, руководители должны понять, что Хранилища данных и бизнес-аналитика - это не просто система внутренней отчетности. и что локальныеэлектронные таблицы и базы данных персональных компьютеров, на которые они опираются в ведении бизнеса, на самом деле подрывают продуктивность и эффективность их деятельности.

Чтобы преодолеть пропасть (что гораздо труднее), руководители должны воспринимать Хранилища данных и бизнес-аналитику как жизненно необходимый корпоративный ресурс ,которым они сами (а не IT-отдел) обладают, руководят и который они же финансируют.

(1) Стадия "зачатия": внутренняя отчетность

Рис.9.2. Локальный контроль и корпоративные ценности

Начало: управленческие системы внутренней отчетности, в которых генерируется стандартный набор статичных отчетов.

Они печатаются и регулярно распространяются среди персонала, обычно еженедельно, ежемесячно или раз в квартал. Поскольку программы для получения данных из существующих систем (или операционного склада данных), которые необходимы для генерации отчетов, пишутся вручную. то IT-отдел не может быстро реагироватьна требования о специальных отчетах .

Это негативно влияет на имидж ИТ и разочаровывает пользователей, которым нужен быстрый доступ к информации для выполнения своих задач.

Такая неповоротливость особенно чувствительна для бизнес-аналитиков. чья деятельность заключается в обработке цифр от имени руководителей, и дляискушенных пользователей. знающих, как обращаться с корпоративными информационными системами.

Беря инициативу в свои руки, они "обманывают" информационные технологии, извлекая данные из исходных систем и загружая их в электронные таблицы или базы данных персональных компьютеров . Это подводит нас к следующей стадии.

(2) Стадия "младенчества": "Табличные витрины" (Spread marts)

Табличные витрины - это электронные таблицы или базы данных персональных компьютеров, которые функционируют как суррогатные витрины данных.

Каждая из них включает индивидуальный набор данных, показателей и правил,которые несовместимы с другими табличными витринами. управленческими отчетами или аналитическими системами.

Так как электронные таблицы распространены повсеместно, дешевы и просты в использовании, табличные витрины распространяются как сорняки: организации имеют десятки, даже сотни или тысячи таких "вредных" аналитических структур.

(-) Табличные витриныне позволяюторганизации (или исполнительному директору) получитьясную и цельную картину состояния дел в корпорации .

(+) Тем не менее, избавиться от них проблематично, поскольку они обеспечивают возможность хорошего локального управления с минимальными затратами. затрудняя, таким образом, ПЕРЕСЕЧЕНИЕ ТРЕЩИНЫ МЕЖДУ ПЕРВОЙ И ВТОРОЙ СТАДИЯМИ.

(3) Стадия "детства": витрины данных

На этой стадии отделы осознаютнеобходимость обеспечить оперативной информацией всех своих работников, а не только бизнес-аналитиков и руководителей. которые в основном пользуются преимуществами табличных витрин.

Витрина данных - это общая аналитическая структура, которая обычно поддерживает область работы одного приложения, бизнес-процесса или отдела.

1) Сотрудники отдела обобщают требования к информации и приспосабливают каждую витрину к своим нуждам.

2) Затем они обеспечивают персонал, работающий с информацией, средствами интерактивной отчетности (например, инструментами OLAP, средствами формирования незапланированных запросов или параметризованных отчетов).

3) Эти средства позволяют сотрудникам углубляться в данные и исследовать их пространственную структуру "вдоль и поперек", чтобы ВЫЯВИТЬ ТРЕНДЫ и получить более детальную картину событий, являющихся движущими силами тех процессов или задач, которыми эти сотрудники управляют.

(-) Часто недостаток витрины данных тот же, что и в случае табличные витрин:

Каждая витрина содержит индивидуальные определения и правила и получает данные напрямую из исходных систем. Эти так называемые независимые витрины данных делают важную работу по обеспечению локальных нужд.

Другие отделы уже не могут использовать их данные для своих целей.

Таким образом, необходим механизм интеграции витрин данных без угрозы для локальной автономии. А это уже - признак стадии "юности".

(4) Стадия "юности": Хранилища данных

После создания третьей витрины данных большинство отделов осознают необходимость стандартизации определений, правил и измерений для того, чтобы в будущем избежать кошмара интеграции.

Интерактивная отчетность и анализ

В отличие от однопредметных витрин данных, Хранилища данных предполагают более глубокий анализ, поскольку пользователи могут формулировать запросы, невзирая на функциональные границы, такие как финансы и операции, и таким образом получать новые срезы информации, недоступные при распределении данных по операционным и аналитическим изолированным структурам .

Для лучшего мониторинга процессов, в которых участвуют несколько отделов, и цепей создания добавленной стоимости организации используют ПРИЛОЖЕНИЯ ИНСТРУМЕНТАЛЬНЫХ ПАНЕЛЕЙ,

Инструментальная панель - это мгновенный снимок операций, позволяющий контролировать исполнение бизнес-процессов.

Инструментальные панели получают информацию из различных источников в режиме реального времени. Операционные инструментальные панели реализуются в системах мониторинга хозяйственной деятельности (business activity monitoring), средствах мониторинга бизнес-процессов (business process monitoring) и в приложениях, которые поддерживают генерацию отчетов

Предоставляютвозможности Business Intelligenceне только технически образованным опытным пользователям, но и другим сотрудникам .

В результате руководители рассматривают Хранилища данных иBusinessIntelligenceкактактический способувеличить эффективность бизнес-процессов, обеспечить информацией большее количество пользователей и принимать решения, основанные на реальных фактах .

(5) Стадия "зрелости": корпоративное Хранилище данных

Хотя Хранилище данных предоставляет много новых преимуществ, оно не решает проблему аналитических изолированных структур.

Большинство организаций сегодня имеют многочисленные Хранилища данных, приобретенные в результате внутреннего развития, слияний или приобретений.

Как и табличные и независимые витрины данных, Хранилища отдельных филиалов содержат перекрывающиеся и непоследовательные данные. что создает препятствия для свободного обмена информацией внутри или между бизнес-пользователями и процессами, которыми они управляют.

Интеграционная машина

На стадии "зрелости" организация стремится получить данные, которые, с одной стороны, являются полными и исчерпывающими, а с другой - точными и непротиворечивыми. Руководители рассматривают данные как корпоративное актив, такой же ценный, как персонал, оборудование и финансы .

Такое корпоративное Хранилище данных работает как интеграционная машина, которая последовательно включает в себя все остальные аналитические структуры .

Слой приложений BusinessIntelligenceобъединяет данные корпоративного Хранилища с внешними данными. которые обычно не загружаются в корпоративное Хранилище по той или иной причине (например, подача данных в режиме реального времени или Web-данные).

Некоторые организации со стратегией развития, основанной на приобретении других компаний, используют средства корпоративных Хранилищ данных и бизнес-аналитики как основной метод интеграции приобретенных организаций.

Единое управление ИС и оценочные панели деятельности

На стадии "зрелости" корпоративное Хранилище данных служит стратегическим ресурсом корпорации для интеграции данных и поддержки жизненно важных приложений, которые способствуют развитию бизнеса .

Руководители поручают подчиненным осуществлять контроль ключевых элементов данных и назначают комитеты на всех уровнях для управления развитием и расширением корпоративного Хранилища.

Что касается аналитики, организация применяет каскадные оценочные панели для того, чтобы деятельность каждого сотрудника и все бизнес-процессы соответствовали корпоративной стратегии.

Оценочные панели часто венчают приложения инструментальных панелей, способствуя улучшению существующих показателей и ранжированию инициатив и бюджетов, направленных на поддержку стратегических целей.

Оценочная панель - это технология, которая реализует методологию, например, сбалансированную систему показателей (Balanced Scorecard) или Six Sigma, и предоставляет бизнес-контекст для ключевых показателей.

С помощью оценочной панели можно ответить на ряд вопросов, например: Как этот показатель отличается от ожидаемого? От предыдущих результатов деятельности? Что это означает? Кто отвечает за эту информацию? Оценочные панели обычно реализуются в приложениях, использующих БД, и тесно интегрированы с другими аналитическими инструментами и средствами отчетности.

На стадии "зрелости" инвестиции в Хранилища данных начинают окупаться .

Корпоративное Хранилище данных выигрывает от экономии, обусловленной ростом масштабов производства, и ускоренного развития, что способствует быстрой разработке приложений, необходимых для выполнения новых задач (рис. 9.3).

Кроме того, пользователи обнаруживают новые и неожиданные области применения ХД, даже не предусмотренные разработчиками. Это неожиданное расширение сферы применения способствует дальнейшему росту окупаемости инвестиций.

Рис.9.3. Окупаемость инвестиций в ХД

(6) Стадия "мудрости": бизнес-аналитика

Когда Хранилище данных становится СТРАТЕГИЧЕСКИМ РЕСУРСОМ КОРПОРАЦИИ, помогающим управлять бизнесом с помощью постоянно растущего набора приложений, необходимых для выполнения новых задач, можно считать, что работа выполнена!

Дополнительные возможности увеличить стратегическую значимость ХД:

(1) Интерактивные экстрасети

(1) Сегодня многие компании уже открывают свои ХД для потребителей и поставщиков. расширяя и объединяя цепи создания добавленной стоимости за пределами отдельной организации и используя новые возможности на рынке.

Следующее поколение приложений для работы в экстрасетях уже не будет ограничиваться статичными отчетами об объемах операций на счете. Они будут предоставлять потребителям и поставщикам простые, но мощные средства интерактивной отчетности, которые позволят сравнивать и сопоставлять свою деятельность и ее эффективность с другими группами по множеству показателей.

Некоторые компании создали новые организационные единицы для оказания услуг в области Хранилищ данных и информационного анализа и в результате добились значительных перемен в своем бизнесе.

(2) Web-сервисы – Корпоративный портал

(2) В то же время создатели корпоративных Хранилищ данных превращают аналитические данные и функции бизнес-аналитики в Web-сервисы. которые их разработчики (как внешние, так и внутренние по отношению к организации) могут использовать при соответствующем разрешении.

Появление BI-сервисов превращает корпоративные Хранилища данных и их приложения в средство, которое может использоваться в масштабах всего рынка и легко встраивается в любое приложение. С помощью BI-сервисов сотрудникам уже не придется постоянно менять среду при анализе данных.

Данные, информация и детальные выборки, необходимые им для выполнения работы, будут встроены в операционные приложения, которыми они ежедневно пользуются.

(3) "Двигатели" принятия решений

(3) BI-сервисы также позволят компаниям получить полную выгоду от своих вложений в статистический анализ и моделирование. Они могут превратить модели в "двигатели" принятия решений. встроенные во внутренние и внешние приложения.

Рекомендуем ознакомится: http://www.studfiles.ru