Организация доступа к источникам данных — КиберПедия 

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Организация доступа к источникам данных

2023-01-02 34
Организация доступа к источникам данных 0.00 из 5.00 0 оценок
Заказать работу

Поскольку сырые данные, которые должны использоваться для создания основных данных, находятся в различных источниках данных организации-заказчика, то для создания MDM-решения необходимо организовать программный доступ к этим данным. В большинстве случаев загрузка данных является многоразовой процедурой и должна выполняться регулярно во время функционирования MDM-решения. Для автоматизации этой процедуры необходимо решить технические задачи, так как источники данных часто реализованы на разных платформах и могут не иметь программных интерфейсов доступа. Эта функциональная часть – преимущественно программная. Объем работ здесь во многом зависит от того, насколько обмен данными налажен в организации (например, уже могут быть внедрены технологии передачи данных между различными информационными системами организации).

 

Очистка данных

Под очисткой данных понимается устранение ошибок в данных и нормализация данных из различных источников перед их загрузкой в хаб. Это необходимо, поскольку в противном случае будет непросто искать в данных дубликаты, а также выполнять их консолидацию. Очистка данных – трудоемкий процесс. Первичная очистка, включая нормализацию и приведение значения всех атрибутов к единому формату, не является затратной, однако она значительно упрощает дальнейшие шаги по консолидации данных и восстановлению связей между сущностями.

Эта компонента – программно-аналитическая. На практике часто требуется программная доработка таких инструментов для корректной работы с различными форматами данных организации, либо реализация специальной логики по очистке информации. Например, источник данных может хранить несколько значений в одном атрибуте, и тогда требуется разделить эти значения по соответствующим полям. Для этого нужно разработать специальное ПО, которое выполнит это разделение.

 

Обогащение данных

Может оказаться, что для пользователей основных данных требуется дополнить имеющиеся в источнике данные, например, информацией из открытых источников.

Данная компонента – программно-аналитическая, поскольку требует анализа и разметки соответствующих данных из источника, а также реализации программного доступа к публичным источникам для обогащения данных.

 

Логическая модель

Эта компонента предназначена для создания и сопровождения логической модели основных данных. Такая модель должна отражать структуру консолидированных данных со всеми атрибутами, собранными из различных источников организации. Модель необходима для дальнейшей обработки основных данных, а также их доставки потребителям. Один из важнейших шагов при создании логической модели – восстановление/обнаружение различных связей в данных, которые отсутствовали в источнике, но появляются при консолидации.

Деятельность по созданию логической модели является аналитической. Она должна быть поддержана соответствующим ПО, включающим средства визуализации, перечисления атрибутов и связей между сущностями, а также программной связи созданной модели данных с соответствующим отражением ее элементов в источниках и (или) потребителях данных. При этом некоторые аспекты этого инструментария требуется дорабатывать под конкретный проект: например, в качестве источника и потребителя может выступать уже функционирующая информационная система, в которой модель данных жестко задана (типичный случай – ERP-система), и тогда доставка новых значений для существующих атрибутов будет требовать специальной программной реализации.

 

Консолидация данных

Эта функциональная компонента отвечает за загрузку данных из разных источников на хаб и выполнение консолидации реальных данных в соответствии с созданной логической моделью.

Процесс загрузки производится автоматически, с использованием соответствующих инструментов. При его выполнении возникают конфликты, которые разрешаются следующими способами.

● «Вручную» – эксперт предметной области разрешает конфликт; этот способ применяется для критических данных (например, юридических), где ошибки недопустимы и поэтому автоматические алгоритмы разрешения конфликтов неприемлемы.

● Семантический (онтологический) подход, который применяется для данных, которые хранятся в виде онтологий. Если фрагмент данных из источника попадает с другими фрагментами в одну онтологию, то эти фрагменты являются консолидированными.

● Методы искусственного интеллекта, в частности методы машинного обучения, которые обучаются на типичных ситуациях, чтобы разрешать возникающие в процессе консолидации конфликты автоматически.

● Смешанные стратегии – например, с помощью алгоритмов искусственного интеллекта экспертам представляется на одобрение предварительные варианты разрешения конфликтов. Такой подход может снизить трудоемкость процедуры разрешения конфликтов без снижения качества.

Загрузка данных из источника может осуществляться одноразово, например, в случае централизованной архитектуры хаба данных или при наличии источников, которые прекратили свою работу, но содержат ценные данные. Иначе помимо первичной загрузки требуется организовать регулярное обновление основных данных.

Данная компонента – программно-аналитическая. Программной частью является доработка ПО деятельности аналитика по консолидации данных для работы со специфическими данными, а также для реализации уникальных правил консолидации и правил разрешения конфликтов. Если используются алгоритмы искусственного интеллекта, то они должны быть адаптированы под конкретную задачу. Например, это могут быть обновляемые или самонастраиваемые правила для разбора конфликтов данных при консолидации.

 


Поделиться с друзьями:

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.01 с.