Контекстная диаграмма функциональной области «Большие данные и наука о данных» и уровни зрелости работы с большими данными — КиберПедия 

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Контекстная диаграмма функциональной области «Большие данные и наука о данных» и уровни зрелости работы с большими данными

2023-01-02 33
Контекстная диаграмма функциональной области «Большие данные и наука о данных» и уровни зрелости работы с большими данными 0.00 из 5.00 0 оценок
Заказать работу

Контекстная диаграмма функциональной области «Большие данные и наука о данных» представлена на рисунке 14.11. Процесс осуществления деятельности в области науки о данных представляет собой последовательность итераций. Результаты предыдущей итерации служат исходными данными для следующей. Каждая итерация включает следующие работы[487].

Определение стратегии и потребностей бизнеса в области изучения больших данных. Формулировка требования к желаемым результатам с указанием измеримых материальных выгод от их выполнения.

Выбор источников данных. Идентификация пробелов в имеющейся базе информационных ресурсов и поиск источников данных, которые позволят заполнить эти пробелы.

Получение и освоение источников данных. Получение всех необходимых наборов данных или доступа к их источникам с целью загрузки.

Проработка гипотез и методов их проверки средствами науки о данных. Исследование источников данных с помощью средств профилирования, визуализации, статистического анализа с целью уточнения требований. Определение алгоритма модели и необходимых типов входных и выходных данных или моделирование нескольких альтернативных гипотез и методов анализа (например, сравнительный анализ группировок данных, выявленных посредством кластеризации, и т. п.).

Интеграция и согласование данных для анализа. Годность модели зависит еще и от качества источников данных. Следует использовать данные из надежных и достоверных источников. При необходимости, c целью повышения качества и полезности вводимых наборов, нужно применять средства интеграции, очистки и доработки данных.

Исследование данных с использованием моделей. Использование средств статистического анализа и алгоритмов машинного обучения для выявления закономерностей на основе интегрированных данных. Регулярная проверка валидности модели и при необходимости внесение корректив в параметры модели и настройки алгоритмов самообучения. По мере накопления статистики – доработка самой модели. Машинное обучение подразумевает многократные прогоны через модель больших массивов реальных данных с целью проверки гипотез и внесения корректив в настройки алгоритмов (например, выявления выпадающих из общего статистического ряда значений). Также в процессе такой проработки окончательно уточняются требования. Эволюция модели выверяется по изначально определенным метрикам пригодности или реалистичности результатов. С появлением новых гипотез могут потребоваться дополнительные наборы данных, а по результатам их проверки – новые модели, выходные данные и даже требования.

Внедрение и мониторинг. Модели, которые выдают полезную информацию, можно переносить в производственную среду и использовать для текущего мониторинга ситуации с целью получения данных или, напротив, появления нежелательных тенденций, ставящих под угрозу эффективность текущей бизнес-модели. На этой стадии проекты по изучению данных превращаются в обычные рабочие проекты DW/BI и в среде DW обрастают всеми необходимыми техническими доработками и компонентами (процедурами ETL, правилами качества, основными данными).

На рисунке 14.12 приведены обобщенные характеристики уровней зрелости в соответствии с моделью зрелости использования цифровых технологий работы с большими данными в организации для достижения социальных и экономических эффектов (модель BD4DE-MM). Модель построена с учетом концептуальных положений методологии DECA для оценки развития цифровой экономики[488].

 

* DAMA. DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. Technics Publications, 2017. (Русский перевод: DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International. – М.: Олимп-Бизнес, 2020.)

 

Модель BD4DE-MM предусматривает семь областей оценки зрелости, которые называются размерностями (dimensions) или ключевыми факторами успеха (key success factors)[489]:

1. Стратегия и регулирование.

2. Кадры и лидерство.

3. Данные.

4. Инструменты и аналитика.

5. Инфраструктура и безопасность.

6. Организация работы.

7. Воздействие.

 

* Ершов П. С., Катин А. В., Хохлов Ю. Е., Шапошник С. Б. Модель BD4DE-MM зрелости работы с большими данными в организации // Информационное общество. 2021, 4–5: 259–277. – URL: https://doi.org/10.52605/16059921_2021_04_259.

 

Для каждой из размерностей предусмотрен набор индикаторов оценки (assessment indicators). Например, для размерности «Стратегия и регулирование» в модель включены следующие индикаторы[490]:

1. Наличие в организации стратегии работы с большими данными.

2. Соответствие стратегии работы с большими данными положениям стратегии развития организации.

3. Наличие в организации плана реализации стратегии работы с большими данными.

4. Наличие в организации необходимых ресурсов (например, кадровых или финансовых) для реализации стратегии работы с большими данными.

5. Наличие в стратегии работы с большими данными мероприятий, ориентированных на эксперименты с перспективными технологиями.

6. Соответствие деятельности организации требованиям нормативного правового регулирования работы с большими данными.

7. Соответствие деятельности организации международным стандартам работы с большими данными.

8. Соответствие деятельности организации принципам саморегулирования работы с большими данными.

 

Влияние на ценность данных

Согласно второму «закону» информации ее ценность возрастает с увеличением использования (см. главу 5). Таким образом, ценность данных не ограничивается одним конкретным случаем использования, их можно употребить многократно как с одной и той же целью, так и с разными. Применительно к большим данным особенно важен второй вариант.

В конечном счете ценность данных заключается в том, что можно получить от их всестороннего использования. Различные возможности использования служат альтернативами. Ценность данных определяется суммой таких вариантов – можно назвать это «альтернативной ценностью» данных. Раньше, после использования данных по основному назначению, было принято считать, что они свою миссию уже выполнили и их можно удалить. С появлением больших данных ситуация изменилась: данные обеспечивают отдачу еще долго после того, как их номинальная ценность уже извлечена. Можно выделить четыре эффективных способа раскрыть альтернативную ценность данных[491].

 


Поделиться с друзьями:

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.014 с.