Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...
Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...
Топ:
Когда производится ограждение поезда, остановившегося на перегоне: Во всех случаях немедленно должно быть ограждено место препятствия для движения поездов на смежном пути двухпутного...
Отражение на счетах бухгалтерского учета процесса приобретения: Процесс заготовления представляет систему экономических событий, включающих приобретение организацией у поставщиков сырья...
Интересное:
Лечение прогрессирующих форм рака: Одним из наиболее важных достижений экспериментальной химиотерапии опухолей, начатой в 60-х и реализованной в 70-х годах, является...
Средства для ингаляционного наркоза: Наркоз наступает в результате вдыхания (ингаляции) средств, которое осуществляют или с помощью маски...
Инженерная защита территорий, зданий и сооружений от опасных геологических процессов: Изучение оползневых явлений, оценка устойчивости склонов и проектирование противооползневых сооружений — актуальнейшие задачи, стоящие перед отечественными...
Дисциплины:
2023-01-02 | 36 |
5.00
из
|
Заказать работу |
|
|
Чтобы охарактеризовать рассматриваемую область, приведем некоторые определения из ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь».
Под большими данными (big data) понимаются большие массивы данных, отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа (кроме того, термин «большие данные» широко применяется в различных значениях, например в качестве наименования технологии масштабирования, используемой для обработки больших массивов данных).
Таким образом, определение больших данных опирается на следующие ключевые понятия:
● массив данных (dataset) – идентифицируемая совокупность данных, к которой можно получить доступ или скачать в одном или нескольких форматах;
● объем данных (data volume) – количественная характеристика данных, влияющая на выбор ресурсов для вычислений и хранения, а также на управление данными в процессе обработки (объем данных становится важным при работе с большими массивами данных);
● разнообразие данных (data variety) – диапазон форматов, логических моделей, временных шкал и семантики массива данных (данное понятие отражает нерегулярность и разнородность структур данных, навигации по структурам, запросов и типов данных);
● скорость обработки данных (data velocity) – скорость потока, с которой данные создаются, передаются, сохраняются, анализируются или визуализируются;
● вариативность данных (data variability) – изменения в скорости передачи, формате или структуре, семантике или качестве массива данных.
|
Под наукой о данных (data science) понимается извлечение практических знаний из данных посредством исследования или создания и проверки гипотез.
Наука о данных изучает полный жизненный цикл аналитики данных. Аналитика данных (data analytics) – это составное понятие, охватывающее получение, сбор, проверку и обработку данных, включая их количественную оценку, визуализацию и интерпретацию.
Аналитика данных используется для представления объектов, описываемых данными, с целью прогнозирования конкретных ситуаций и формирования пошаговых рекомендаций при решении задач. Закономерности, полученные посредством аналитики, используются в различных целях, таких как принятие решений, проведение исследований, обеспечение устойчивого развития, проектирование, планирование и т. д.
В принципе, понятие «наука о данных» используется для обозначения хорошо известной дисциплины – прикладной статистики (applied statistics). Отличия обуславливаются тем, что вычислительные мощности, необходимые для выявления статистических закономерностей, сегодня выросли настолько, что способствовали появлению больших данных и реализации технологий их статистико-аналитической обработки.
До недавнего времени углубленный анализ колоссальных массивов данных был невозможен по технологическим причинам, и аналитикам приходилось полагаться на ограниченные по размерам статистические выборки или иные средства приблизительной оценки. С ростом вычислительных мощностей ученые научились накапливать и обрабатывать более объемные массивы данных и применять к ним комплексные методы анализа, позаимствованные из прикладной математики, статистики, информатики, обработки и преобразования сигналов, теории вероятностей, распознавания образов, машинного обучения, моделирования неопределенности, визуализации данных и других прикладных областей знания с целью углубленного изучения и предсказания поведения систем на основе массивов больших данных. Иными словами, наука о данных нашла новые способы анализа данных и извлечения из них ценности.
|
Специалистов, которые исследуют данные, строят предиктивные (predictive) и предписывающие (prescriptive) модели, а также модели машинного обучения (machine learning), проводят на их основе анализ и осуществляют внедрение полученных результатов в интересах заинтересованных сторон, стали теперь называть «учеными в области данных» или «учеными по данным» (data scientists)[479].
Важно понимать, что рассмотренные нами отличительные характеристики больших данных предъявляют новые требования к методам управления данными. Для использования преимуществ больших данных необходимо изменить привычные методические подходы. Большинство хранилищ данных используют традиционную реляционную модель. Большие данные, как правило, в виде такой модели не представлены. В большинстве хранилищ данных обработка тесно связана с процедурами ETL (извлечение, преобразование, загрузка). В решениях для обработки больших данных (в частности, в так называемых «озерах данных») используется концепция ELT, т. е. загрузка и последующее преобразование. Не менее важно и другое: скорость и потоки загрузки в случае сбора больших данных столь велики, что стандартные подходы к критически важным аспектам управления данными – интеграции, управлению метаданными, обеспечению качества данных – становятся неприемлемыми, и возникает необходимость в выработке и реализации принципиально новых решений еще и в этих областях[480].
Цели и бизнес-драйверы
Организации осуществляют деятельность в области больших данных и науки о данных со следующими целями:
● раскрытие связей между данными и бизнесом;
● итеративное включение источников данных в среду организации;
● выявление и анализ новых факторов, которые могут оказывать влияние на бизнес;
● публикация и визуализация достоверных данных в подходящей и этичной форме.
В своей основе цели деятельности в области больших данных и науки о данных достаточно близки к целям деятельности в области ведения хранилищ данных и бизнес-аналитики (см. раздел 14.1.2). При этом имеется существенное отличие.
Традиционная бизнес-аналитика (BI) подобна «зеркалу заднего вида», поскольку описывает тенденции, выявленные по результатам изучения структурированных ретроспективных данных. Иногда выявленные закономерности бизнес-аналитики используются и для прогнозирования, но уверенности в надежности таких прогнозов нет, поскольку это всего лишь экстраполяции в будущее прошлых тенденций, которые в любой момент могут измениться.
|
С развитием технологий обработки больших данных и методов науки о данных организации приобретают способность смотреть вперед – «через лобовое стекло». Возможность прогнозирования на основе моделей, в том числе в режиме, близком к реальному времени, с использованием разнородных данных из множества различных источников помогает организациям лучше понимать направления своего развития.
Главный драйвер развития в организации работ в области сбора и исследования больших данных – стремление к обнаружению скрытых бизнес-возможностей посредством всесторонней аналитической проработки массивов данных с использованием широкого спектра диверсифицированных алгоритмов. Большие данные стимулируют инновации, поскольку объемы и разнообразие массивов, доступных для исследования, безостановочно растут и все эти данные можно использовать для определения моделей прогнозирования нужд потребителей и создания персонализированных презентаций продуктов и услуг. Наука о данных способствует повышению производительности и результативности обработки больших данных. Алгоритмы машинного обучения помогают автоматизировать сложные по структуре и ресурсоемкие комплексы рабочих процессов, способствуя повышению эффективности работы организации, снижая затраты и минимизируя риски[481].
|
|
Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...
Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...
История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...
Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!