Модели структуры многомерных данных в разведочном анализе данных — КиберПедия 

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Модели структуры многомерных данных в разведочном анализе данных

2017-10-16 287
Модели структуры многомерных данных в разведочном анализе данных 0.00 из 5.00 0 оценок
Заказать работу

Пусть данные заданы в виде матрицы данных. Объекты можно представить в виде точек в многомерном (р - мерном) пространстве. Для описания структуры этого множества точек в РАД используется одна из следующих статистических моделей:

- модель облака точек примерно эллипсоидальной конфигурации;

- кластерная модель, т.е. совокупность нескольких «облаков» точек, достаточно далеко отстающих друг от друга;

- модель «засорения» (компактное облако точек и при этом присутствуют дальние выбросы);

- модель носителя точек как многообразия (линейного или нелинейного) более низкой размерности, чем исходное: типичным примером является выборка из вырожденного распределения; в рамках этой модели можно рассматривать и регрессионную модель, когда соответствующие многообразие допускает функциональное представление , где Х 11- прогнозируемые, -предсказывающие признаки, - функция регрессии, - ошибка.

- дискриминантная модель, когда точки разделены на несколько групп и дана информация о их принадлежности к той или иной группе.

- эмпирический образ данных в виде покрытия выборочных точек многомерного признакового пространства сетью гиперпараллелепипедов с оцененной плотностью распределения (многомерный аналог гистограммы).

Упрощение описания

Стремление комплексно, многомерно описать изучаемую систему или процесс противоречит желанию делать это сжато, ясно. Т.е. с одной стороны: все больший охват количества сторон и связей явлений, а с другой - выделение базисных узловых. Поэтому и возникает вопрос: можно ли проводить статистическую обработку в пространстве меньшей размерности, не теряя определенных свойств исходного пространства. Само сокращение выгодно в связи с тем, что:

- выбираются наиболее важные информативные характеристики (в таком пространстве результаты устойчивее и надежнее);

- упрощается содержательное восприятие и анализ;

- при сокращении до размерности 1-3 возможна визуализация;

- упрощается вычислительный процедуры.

При упрощении описания обычно стремятся не исказить геометрическую структуру множества. При этом за основу для сравнения принимают исходные свойства совокупности, либо выбирают некоторый внешний критерий сокращения размерности.

Рассмотрим три способа сокращения размерности.

1. Переход из исходного описания в новое пространство, оси которого составляют некоторые комбинации исходных признаков. Наиболее распространенным методом такого типа является компонентный анализ, в котором точки проецируются в пространство первых двух компонент. Главные компоненты имеют свойства: сумма квадратов евклидовых расстояний от исходных точек до пространства натянутого на m первых главных компонент, наименьшая относительно любых других подпространств в той же размерности (полученных с помощью линейных преобразований исходных признаков); среди всех подпространств размерности в пространстве компонент меньше других искажается сумма квадратов евклидовых расстояний между объектами; наилучшим образом сохраняется сумма расстояний до центра тяжести точек и сумма углов между объектами с вершинами в центре тяжести.

Недостатки подхода: близость измеряется лишь в евклидовом пространстве и по евклидовым расстояниям; первые главные компоненты не всегда хорошо описывают все признаки; критерии гарантируют лишь сохранность суммарных характеристик.

2. Шкалирование - поиск подпространства размерности , в котором разница между расстояниями в исходном и найденном пространстве была бы минимальной. Критерии основаны на оценке отличий матрицы расстояний в двух пространствах: . Если стремятся точно приблизить матрицы, то шкалирование называют метрическим, если в приближении стремятся сохранить порядок в двух пространствах - то неметрическим. В шкалировании отыскиваются не новые признаки, а новые пространства. Поэтому его результаты интерпретируются как восстановление структуры расположения точек в пространстве (при - на плоскости).

3. При выборе информативных признаков сокращается размерность без введения новых комбинированных признаков. Если в качестве измерителя близости использовать квадраты евклидовых расстояний, то структуру данных лучше всего описывают признаки с наибольшими дисперсиями.

Удобна любая визуализация данных, а не только проецирование точек. Остановимся на концепции образного анализа. Его идея: представление многомерных данных в виде доступной для человека информации. А. Эндрюс разработал способ кодирования каждой многомерной точки некоторой кривой, которая выдается на печать. Оригинален метод Г. Чернова [5], предполагающий ставить в соответствие объекту черты человеческого лица.

Методы визуализации внутренне парадоксальны - они используют точные алгоритмы с экстремальными свойствами, чтобы впоследствии человек на их основе принял весьма приближенное, естественное в его понимании решение. Такая парадоксальность не тормозит познание, а способствует его успехам.

 


Поделиться с друзьями:

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.008 с.