Дайте определение дискретным атрибутам деревьев решений — КиберПедия 

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Дайте определение дискретным атрибутам деревьев решений

2019-12-21 153
Дайте определение дискретным атрибутам деревьев решений 0.00 из 5.00 0 оценок
Заказать работу

66) Поиск аномалий - — это опознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые вызывают подозрения ввиду существенного отличия от большей части данных[1]. Обычно аномальные данные превращаются в некоторый вид проблемы, такой как мошенничество в банке[en], структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также упоминаются как выбросы, необычности, шум, отклонения или исключения[2].

67) Валидационная кривая – представляет собой график, показывающий результат на тренировочной и валидационной выборке в зависимости от сложности модели:

· если две кривые распологаются близко, и обе ошибки велики, — это признак недообучения

· если две кривые далеко друг от друга, — это показатель переобучения

68) Кривая обучения - это график, показывающий результаты на валидации и тренировочной подвыборке в зависимости от количества наблюдений:

· если кривые сошлись друг к другу, добавление новых данных не поможет – надо менять сложность модели

· если кривые еще не сошлись, добавление новых данных может улучшить результат.

69) Дайте определение кривой ROC - график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных как несущих признак, (англ. true positive rate, TPR, называемой чувствительностью алгоритма классификации) и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных как несущих признак (англ. false positive rate, FPR, величина 1-FPR называется специфичностью алгоритма классификации) при варьировании порога решающего правила.

70) AUC - (ROC = receiver operating characteristic, иногда говорят «кривая ошибок»), а качество оценивают как площадь под этой кривой – AUC (AUC = area under the curve).

71) Коллаборативная фильтрация - это метод, который даёт автоматические прогнозы исходя из наколенной информации о интересах и вкусах пользователей.

72) принцип классификации на основе линейной регрессии

73) Ансамбль моделей - в статистике и обучении машин использует несколько обучающих алгоритмов с целью получения лучшей эффективности прогнозирования[en], чем могли бы получить от каждого обучающего алгоритма по отдельности.

74) Бустинг - это процедура последовательного построения композиции алгоритмов машинного обучения, когда каждый следующий алгоритм стремится компенсировать недостатки композиции всех предыдущих алгоритмов

75) Бэггинг - технология классификации, использующая композиции алгоритмов, каждый из которых обучается независимо. Результат классификации определяется путем голосования. Бэггинг позволяет снизить процент ошибки классификации в случае, когда высока дисперсия ошибки базового метода

Этапы разработки модели машинного обучения -  Очистка

Данные зачастую формируются из различных источников, отображаются в различных форматах и языках. Соответственно, среди них могут оказаться нерелевантные или ненужные значения, которые потребуется удалить. И наоборот, каких-то данных может не хватать, и потребуется их добавить. От правильной подготовки базы данных прямым образом зависит и пригодность к использованию, и достоверность результатов.

Разделение

В зависимости от размера набора данных в некоторых случаях может потребоваться только небольшая их часть. Обычно это называется выборкой. Из выбранной части данные надо разделить на две группы: одна для использования алгоритмом, а другая для оценки его действий.

Обучение

Этот этап фактически направлен на поиск математической функции, которая точно выполнит указанную задачу. Обучение разнится в зависимости от типа используемой модели. Построение линий в простой линейной модели — это обучение; генерация дерева принятия решений для алгоритма случайного леса — это также обучение. Изменение ответов при построении дерева решений поможет скорректировать алгоритм.

Чтобы было проще, сосредоточимся на нейронных сетях.

Суть в том, что алгоритм использует часть данных, обрабатывает их, замеряет эффективность обработки и автоматически регулирует свои параметры (также называемый метод обратного распространения ошибки) до тех пор, пока не сможет последовательно производить желаемый результат с достаточной достоверностью.

Оценка

77) Предикаты расщепления деревьев решений

78) критерии расщепления деревьев решений (определение)

79) в чем заключается гибкость постановки задач Data mining

 

80) Алгоритм построения деревьев решений –

 

Задача как на паре (13.06), задача с деревьями, расчет AUC

 

 


Поделиться с друзьями:

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.008 с.