Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

История развития методов оптимизации: теорема Куна-Таккера, метод Лагранжа, роль выпуклости в оптимизации...

Методика измерений сопротивления растеканию тока анодного заземления: Анодный заземлитель (анод) – проводник, погруженный в электролитическую среду (грунт, раствор электролита) и подключенный к положительному...

Процедура выполнения команд. Рабочий цикл процессора: Функционирование процессора в основном состоит из повторяющихся рабочих циклов, каждый из которых соответствует...

Интересное:

Влияние предпринимательской среды на эффективное функционирование предприятия: Предпринимательская среда – это совокупность внешних и внутренних факторов, оказывающих влияние на функционирование фирмы...

Лечение прогрессирующих форм рака: Одним из наиболее важных достижений экспериментальной химиотерапии опухолей, начатой в 60-х и реализованной в 70-х годах, является...

Что нужно делать при лейкемии: Прежде всего, необходимо выяснить, не страдаете ли вы каким-либо душевным недугом...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Зачем следовать методике положительного подкрепления?

2021-01-31

132

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 3 из 6Следующая ⇒

Идея о том, что собаки могут – и должны – быть обучаемы с помощью методики положительного подкрепления, а не аверсивного наказания, была впервые формально разработана Яном Данбаром, ветеринаром с докторской степенью, изучающим поведение животных. Как он объясняет, наказание не обязательно должно быть неприятным, пугающим или болезненным. И если в нем нет нужды, тогда и не следует к нему прибегать. Для собак лишение их лакомства уже является достаточным наказанием, и, на самом деле, оно гораздо эффективнее, чем физическое воздействие.

Позвольте мне рассказать реальную историю, демонстрирующую то, как собаки обучаются, когда используют методику положительного подкрепления. Однажды у меня был клиент по имени Питер, который пришел ко мне на занятия в «Клуб мальчиков и девочек» в Джорджтауне, расстроенный из‑за того, что его австралийская овчарка Уоллаби прыгает, не переставая. И сколько бы Питер ни выговаривал Уоллаби, ничего не помогало: собака просто любила прыгать. Так как Питера приучили использовать методику аверсивного наказания, он пытался остановить Уоллаби, ударяя его коленом в грудь, когда тот прыгал.

Но это не помогало. Уоллаби продолжал прыгать. Он не понимал, что это плохо: в конце концов, это собака, а некоторые собаки вполне естественно любят прыгать. Уоллаби воспринимал эти удары коленом как случайные проявления агрессии со стороны Питера.

Вместо того чтобы стимулировать Питера наказывать Уоллаби за плохое поведение, я хотела помочь ему научиться поощрять Уоллаби за хорошее поведение. Я начала работать с ними, следуя правилам метода положительного подкрепления, который, как оказалось, эффективно отучал собак прыгать. Сначала я попросила Питера приветствовать Уоллаби, только когда он сидит. Если Уоллаби прыгал, Питер должен был игнорировать его. Питер ничего не говорил, отворачивался и не обращал на Уоллаби никакого внимания. Но когда Уоллаби садился, он замечал, что происходит что‑то удивительное. Он получал лакомство. И не просто лакомство, а его любимое – очень прочную резиновую игрушку с полым центром, который можно набить любыми видами лакомства. Когда Уоллаби прыгал, лакомства не было (так же как и не было толчков коленом в грудь). Спустя какое‑то время Уоллаби понял, что формула проста: если он прыгает, то лишается лакомства. А если он сидел? О, джекпот! Обучение заняло примерно пять недель плюс терпеливые занятия Питера по этой методике дома. Но к концу курса обучения Уоллаби больше не прыгал.

Несколько недель спустя Питер вернулся на занятия снова расстроенный из‑за того, что Уоллаби опять начал прыгать. Я спросила Питера, систематически ли он использовал прием с игрушкой, который мы отрабатывали. Питер колебался. «Ну, иногда…» Ага! Как вы поймете впоследствии, несистематические занятия – это наиболее частая причина того, что хорошее поведение собаки в итоге разваливается. Мы с Питером принялись отрабатывать другой прием: я просила его поощрять Уоллаби, когда он прыгал. Правильно: мы поощряли Уоллаби за его «плохое поведение», в котором он уже прилично поднаторел. Питер должен был заставлять Уоллаби прыгать, когда тот этого меньше всего ожидал, даже посредине занятия, когда мы отрабатывали что‑то другое. Раз за разом Уоллаби поощряли щедрой похвалой и лакомством просто за то, что он прыгал, когда его просили. Если он прыгал, когда Питер его не просил, он не получал вознаграждения. Вместо этого Питер просто отворачивался.

А потом произошла забавная вещь. Уоллаби начал предугадывать, когда Питер попросит его прыгнуть, и ждал от него сигнала, зная, что будет вознагражден. И уже скоро Уоллаби просек, что получит лакомство, только когда Питер скомандует ему: «Уоллаби, кенгуру!» По мере того, как Питер учился контролировать прыжки своей собаки, он также учил Уоллаби самоконтролю и в итоге превратил его прежде плохое поведение в забавный трюк, которым они оба наслаждались!

История Питера наглядно демонстрирует, что наказание совсем не обязательно должно выражаться в физическом воздействии, вроде удара собаке коленом в грудь, который вообще легко может отбить у Зака желание приближаться к Питеру. Наказание также может выражаться в отсутствии поощрения, если оно ослабляет только что продемонстрированное поведение собаки, так что оно с малой долей вероятности случится в будущем. Другими словами: Питер наказал Уоллаби. Но как? Если Уоллаби прыгал, кода Питер его об этом не просил, он не хвалил Уоллаби или не давал лакомство, просто отворачивался и игнорировал его. Отсутствие поощрения становится наказанием. Мы называем это отрицательным наказанием, и для Уоллаби это означает, что он не получил никакого поощрения, которое было ценно для него (внимание Питера или лакомство). Отрицательное наказание подобно запрету родителей выходить из дома для ребенка постарше, перерыв в занятиях ребенка помладше или запрет смотреть телевизор вечером. Это лишение привилегии.

Положительным наказанием для Уоллаби было бы, если бы Питер сделал ему физическое внушение, скажем, коленом в грудь, когда тот попытался бы прыгнуть. В отношении ребенка положительным наказанием является окрик или шлепок. Если бы родители только шлепали ребенка, когда он не слушался, то единственной наградой для него было бы не получить шлепка – это называется отрицательным подкреплением.

Данное представление об отрицательном и положительном не имеет ничего общего с сопоставлением плохого и хорошего. Отрицательное означает забирать; положительное – давать. Таким образом, положительное подкрепление означает дать подкрепление или поощрение. Отрицательное подкрепление означает не дать этого поощрения.

Дрессировка собак с помощью методики положительного подкрепления ориентирована на получение поощрения. Вот почему мы используем одновременно и положительное подкрепление (когда поощряем) и отрицательное наказание (когда лишаем поощрения). Традиционные методы дрессировки ориентированы на наказание. Те, кто им следуют, стремятся выделить положительное наказание (производя физическую коррекцию в форме резкого окрика или рывка поводка со строгим ошейником) и отрицательное подкрепление (лишение наказания, например, не дергать поводок со строгим ошейником).

Это различие между отрицательным и положительным может вызвать некоторое недопонимание, поэтому вернемся к Питеру и Уоллаби. Питер использовал модель положительного подкрепления, чтобы изменить поведение Уоллаби, убедительно говоря ему: «Мне нравится, что ты прыгаешь; сделай это еще несколько раз». Поощрение подкрепляло положительное поведение Уоллаби. Питер наказывал Уоллаби с помощью метода отрицательного наказания: никакой похвалы или лакомства, если Уоллаби прыгал, когда Питер не просил его об этом, что означало: «Ты можешь прыгать весь день, но я тебя игнорирую. Делать так не имеет никакого смысла».

Давайте представим, что Питер продолжил использовать традиционную аверсивную модель дрессировки. Если бы Уоллаби прыгнул на Питера, тогда он вынужден был применить положительное наказание, физический или вербальный выговор. Этим положительным наказанием он должен был сказать Уоллаби: «Не прыгай». Когда Уоллаби не прыгал, Питер не делал ничего, что является отрицательным поощрением: Уоллаби не получал наказания. Иными словами, Питер пытался сказать Уоллаби: «Когда ты не прыгаешь, это не значит плохо». Отрицательным поощрением является попытка подкрепить положительное поведение Уоллаби (не прыгать).

Лично я, как профессионал, нахожу в этой логике изъян. Уоллаби в действительности никогда не говорили, чтобы он делал конкретную правильную вещь – фактически Питер хотел, чтобы он не прыгал. Уоллаби вынужден был догадываться, что делать, методом исключения, но ему при этом не говорили, что он понял все правильно. Даже крыса, рыскающая в лабиринте, в итоге получает вознаграждение, когда находит сыр. Собака, которую дрессировали, используя только модель аверсивного наказания, вынуждена разбираться во всем сама. А это требует абстрактного мышления, к чему мозг собаки совсем не приспособлен.

Более того, когда животное получает «кнут» слишком часто, оно либо оказывает сопротивление, либо сдается и падает духом. Дрессировщики, работающие по традиционной модели, обычно ждут момента, когда собака отступит. Они уверены в том, что такое ослабленное состояние животного – удобный момент, когда можно построить желаемую модель поведения. И хотя подобный подход может быть эффективным в экстремальных случаях, когда собака проявляет агрессию, при условии, что есть поддержка такого опытного и знающего дрессировщика, как Сизар Миллан, тем не менее, это опасное оружие в руках среднестатистического владельца собаки, и еще более опасное – в руках ребенка.

На самом деле американское ветеринарное общество поведения животных (AVSAB) очень обеспокоено тем, что семьи используют при дрессировке методы аверсивного наказания Сизара Миллана. В своем недавнем официальном заявлении AVSAB приводит девять причин того, почему аверсивное наказание может быть неэффективным и даже опасным, особенно в руках неопытного непрофессионала. Они предупреждают о том, что данный подход может спровоцировать или даже «вызвать агрессивное поведение животного».

Они также предупреждают о том, что подобная дрессировка сдерживает агрессивное поведение, делая при этом собаку более пугливой, что, в свою очередь, увеличивает вероятность того, что такое животное набросится без предупреждения.

⇐ Предыдущая 1 234 5 6 Следующая ⇒

Поделиться с друзьями:

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Автоматическое растормаживание колес: Тормозные устройства колес предназначены для уменьшения длины пробега и улучшения маневрирования ВС при...