Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Проблема типологии научных революций: Глобальные научные революции и типы научной рациональности...

Выпускная квалификационная работа: Основная часть ВКР, как правило, состоит из двух-трех глав, каждая из которых, в свою очередь...

Отражение на счетах бухгалтерского учета процесса приобретения: Процесс заготовления представляет систему экономических событий, включающих приобретение организацией у поставщиков сырья...

Интересное:

Финансовый рынок и его значение в управлении денежными потоками на современном этапе: любому предприятию для расширения производства и увеличения прибыли нужны...

Инженерная защита территорий, зданий и сооружений от опасных геологических процессов: Изучение оползневых явлений, оценка устойчивости склонов и проектирование противооползневых сооружений — актуальнейшие задачи, стоящие перед отечественными...

Как мы говорим и как мы слушаем: общение можно сравнить с огромным зонтиком, под которым скрыто все...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Научение посредством подкрепления

2017-06-03

396

0.00 из 5.00 0 оценок

Заказать работу

Содержание

⇐ ПредыдущаяСтр 6 из 6

Множество исследований фокусируются на процессах принятия решений, которые люди и животные употребляют при выборе действий перед лицом награды и наказания. Всё чаще анализ поведения на уровне вычислительных операций опирается на идеи обучения с подкреплением, которое обеспечивает удобную теоретическую основу в рамках которой процесс принятия решений может быть проанализирован.

Фундаментальный вопрос в поведенческой нейробиологии касается процессов принятия решений благодаря которым люди и животные выбирают действия перед лицом награды и наказания, и их нейронным осуществлением. В бихевиоризме этот вопрос был подробно исследован с помощью классической и оперантной парадигмы обуславливания. С их помощью было собрано множество данных, в отношении того, как ассоциации контролируют различные аспекты выученного поведения. Вычислительная сторона обучения с подкреплением обеспечила нормативную структуру, в рамках которой можно понять такое обучение. Здесь оптимальный выбор действий основан на прогнозах долгосрочных последствий, например, что принятие решения направлено на достижение максимальной выгоды и минимизации потерь.

Научные данные, полученные от нейрологии, физиологии, фармакологии, и т.д. о поведении животных позволили обозначить (предварительно) нервные структуры, лежащие в основе ключевых вычислительных конструкций в этих моделях. С вычислительной точки зрения Павловское обуславливание рассматривается как прототип - экземпляр обучения предсказанию - обучение построения прогностических связей между событиями в окружающей среде. Инструментальное обуславливание, с другой стороны, включает в себя обучение выбору действий, которые увеличат вероятность полезных событий, и уменьшат вероятность аверсивных событий. С математической точки зрения, такой процесс принятия решений рассматривается как попытка оптимизировать последствия действий со стороны долгосрочной перспективы, исчисляющиеся в общем количестве вознаграждений, и/или избегания наказания.

Научение посредством подкрепления (далее - НПП) - это обучение посредством взаимодействия с окружающей средой. Субьект НПП обучается благодаря обсервации последствий своих действий, вместо простого эксплицитного обучения, субъект выбирает действия на основе прошлого опыта, и новым выборам, которое по сути своей представляет метод проб и ошибок. Различные модели предполагают разные механизмы увеличения ассоциативной связи. В данной работе мы упомянем о двух из них. Первая из них - модель Рескорлы-Вагнера является самой перспективной из всех математических моделей обучения, которая уже неоднократно применялась в эмпирических исследованиях с большим успехом. Р. Рескорла и А. Вагнер совместно разработали математическую модель процесса обучения на основе теории подкрепления, сiиспользованием разностного уравнения. При этом они оперировали теоретической физиологической переменной,iназванной ими "ассоциативная сила" и обозначенной через V. Они предполагали, что после каждого сочетания условного и безусловного раздражителей. Их предположение состояло в том, что после каждого сочетания условного и безусловного раздражите лей новое значение изменяетсяiассоциативной силы V_new и равно предшествующемуiзначению, плюс прирост "ассоциативной силы" ∆V за счет сочетания условного и безусловного раздражителей. Иными словами: . Они постулировали, что , где V - текущее значение ассоциативной силы; α - относительная сила влияния условного раздражителя, варьирующаяся между 0 и 1; λ - максимум ассоциативной силы; β - относительная сила влияния безусловного раздражителя, также варьирующая между 0 и 1.При эмпирических расчетах по этой формуле необходимо задатьiначальное значение V₀, значения α, β и λ. Тогда после первого сочетания условного и безусловного раздражителей и . Аналогичноiвычисляется значение "ассоциативной силы" при каждом из следующих сочетаний условного раздражителя и безусловного раздражителя. Особенно важным в этой модели является тот факт, что авторы допускали ненулевоеiначальное значение "ассоциативной силы" V₀. В рамках данного исследования не предполагается адаптация этой модели поведения на полученных результатах, и их сравнение, по нескольким причинам. Первая - полученные результаты, какими бы они ни были не могут считаться валидными из-за репрезентативности выборки. Вторая - адаптация модели, с учётом имеющихся данных потребует использования специального программного обеспечения, использующегося в математических вычислениях, иначе - сложность задачи далеко выходит за рамки возможностей исследователя.

Тем не менее, в рамках данной работы возможен анализ одной из математических моделей, адаптация под решения которых не требует больших вычислительных мощностей. Это модель "win-stay, lose-switch", успешно применявшаяся при решении проблем, связанных с "игровыми автоматами", "дилеммой заключённого" и др. Модель утверждает, что выбор следующего действия зависит только от исхода предыдущего акта поведения. Исходы подразделяются на успешные (награды) и неудачные (наказания). Если поведение в предыдущем раунде было подкреплено, тогда субъект повторяет стратегию поведения, если поведение было наказано - то субъект переключается на другую стратегию поведения. Вероятность, с которой повторение и изменение поведение будет происходить определяется двумя свободными параметрами, P_reward и P_penalty. При адаптации метода со значением переменных P_reward и P_penalty для группы игроков, и P_reward и P_penalty для контрольной группы. Были получены результаты, приведённые в таблицах 5 и 6 в приложении. Как можно увидеть, данная модель оказалась неспособной предсказать реакции испытуемых, в первую очередь благодаря тому, что модель не учитывает величину подкрепления и наказания.

Подводя итог, вычислительные модели обучения многое сделали для улучшения нашего понимания процесса принятия решений за последние несколько десятилетий благодаря своей способности к предсказанию поведения. Совершенствование математических моделей обучения с подкреплением продолжается до сих пор, и продолжится в будущем, как и изучение данного метода исследования подкрепления и наказания.

Выводы.

Применение общих правил к конкретному случаю редко обходится без потерь, особенно в ситуациях, когда существует более чем одна непредвиденная переменная. Большинство экспериментов в поведенческой психологии предназначены для освещения одного, определённого явления, подобно рентгену, просвечивающему кости руки. Кожа, мускулы в этом случае не видны, и в результате картина будет являться неполной. Но даже видя только кости, мы способны выдвинуть жизнеспособные предположения о том, как работает рука, её возможности и ограничения. Принципы Бихевиоризма, обсуждаемые здесь должны иметь схожие преимущества и ограничения. Существует огромное множество других факторов, которые влияют на игроков, но базовые паттерны поведения и математические модели формируют фундамент. Понимая фундаментальные закономерности, которые лежат в основе игры, мы сможем сформировать более полно не только модели подкрепления игр, мотивации игроков, но и более успешные модели поведения и обучения.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Thorndike E. L. Human learning. NY.: Century Company, 1931.

2. Cronbach Lee J. Essentials of Psychological Testing (Third Edition). NY.: Harper and Row, 1970

3. Kubanek. J., L. H. Snyder., R. A. Abrams. Reward and punishment act as distincs factors in guiding behavior // J. Kubanek. Elsevier Cognition. NY.: CrossMark, 2015.

4. Sharma, M., Ontañón, S., Mehta, M. and Ram, A. Drama Management and Player Modeling for Interactive Fiction Games. Computational Intelligence Journal, 26(2), 2010. р. 183-211.

5. Toma, C. L. Affirming the Self through Online Profiles: Beneficial Effects of Social Networking Sites. In Proceeding of CHI 2010, р. 1749-1752.

6. Walther, J. B. Selective self-presentation in computer-mediated communication: Hyperpersonal dimensions of technology, language, and cognition. Computers in Human Behavior, 2007.р. 1 - 23, 2538-2557.

7. Bates, B. Game Design: The Art & Business of Creating Games. Prima Publishing, Roseville, CA, 2001.

8. Kazdin, A.E. Behavior Modification in Applied Settings, Belmont, Brooks/Cole, 1989.

9. Martin, G., Pear, J., Behavior Modification, New Jersey, Prentice Hall, 1992.

10. Medler, B., John, M. and Lane, J. Data Cracker: Developing a Visual Game Analytic Tool for Analyzing Online Gameplay. In Proceedings of CHI 2011. Vancouver, BC Canada.

11. Few, S. Now You See It: Simple Visualization Techniques for Quantitative Analysis. Analytics Press, 2009.

12. Spence, R. Information Visualization. ACM Press, 2001.Age and Sex Composition: 2010. [Электронный ресурс] URL: http://www.census.gov (дата обращения 01.06.2016)

13. Video Game Industry Statistics. [Электронный ресурс] URL: http://www.esrb.org (дата обращения 25.05.2016)

14. Games market revenue worldwide in 2015, 2016 and 2018, by segment and screen (in billion U.S. dollars). [Электронный ресурс] URL: http://www.statista.com (дата обращения 24.05.2016)

15. John Hopson. Behavioral Game Design. [Электронный ресурс] URL http://www.gamasutra.com (дата обращения 19.05.2016)

16. Moos R. H. The human context: Environmental determinants on behavior. NY.: 1973.

17. Хьелл Л., Зиглер Д. Теории личности. СПБ.: Питер, 2013.

18. Романова Е.С. Психодиагностика. МСК.: Кнорус, 2015.

19. А. Н. Колмогоров, А. М. Абрамов, Ю. П. Дудницын и др. Алгебра и начала анализа: Учеб. для 10-11 кл. общеобразоват. учреждений. Под ред. А. Н. Колмогорова.- 14-е изд. М.: Просвещение, 2004

20. Christopher A. High-level reinforcement learning in strategy games. International Foundation for Autonomous Agents and Multiagent Systems, SC.: Richland, 2010.

21. Haw J. The relationship between reinforcement and gaming machine choice. Southern Cross University. [Электронный ресурс] URL.: http://epubs.scu.edu.au/cgi/viewcontent.cgi?article=1113&context=tourism_pubs (дата обращения 15.06.2016)

22. Camerer C. F. Progress and Behavioral Game Theory. [Электронный ресурс] URL.: http://www.hss.caltech.edu/content/progress-and-behavioral-game-theory (дата обращения 19.06.2016)

23. Сamerer C. F. Behavioral Game Theory: Experiments in Strategic Interaction. NY.: Newyork, 2013.

24. Drachen A., Sifa R., Bauckhage C. Guns, swords and data: Clustering of player behavior in computer games in the wild. Data of Conference: Computational Intelligence and Games, 2012.

25. Kang, Shin-Jin., Young Bin Kim., Taejung Park. Automatic player behavior analysis system using trajectory data in a massive multiplayer online game. Springer Science. Seoul, 2010.

26. Yee N. Motivations of Play in Online Games. NY.: CyberPsychology and behavior, 9, p. 772-775, 2007.

27. Banks J., Bowman N. D. Emotion, anthropomorphism, realism, control: Validation of a merged metric for player-avatar interaction (PAX). West Virginia University, Department of Communication Studies.Computers in Human Behavior, 54, p. 212-223, 2016.

28. Cуслов В. И., Чумакова Н. П. Психодиагностика: Учеб. пособие. СПБ., 1992.

29. Мельников В. М., Ямпольский Л. Т. Введение в экспериментальную психологию личности. М.: Просвещение,1985

ПРИЛОЖЕНИЯ

Приложение №1. Текст правил игры, предъявлявшийся перед началом исследования.

Мы предлагаем вам сыграть в небольшую игру и после её прохождения дать ответы на 2 психологические методики.

Среднее время игры - 20 минут.

Задача состоит в наборе как можно большего количества очков. После 1 июня будет опубликована таблица с наивысшими результатами игроков. Это простая игра, ориентированная на внимание, реакцию и счёт.

Примечание: в игру можно сыграть только один раз, все дополнительные попытки не будут учитываться.

Правила игры

Игра разделена на множество проб, которые сменяют друг друга по очереди.

Игровое поле разделено на 2 равные части по вертикали. На каждой половине расположено по 1 кругу, появляющемуся и исчезающему в одном и том же месте. Ваша задача - посчитать, какой из кругов появлялся чаще другого в ходе данной пробы. В среднем проба длится около 4 секунд, так что важно поспевать за временем. После окончания пробы экран окрасится цветом кругов - это значит, что пора сделать выбор и нажать либо кнопку "С левой", если чаще появлялся круг с левой стороны, либо "С правой", если чаще появлялся круг справа.

Всего есть три вида проб:

Если круги синие, то за правильный ответ вы получите 1, 2 или 4 очка. За неправильный - потеряете 1, 2 или 4 очка.

Если круги зеленые, то за неправильный ответ вы избежите получения 1, 2 или 4 очков за будущие ответы. За правильный - предотвратите потерю 1, 2 или 4 очков в будущем. Эти "очки избегания" накапливаются в ходе игры.

Если круги не появляются, и Вы видите просто фон зелёного и синего цвета без предъявления кругов, то от Вас всё равно потребуется сделать выбор в течении 2 секунд, за которым также последует изменение в баллах. Если фон синий - то за правильный ответ вы получите 1,2 или 4 очка. За неправильный - потеряете 1, 2 или 4 очка. Если фон зеленый, то за неверный ответ вы избежите получения 1, 2 или 4 очков. За правильный - избежите потери 1, 2 или 4 очков.

Если Вы не успеете сделать выбор за 2 секунды, то проба не будет засчитана и Вы перейдёте к следующей.

Приложение №2. Образец того, как выглядели пробы типа 1.

Приложение №3. Образец того, как выглядела проба типа 3.

Приложение №4. График наглядного представления результатов методики одним из испытуемых. В случае, если какая либо из величин исхода пробы не повторялась более 7 раз, результаты её влияния на поведение не учитывались. На графике это выражено пунктирными линиями. Линия обозначенная синими кругами представляет результаты задания №1, с зелёными - задания №2, сплошная синяя линия - задания №3, сплошная зелёная - задания №4.

Результаты прохождения методик.

Опросник Эллерса для оценки мотиваци избегания неудач: 19 баллов, умерено высокий уровень мотивации избегания неудач.

Опросник Эллерса для оценки мотивации к успеху: 18 баллов, умеренно высокий уровень мотивации к успеху.

Опросник Шуберта для оценки готовности к риску: 25 баллов,

Приложение №5. График общего представления результатов методики, без учётов типов задач и величин баллов, закреплёнными за заданиями.

Приложение №5. График представления результатов методики по каждому из типов заданий, без учёта величин баллов.

[1] Spil Games - компания, включающая в себя более 50 игровых вебсайтов, на которых посетители играют преимущественно в браузерные игры, и обладающая патентом на более чем 100 игр.

[2] По данным статистики сайта Twitch.tv, самого популярного сайта стриминг-игр, предоставляющего возможность игрокам вести прямую трансляцию своего игрового процесса по всему миру.

[3] Тео́рия игр — математический метод изучения стратегий в играх. Игра - понимается как процесс, в котором участвуют две и более сторон, борющихся за реализацию собственных интересов. Каждая из сторон имеет свою цель и использует некоторую стратегию, которая может вести к выигрышу или проигрышу — в зависимости от поведения других игроков. Теория игр помогает выбрать лучшие стратегии с учётом представлений о других участниках, их ресурсах и их возможных поступках. Принадлежит разделу прикладной математики.

[4]Аверсивное событие - Нечто, вызывающее неприязнь или отвращение. Это может быть стимул (например, лекарственный препарат, вызывающий тошноту), либо событие (внезапный громкий шум или удар электрическим током).

[5] Классическое обусловливание - процесс научения, при котором ранее нейтральный стимул начинает ассоциироваться с другим стимулом вследствие того, что второй стимул сопровождает первый.

[6] World of Warcraft - многопользовательская ролевая онлайн-игра, разработанная и издаваемая компанией Blizzard Entertainment. Согласно книге рекордов Гиннесса, World of Warcraft является самой популярной MMORPG в мире.

⇐ Предыдущая 1 2 3 4 56

Поделиться с друзьями:

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...