Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Когда производится ограждение поезда, остановившегося на перегоне: Во всех случаях немедленно должно быть ограждено место препятствия для движения поездов на смежном пути двухпутного...

Выпускная квалификационная работа: Основная часть ВКР, как правило, состоит из двух-трех глав, каждая из которых, в свою очередь...

Установка замедленного коксования: Чем выше температура и ниже давление, тем место разрыва углеродной цепи всё больше смещается к её концу и значительно возрастает...

Интересное:

Средства для ингаляционного наркоза: Наркоз наступает в результате вдыхания (ингаляции) средств, которое осуществляют или с помощью маски...

Подходы к решению темы фильма: Существует три основных типа исторического фильма, имеющих между собой много общего...

Аура как энергетическое поле: многослойную ауру человека можно представить себе подобным...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Вычисление и оценка конвергентной и дивергентной валидности

2017-09-30

655

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 7 из 36Следующая ⇒

В предыдущей главе были представлены теоретические основы валидности и обобщены те виды эмпирических данных, которые могут использоваться для оценки конструктной валидности. Было показано, что конвергентная и дивергентная валидность выражает то, насколько «правильны» паттерны взаимосвязи тестовых баллов с другими переменными. В данной главе будет приведено более подробное объяснение методов оценки ковергентной и дивергентной валидности, а также обсуждение вопросов, касающихся интерпретации соответствующих показателей.

Как уже говорилось, психологические конструкты окружены неким теоретическим контекстом. Другими словами, концептуальное основание конструкта включает в себя взаимосвязи между данным конструктом и рядом других психологических конструктов. Такие взаимосвязи получили название «номологическая сеть», т.е. сеть «значений», окружающих конструкт (Cronbach & Meehl, 1955). Так, Baumeister и Leary (1995) ввели в обиход понятие «потребности в принадлежности», которое было ими определено как «стремление формировать и поддерживать по крайней мере минимальное количество продолжительных, позитивных и значимых межличностных взаимоотношений» (с.497). Хотя они и предполагали, что потребность в принадлежности – одна из фундаментальных для человека, по их наблюдениям оказалось, что разные люди испытывают эту потребность в разной степени. Некоторые испытывают относительно высокую потребность в частых межличностных взаимодействиях на основе близости и заботы, некоторые же, похоже, нуждаются в таких взаимодействиях меньше. Leary, Kelly, Cottrell и Schreindorfer (2006) описывали номологическую сеть, окружающую конструкт потребности в принадлежности. Они предположили, что потребность в принадлежности чем-то похожа на такие характеристики, как потребность в аффилиации, стремление к близости (интимности), общительность и экстраверсия. Кроме того, потребность в принадлежности, по их мнению, совсем не должна быть связана с такими конструктами, как добросовестность, открытость опыту и самооценка.

Номологическая сеть взаимосвязей между конструктами предполагает определенную картину взаимосвязей между баллами тестов, направленных на измерение этих конструктов. Номологическая сеть, окружающая конструкт, подразумевает, что соответствующий тест должен коррелировать с другими тестами, измеряющими другие конструкты, причем в одних случаях ожидаются сильные корреляции, в других – слабые. Например, Leary с коллегами (2006) прогнозировали, что разработанный ими десятипунктовый тест на потребность в принадлежности (Need to Belong, NTB) будет обладать слабыми или умеренными взаимосвязями с тестами на потребность в аффилиации, стремление к близости и экстраверсию, отрицательно коррелировать с тестом социальной изоляции и практически не будет обладать корреляциями с тестами на добросовестность, открытость опыту и самооценку. Эти прогнозы в дальнейшем использовались для оценки конвергентной и дивергентной валидности NTB.

Ключевой частью процесса валидизации является оценка степени соответствия реальной и спрогнозированной картины корреляций. В данной главе представлены некоторые методы, использующиеся для этого, а также некоторые факторы, влияющие на результат этой проверки, и некоторые базовые соображения в плане интерпретации результатов анализа.

МЕТОДЫ ОЦЕНКИ КОНВЕРГЕНТНОЙ И ДИВЕРГЕНТНОЙ ВАЛИДНОСТИ

Существует по меньшей мере четыре метода оценки конвергентного и дивергентного характера взаимосвязей между тестами. Все они отличаются по нескольким аспектам: концептуальная сложность, статистическая сложность, необходимость в четко выраженных и конкретных прогнозах. Одни из них относительно новы, возраст же других насчитывает десятилетия. Несмотря на эти различия, описанные ниже методы являются (или же могут стать) полезными и распространенными способами оценки конвергентной и дивергентной валидности теста.

Единичные корреляции

Некоторые тесты имеют явное отношение к небольшому четко очерченному набору переменных. Оценка валидности таких тестов может быть сфокусирована на взаимосвязях между тестовыми баллами и этими немногочисленными переменными. В каком-то смысле данные взаимосвязи являются ключевой точкой принятия решения о конвергентной или дивергентной валидности теста в терминах «да или нет» (третьего не дано). Если полученная корреляция совпадает с прогнозом, это является сильным свидетельством в пользу валидности; если же полученная корреляция с прогнозом не совпадает, это является серьезным поводом для сомнения в качестве теста.

Как говорилось в предыдущей главе, субтест SAT на логическое мышление направлен на измерение «навыков критического мышления, [необходимых] для достижения успеха при обучении в колледже» (College Board, 2006). В этом определении предполагается, что для оценки субтеста SAT на мышление особый интерес представляют две переменные. Во-первых, будучи мерой сформированности «навыков критического мышления», SAT должен коррелировать с другими тестами на критическое мышление. Во-вторых, поскольку исследуемый конструкт необходим для «успешного обучения в колледже», SAT должен коррелировать с показателем академической успеваемости.

Исследуя качество теста SAT, Совет колледжей в основном заинтересован во взаимосвязях между тестовым баллом SAT и показателем академической успеваемости. В ряде документов, предоставляемых студентам, преподавателям и исследователям, акцентируется взаимосвязь тестового балла по SAT и таким показателем, как оценки за первый год обучения в колледже. К примеру, Программное руководство по SAT, выпущенное Советом колледжей для школьных психологов и специалистов приемных комиссий, включает в себя несколько упоминаний валидности (College Board, 2006). В первом разделе Руководства, посвященном валидности, указано, что по результатам исследования свыше 110 000 студентов из более чем 25 колледжей средний коэффициент корреляции между тестовым баллом по SAT и отметками первокурсников составил 0.55. В дальнейшем в Руководстве упоминаются и другие исследования, посвященные возможностям прогноза отметок по тестовым баллам SAT. Очевидно, что College Board сосредоточивает все аргументы относительно валидности теста на корреляциях между SAT и определенным набором критериальных переменных, связанных с академической успеваемостью в колледже.

Таким образом, первый метод оценки валидности интерпретации тестовых баллов – фокусировка на небольшом количестве релевантных критериальных переменных. Если тестовые баллы в действительности взаимосвязаны с этими ключевыми переменными, доверие разработчиков и пользователей к тесту повышается. Данные корреляции, называемые иногда коэффициентами валидности, имеют для исследования валидности фундаментальный смысл. Если по результатам исследований оказывается, что коэффициенты валидности теста высоки, высока будет и уверенность разработчиков, пользователей и оценщиков теста в его способности качественно измерить изучаемый конструкт.

Обобщение показателей валидности – это процесс оценки коэффициентов валидности теста, полученных в большом массиве исследований (F.L.Schmidt, 1988; F.L.Schmidt & Hunter, 1977). В отличие от SAT, многие тесты, используемые в науках о поведении, разрабатывались в рамках относительно немногочисленных исследований. Фактически, многие (если даже не все) исследования валидности основаны на выборках менее 400 человек – особенно в тех случаях, когда в исследовании использовались еще какие-то данные кроме самооценочных. В большинстве случаев исследователь, проводящий валидизацию теста, набирает одну выборку от 50 до 400 респондентов, проводит тестирование этих респондентов по исследуемому тесту, измеряет дополнительные критериальные переменные и вычисляет корреляцию между этими переменными и тестовыми баллами. Подобного рода исследования составляют основу многих диагностических инструментов, используемых для исследований в области психологии личности, клинической психологии, психологии развития, социальной психологии, организационной психологии и психологии образования. Отдельные исследования валидности зачастую включают в себя относительно небольшие выборки, что обусловлено ограниченностью времени, финансирования и других ресурсов исследователя.

Несмотря на то, что исследования, использующие относительно небольшие выборки, довольно распространены, а их проведение подкреплено целым рядом практических соображений, всем этим исследованиям присущ потенциально важный недостаток. Исследование, проведенное в одной географической местности с одной небольшой выборкой, может привести к обнаружению приемлемых показателей конвергентной и дивергентной валидности теста, однако результаты могут не распространяться на другие географические местности или другие выборки.

Например, результаты исследования банковских служащих могли бы свидетельствовать о том, что баллы по шкале «Добросовестность» опросника NEO-PI-R довольно хорошо прогнозируют профессиональную успешность банковских служащих. Несмотря на то, что эта информация может оказаться ценной и полезной для менеджеров по персоналу в банковской сфере, означает ли это, что она будет так же полезна для бухгалтеров, сферы недвижимости или индустрии продаж? Другими словами, является ли корреляция между баллами по шкале добросовестности и профессиональной успешностью такой сильной только лишь для банковских служащих, распространяется ли эта корреляция на другие выборки? Возможно также, в некоторых областях занятости добросовестность играет большую роль, а в некоторых – нет. Если это так, нам не следует полагать, что NEO-PI-R не дает валидного прогноза профессиональной успешности во всех профессиях.

Исследования по обобщению показателей валидности ставят своей целью оценку предсказательной способности тестовых баллов в широком спектре условий, ситуаций, временных контекстов и т.д. Исследование по обобщению показателей валидности представляет собой одну из форм мета-анализа, при котором результаты нескольких отдельных исследований объединяются и количественно обобщаются (F.L.Schmidt, Hunter, Pearlman, & Hirsh, 1985). Например, представим себе, что было проведено 25 исследований, в которых оценивалась взаимосвязь шкалы добросовестности из опросника NEO-PI-R и профессиональной успешности работника. В одном из этих исследований использовались банковские служащие, в другом выборку составили школьные учителя, в третьем – продавцы, и т.д. Во всех этих исследованиях были использованы разные выборки, но не исключено также, что во всех этих исследованиях использовались и разные инструменты измерения профессиональной успешности. Например, в некоторых случаях оценка могла производиться путем экспертной оценки работников менеджерами по персоналу, в некоторых случаях оценка могла быть более объективной, например, по количеству вырученных на сделках денег. Таким образом, в результате можно было бы обнаружить, что анализируемые 25 исследований привели к получению достаточно разных данных относительно взаимосвязи добросовестности и профессиональной успешности.

Исследования по обобщению показателей валидности могут направлены на решение как минимум трех важных проблем. Во-первых, они могут выявить общий уровень прогностической валидности при обобщении всех отдельных и не столь масштабных исследований. Например, средний коэффициент корреляции между шкалой добросовестности NEO-PI-R и профессиональной успешностью для 25 гипотетических исследований, рассматриваемых нами, мог бы составить 0.30. Во-вторых, исследования по обобщению показателей валидности могут показать степень вариативности[5] в результатах отдельных небольших исследований. В рассматриваемом случае могли бы быть получены данные, скажем, о том, что в некоторых исследованиях коэффициент корреляции между шкалой добросовестности и профессиональной успешностью достаточно высок (например, от 0.40 до 0.50), тогда как в других исследованиях этот коэффициент достаточно низок (например, от 0 до 0.10). В таком случае мог бы быть сделан вывод о том, что взаимосвязь между шкалой добросовестности NEO-PI-R и профессиональной успешностью не распространяется на все исследования. При другом раскладе событий могли бы быть получены данные о том, что во всех 25 исследованиях обнаружены умеренные корреляции между данными двумя переменными (например, от 0.20 до 0.40). В данном случае, поскольку степень вариативности полученных данных меньше, можно было бы заключить, что взаимосвязь между добросовестностью и профессиональной успешностью распространяется на все выборки и исследования. В любом случае полученные данные предоставили бы немаловажную информацию для оценки валидности NEO-PI-R и для использования этого опросника в принятии решений о найме.

Третья проблема, которую можно решать средствами обобщения показателей валидности, это проблема источников вариативности отдельных исследований. Если первоначальный статистический анализ выявил широкий разброс коэффициентов валидности в различных исследованиях, дальнейший анализ может быть направлен на выявление того, с чем связаны эти различия. Например, таким образом можно обнаружить методологические различия между отдельными исследованиями, которые оказываются связанными с результатами, получаемыми в этих исследованиях. Можно было бы обнаружить, скажем, что высокие коэффициенты валидности принадлежат исследованиям, где профессиональную успешность работников оценивали менеджеры по персоналу, тогда как в исследованиях, использовавших в качестве показателя профессиональной успешности более объективные показатели (например, выручку), получались более низкие коэффициенты валидности. В таком случае различия в методах измерения критериальной переменной вносят вклад в различия коэффициентов валидности. Такого рода методологические источники вариативности следует учитывать при оценке степени применимости среднего коэффициента валидности к различным исследованиям и выборкам.

Таким образом, некоторые психологические тесты, как ожидается, должны быть взаимосвязаны в первую очередь с небольшим количеством специфических переменных. Если результаты исследования подтверждают сильную корреляцию теста с некоторой специфической критериальной переменной, разработчики, пользователи и оценщики теста получают свидетельство того, что тестовые баллы, отражающие измеряемый психологический конструкт, обладают хорошей конвергентной валидностью. Чтобы оценить степень того, насколько взаимосвязь между тестом и критериальной переменной может быть распространена на другие исследования, выборки, условия и т.д., следует использовать мета-анализ показателей валидности.

Наборы корреляций

Номологическая сеть, окружающая конструкт, не всегда сфокусирована на небольшом количестве релевантных конструкту критериальных переменных. Иногда номологическая сеть исследуемого конструкта затрагивает множество других конструктов, и сила их взаимосвязи варьируется. В таких случаях исследователь, оценивающий конвергентную и дивергентную валидность теста, должен изучить широкий спектр критериальных переменных.

Для этого исследователи зачастую вычисляют коэффициенты корреляции исследуемого теста с большим количеством показателей критериальных переменных, после чего «просматривают» полученные корреляции и выносят несколько субъективное решение относительно того, насколько полученная картина взаимосвязей соответствует гипотетически ожидаемой.

К примеру, Hill с коллегами (2004) разработали новый опросник перфекционизма (PI) и опубликовали результаты его конвергентной и дивергентной валидности. Опросник разработан для измерения восьми компонентов перфекционизма, то есть авторы заложили в него многокомпонентную структуру (см. обсуждение внутренней структуры теста в предыдущей главе). Среди компонентов перфекционизма, входящих в авторский конструкт, - озабоченность по поводу совершения ошибок, организованность, склонность к планированию, стремление к совершенству и потребность в одобрении. Для оценки конвергентной и дивергентной валидности опросника в исследовании наряду с PI использовались еще 23 критериальных переменных. Критериальные переменные включали в себя другие (уже существующие) тесты на перфекционизм, а также, поскольку перфекционизм теоретически может быть связан с разнообразными психологическими нарушениями, методики измерения нескольких психологических симптомов (например, обсессивно-компульсивного расстройства, тревоги и боязни получить отрицательную оценку). Корреляции между шкалами PI и шкалами 23 критериальных переменных были представлены в виде корреляционной матрицы, состоящей более чем из 200 ячеек (см. Таблицу 9.1).

Оценивая конвергентную и дивергентную валидность опросника, Hill с коллегами (2004) внимательно изучили полученную картину взаимосвязей и проинтерпретировали ее в соответствии с исходными теоретическими предположениями. Например, было замечено, что шкала «Озабоченность по поводу совершения ошибок» опросника PI имеет сильную корреляцию с аналогичной шкалой из другого теста перфекционизма. Кроме того, было замечено, что шкала «Стремление к совершенству» имела сильные корреляции с такими шкалами других тестов перфекционизма, как «Личностные стандарты» (шкала, выражающая высокие ожидания респондента по поводу собственной успешности и склонность основывать на успешности свою самооценку) и «Самоориентированный перфекционизм» (шкала, выражающая нереалистичные притязания и склонность к фиксации на ошибках и моментах несовершенства в выполняемой деятельности). Кроме того, были изучены взаимосвязи шкал PI с различными показателями неблагополучия. Например, было обнаружено, что 3 шкалы PI (навязчивые мысли / застревание, озабоченность по поводу совершения ошибок и потребность в одобрении) тесно взаимосвязаны со страхом отрицательной оцени, а также с частотой и интенсивностью проявления симптомов обсессивно-комульсивного расстройства личности.

Таблица 9.1. (см. отдельный файл)

Данный подход к оценке валидности весьма широко распространен. Сначала исследователь набирает большое количество данных с использованием оцениваемого теста и других тестов, гипотетически связанных с ним. Затем анализируется паттерн корреляций и выносится суждение относительно того, насколько этот паттерн соответствует концептуальному значению конструкта, заложенного в тест.

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Поделиться с друзьями:

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...