Эмпирические свидетельства валидности: последствия тестирования — КиберПедия 

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Эмпирические свидетельства валидности: последствия тестирования

2017-09-30 299
Эмпирические свидетельства валидности: последствия тестирования 0.00 из 5.00 0 оценок
Заказать работу

Как уже говорилось, одно из ключевых различий между традиционным подходом к оценке трех компонентов валидности и современным подходом заключается в том, что в современном подходе подчеркивается первичность конструктной валидности по отношению к содержательной и критериальной (которая более подробно будет обсуждаться ниже). Впрочем, еще более радикальным и дискуссионным отличием является утверждение (высказываемое в рамках современного подхода) о том, что последствия тестирования являются одним из аспектов валидности.

В Стандарте образовательного и психологического тестирования говорится о том, что валидность включает в себя «преднамеренные и непреднамеренные последствия использования теста» (AERA, APA, & NCME, 1999, с.16). Cronbach (1988) утверждает, что разработчики, пользователи и оценщики тестов «обязаны следить за тем, чтобы последствия тестирования для отдельных лиц и организаций были благоприятными, а особенно – предотвращать неблагоприятные» (с.6). Так, например, необходимо обеспокоиться по поводу практики применения теста, если и сам этот тест, и конструкт, лежащий в его основе, больше «работают» на мужчин, чем на женщин. Являются ли тестовые баллы одинаково валидными (как показатель измеряемого конструкта) для респондентов обоих полов? Насколько велика разница в тех преимуществах, которые тест дает мужчинам и женщинам?

Предположение о том, что последствия тестирования связаны с конструктной валидностью, вызвало немало споров. Вряд ли кто-либо не согласится с тем, что пользователи теста, разработчики и руководящие лица должны задумываться о справедливости программы тестирования по отношению ко всем группам респондентов. Тем не менее, не все согласятся с тем, что последствия программы тестирования следует рассматривать как один из аспектов научной оценки значения тестовых баллов. Так, утверждение о том, что валидность включает в себя оценку реальных и потенциальных последствий тестирования, рассматривается Lees-Haley (1996). Автор задается вопросами: «Но последствий для кого? И кто будет решать? Вражеские психологи? Пацифисты? Генералы? Чьи именно социальные ценности необходимо использовать при оценке валидности применения этих тестов?» (с.982). Очевидно, проникновение ценностных суждений в объективный процесс научного исследования поднимает ряд интересных проблем. Lees-Haley говорит напрямик: «оценка валидности последствий тестирования представляет собой вторжение политики в область науки» (с.982).

Приверженцы рассмотрения последствий тестирования как составной части валидности отвечают на такого рода возражения тем, что науку вообще невозможно отделить от личных и общественных ценностей. Проблемы, которые исследуются учеными, определяются частично ценностями общества, частично – ценностями самих ученых. Ценностные суждения влияют и на теоретические предположения и допущения ученых, и даже на те названия, которые ученые дают исследуемым конструктам. В качестве примера, основанного на немаловажной работе Messick (1993), рассмотрим двух психологов, разрабатывающих теорию одного из личностных свойств. Один из них полагает, что соответствующему конструкту необходимо дать название «гибкость - ригидность»: этот конструкт будет дифференцировать респондентов, способных адаптировать свои когнитивные и поведенческие особенности к изменяющимся обстоятельствам, и респондентов, склонных к сохранению когнитивного и поведенческого постоянства. Другой психолог, анализируя исходный конструкт и предполагаемые индивидуальные различия, которые он должен диагностировать, приходит к убеждению о том, что этот конструкт необходимо назвать «замешательство - устойчивость». Какие из этих названий более корректны с «научной» точки зрения? Следует ли высокий уровень когнитивной и поведенческой вариативности рассматривать как гибкость или же как замешательство? Следует ли низкий уровень когнитивной и поведенческой вариативности рассматривать как ригидность - или же это устойчивость?

Рассмотрим также такую личностную характеристику, как склонность испытывать, распознавать, контролировать и анализировать эмоциональные реакции. Представим себе, что ученый разработал тест, измеряющий данную характеристику, и обнаружил, что в среднем женщины набирают по этому тесту более высокие баллы, чем мужчины. Какое название разработчик теста подберет для самого теста и для того конструкта, на измерение которого он направлен? Учитывая, что женщины в среднем набирают более высокие тестовые баллы, насколько вероятно, что ученый назовет данный конструкт «эмоциональной чувствительностью»? А если бы результаты указали на то, что более высокие баллы получают мужчины, был бы исследователь более склонен к тому, чтобы назвать конструкт «эмоциональным интеллектом»? Далее, представьте, что менеджеру по персоналу сказали, что у вас высокий уровень «эмоциональной чувствительности». Будет ли его мнение о вас другим, нежели в том случае, если бы ему сказали, что у вас высокий «эмоциональный интеллект»? Какой из этих «ярлыков» вы предпочитаете? Повысятся ли шансы кандидата на работу быть принятым, если менеджер по персоналу будет убежден, что этот работник «интеллектуален», а не «чувствителен»?

Суть в том, что ценностные суждения могут оказывать некоторое (иногда весьма значительное) влияние на процесс научного исследования. Приверженцы теории о том, что последствия тестирования являются частью валидности, утверждают, что такого рода влияния необходимо распознавать и оценивать настолько точно, насколько это возможно в конкретной ситуации.

Проблема предвзятости теста будет подробнее обсуждаться в Главе 11, впрочем, некоторые комментарии уместны и здесь. Ранее говорилось, что валидность последствий тестирования отражает вероятность того, что для некоторых из респондентов результаты будут использованы несправедливо или некорректно. Важно разграничивать последствия тестирования и справедливость теста. Тест может иметь неблагоприятные последствия (для одного человека или для группы людей), однако при этом быть справедливым. Представьте, к примеру, что женщины склонны набирать более высокие баллы, чем мужчины, по методикам диагностики добросовестности. Представьте также, что директор по персоналу использует опросник добросовестности при приеме кандидатов на работу, как следствие в этой компании работает больше женщин, а не мужчин. Является ли это для мужчин «неблагоприятным последствием»?

В данном случае справедливость теста имеет отношение к природе половых различий. Почему мужчины и женщины набирают в тесте разное количество баллов? Во-первых, возможно, имеет место систематическая ошибка теста: пригодность теста как показателя добросовестности для разных групп респондентов неодинакова; по какой-то причине тест является адекватным показателем добросовестности в группе женщин, но не в группе мужчин. Такая ситуация является уже проблемой валидности: тест неодинаково валиден для различных групп респондентов. Следовательно, управленческие решения, принятые частично на основе тестовых баллов, могут быть несправедливыми по отношению к респондентам мужского пола.

Во-вторых, возможно, что систематической ошибке тест не подвержен. В таком случае тест является одинаково валидным показателем добросовестности как среди мужчин, так и среди женщин, а причина в том, что женщины в действительности несколько добросовестнее мужчин. В данном случае управленческие решения, принятые частично на основе тестовых баллов, несправедливыми уже не будут (при условии, что существуют эмпирические свидетельства того, что добросовестность является предиктором профессиональной успешности).

Что же насчет последствий самого тестирования? Независимо от того, справедлив ли тест, мужчины испытывают на себе неблагоприятные последствия его применения. О систематической ошибке теста речь идет лишь тогда, когда он неодинаково валиден для мужской и женской частей выборки. Наличие групповых различий тестовых баллов само по себе ничего не говорит о справедливости теста или о его систематической ошибке, т.е. о валидности теста как показателя интересующей исследователя психологической характеристики. Более подробное обсуждение данных вопросов, как и описание способов оценки систематической ошибки теста в пользу одной из групп респондентов, приведено в Главе 11.

 

 


Поделиться с друзьями:

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.011 с.