Валидность (психология) — это… Что такое Валидность (психология)?
Вали́дность (англ. validity) — мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики.
Как в экспериментальной психологии, так и в статистике валидное измерение — такое измерение, которое измеряет то, что оно должно измерять. То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое. Безупречный эксперимент (возможный лишь в теории) будет обладать безупречной валидностью: он будет точно показывать, что экспериментальный эффект был вызван изменением независимой переменной, он будет полностью соответствовать реальности, его результаты можно обобщить без ограничений.
Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).
Способы установления валидности теста
Существуют четыре основных способа установления валидности теста.
- I. Оценка очевидной валидности.
Очевидная валидность – валидность, при которой оценивается общее соответствие теста его назначению.
- II. Оценка содержательной валидности.
Содержательная валидность предполагает, что тест обнаруживает в себе полный набор заданий для измерения определенной черты.
- III. Оценка конструктной валидности.
Этот способ проверки заключается в проведении продуманных экспериментов. Подход первый — «конвергентная валидизация» — это проверка ожидаемой связи тестовых оценок с другими показателями. Например, если для измерения какой-либо черты существует несколько методик, целесообразным было бы провести эксперименты по хотя бы двум, и тогда при обнаружении высокой положительной корреляции их результатов между собой можно говорить о валидности. Основной целью конвергентной валидизации является определение того, будут ли оценки теста варьироваться в соответствии с ожиданиями.
- IV. Оценка прогностической валидности.
Прогностическая валидность заключается в том, что психологический тест часто используется для прогноза поведения. Соответственно, если прогноз оправдывается с течением времени, это говорит о том, что тест был валидным. Но для характеристики многих видов деятельности этого метода не достаточно.
Требования к идеальному тесту
- Минимальное количество заданий. Однако чем больше личностных факторов хочет измерить тестирующий, тем большее количество вопросов целесообразнее задать тестируемому.
- Тест должен соответствовать целевой группе, на которую он направлен. Верно то утверждение, что тест, направленный на одну группу, в результате тестирования которой были получены достоверные результаты, может быть невалидным в отношении другого целевого сегмента.
- Адаптация теста. Применяется в случае проведения теста в иноязычной стране.
Виды валидности
- Внешняя валидность
- Внутренняя валидность
- Экологическая валидность
- Дифференциальная валидность
- Иллюзорная валидность
- Инкрементная валидность
- Консенсусная валидность
- Критериальная валидность
- Очевидная валидность
- Валидность по возрастной дифференциации
- Прогностическая валидность
- Содержательная валидность
- Текущая валидность
- Эмпирическая валидность
См. также
Ссылки
Валидация в психологии — определение термина, уровни валидности
Валидация это способ принимать свои чувства или чувства окружающих. Валидация – не значит согласие или одобрение. Валидация – это признание и принятие мыслей, эмоций, чувств и поступков как понятных. Марша Лайнехан описывает 6 уровней валидации.
1 уровень: Быть в настоящем. Есть столько способов находиться «здесь и сейчас»: держать вашего близкого человека за руку, когда он проходит через болезненную медицинскую процедуру, слушать вашего ребенка со всем вашим вниманием и не отвлекаясь ни на что, когда он рассказывает он своем первом дне в школе, приехать домой к подруге в полночь, когда она плачет из-за того, что ее друг солгал о ней кому-то.
Быть в настоящем значит давать все свое внимание человеку, которого вы слушаете.
2 уровень: Стремиться точно понять и сформулировать происходящее. На этом уровне вы пробуете обобщенно назвать чувства, которые испытывает ваш собеседник или вы. Важно постараться избежать критикующих интонаций и показать, что ваша настоящая цель – правильно понять опыт другого человека. Иногда этот тип валидации помогает разобраться в своих мыслях и отделить эмоции от суждений. «По сути, я чувствую себя разозленным и мне больно» — пример валидации своих собственных чувств. «Похоже, что ты разочарован в себе из-за того, что не перезвонил ему» — пример аккуратной рефлексии в ответ на чей-то рассказ.
3 уровень: Чтение мыслей! Это умение строить предположения о чувствах и мыслях других людей. У всех людей разный уровень способности различать свои чувства. Иногда не получается понять, что именно человек чувствует, потому что в детстве ему не разрешали испытывать те эмоции, которые у него возникали или же его воспитали с чувством страха перед своими эмоциями.
Люди могут скрывать свои чувства, потому что они запомнили, что окружающие негативно реагируют на такие проявления. Это подавление чувств может привести к тому, что даже сам человек не будет понимать, что именно он чувствует, что в свою очередь плохо влияет на способность управлять своими эмоциями.
Помните, что вы можете ошибочно распознать переживания своего собеседника, умение принимать поправки к вашим репликам – часть навыка валидации.
4 уровень: Понимание поведения человека в контексте его личной истории и физического состояния. Ваш опыт и биология вашего тела влияют на ваши эмоциональные реакции. Если ваш лучшая подруга была покусана собакой пару месяцев назад, она маловероятно получит удовольствие, играя с вашей немецкой овчаркой. Валидация на этом уровне будет звучать так: «Учитывая то, что случилось с тобой недавно, я полностью понимаю, что тебе не хочется находится рядом с моей собакой.»
Самовалидация – понимание ваших собственных реакций в контексте вашего прошлого опыта.
5 уровень: Признание эмоций нормальными в данной ситуации и слова о том, что такие чувства испытал бы и другой человек, попади он в такую ситуацию. «Конечно ты нервничаешь. Первое публичное выступление страшно для любого человека, это нормально.»
6 уровень: Полная искренность. На этом уровне вы проявляете понимание к собеседнику на очень глубоком уровне, например, если у вас был похожий опыт. Чувство общности переживаний приносит большое облегчение в сложных ситуациях. Нередко такой опыт возникает в результате встречи терапевтической группы (групповая терапия).
Переведено с английского, с сокращениями, специально для ЦИРПП, источник:
https://www.psychologytoday.com/blog/pieces-mind/201204/understanding-validation-way-communicate-acceptance
Валидность (психология)
Валидность — обоснованность и пригодность применения методик и результатов исследования в конкретных условиях. Более прикладное определение понятия «валидность» — мера соответствия методик и результатов исследования поставленным задачам. Валидность считается фундаментальным понятием экспериментальной психологии, организационной психологии и психодиагностики.
Как в психологии, так и в статистике валидное измерение — такое измерение, которое измеряет то, что оно должно измерять эта узкая трактовка «валидности» является наиболее популярной, по факту она соответствует понятию «конструктная валидность». То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое.
Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам однако при этом валидность не измеряется в каких-либо условных единицах.
1.
Чаще всего понятие «валидность» обсуждается в контексте конкретных методик или экспериментов. При этом может быть поставлен вопрос и о валидности определенного метода в целом например, метода тестирования или ассессмент центра. Подобные исследования проводятся с помощью мета-анализа.
Существуют три основных способа установления валидности методики.
I. Оценка содержательной валидности.
Содержательная валидность — степень соответствия содержания заданий методики той реальной деятельности, в которой проявляется измеряемое в методике свойство. Частным случаем содержательной валидности является так называемая очевидная лицевая или фейс валидность — степень соответствия методики ожиданиям оцениваемых. Для большинства методик считается важным, чтобы для участника оценки была очевидна связь между содержанием процедуры оценки и той реальной деятельностью, которая является объектом оценки.
Конструктная валидность — это степень обоснованности того, что методика действительно измеряет заданные и при этом научно обоснованные конструкты. Существуют, как минимум, две стратегии установления конструктной валидности.
Подход первый — «конвергентная валидизация» — это проверка ожидаемой связи результатов конкретной методики с показателями других методик, измеряющих сходные характеристики. Например, если для измерения какой-либо черты существует несколько методик, целесообразным было бы провести эксперименты по хотя бы двум, и тогда при обнаружении высокой положительной корреляции их результатов между собой можно говорить о валидности. Основной целью конвергентной валидизации является определение того, будут ли оценки теста варьироваться в соответствии с ожиданиями.
III. Оценка критериальной валидности.
показатели социально- или оргазизационно-значимых результатов деятельности ключевые показатели эффективности КПЭ или KPI, успеваемость, устойчивость семейных отношений и т. п)
независимые от результатов методики непосредственные меры исследуемого качества,
Одним из видов критериальной валидности является т. н. «прогностическая» валидность. Этот вид валидности используется, когда методика призвана давать определенный прогноз поведения человека. Соответственно, если прогноз оправдывается с течением времени, это говорит о том, что методика является прогностически валидной.
2. Виды валидности
В различных источниках упоминаются разные названия, что может создавать определенную путаницу. В экспериментальной психологии ключевыми понятиями являются
Операциональная валидность
Внешняя валидность
Инкрементная валидность
Дифференциальная валидность
Экологическая валидность
Внутренняя валидность
Для психодиагностики и организационной психологии более традиционной является классификация из трех основных видов валидности:
Конвергентная валидность
Конструктная валидность
Дивергентная валидность
Прогностическая валидность
Текущая валидность
Критериальная валидность Эмпирическая валидность
Ретроспективная валидность
Очевидная валидность
Содержательная валидность
Дата публикации:
05-16-2020
Дата последнего обновления:
05-16-2020Внешняя валидность и виды обобщений за пределами исследовательской ситуации
Сущность понятия «валидность»
Определение 1
Валидность – это комплексная характеристика методики, которая включает сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.
Данное понятие относится к тому, что эта методика измеряет и как хорошо она это делает. Те тесты, которые не обладают валидностью, для практического использования не годятся.
Уровень валидности – это её коэффициент.
На валидность теста оказывают влияние систематические факторы, привносящие в результаты искажения. К ним относятся другие психические свойства, мешающие в результатах теста проявиться тому свойству, на которое направлен тест.
Например, необходимо измерить потенциал обученности, но время исполнения строго ограничено, и допущенную ошибку исправить невозможно. Таким образом, искомое психическое свойство смешается с другим – «стрессоустойчивостью». Те, у кого стрессоустойчивость высокая, выполнять тест будут лучше. Здесь проявляется эффект систематического искажения. Отсюда, единого и универсального подхода к определению валидности не существует.
Исходя из того, какая сторона валидности будет рассматриваться, будут использоваться и соответствующие способы доказательства.
Замечание 1
Методика имеет столько валидностей, сколько существует критериев.
В первом понимании валидность относится к самой методике – это валидность измерительного инструмента, а проверка получила название теоретической валидизации. Второе понимание относится уже не столько к методике, сколько к цели её использования – это прагматическая валидизация.
Для использования психодиагностических методик в практических целях, они должны быть проверены по ряду формальных критериев, которые являются главным элементом методик и доказывают их эффективность и высокое качество.
Основными критериями оценок являются надежность и валидность.
Критерий валидности представляет собой источник информации об измеряемом психическом свойстве, он не зависит от теста и по отношению к нему является внешним. Говорить о валидности теста можно только тогда, когда его результаты будут сравнимы с источником истиной информации об измеряемом свойстве, т.е. с критерием.
Готовые работы на аналогичную тему
В качестве критерия валидности на практике часто используется прагматический критерий, представляющий собой очевидный признак, проявляемый испытуемым независимо от исследуемого качества. Например, данные о выполнении разных заданий, контрольных проб и данные, полученные при помощи других методик, валидность которых доказана.
Виды валидности
В употребление понятие «валидность» было введено Д. Кемпбеллом, который им обозначил уверенность экспериментатора в том, что с помощью определенной методики, он измеряет именно то, что хотел измерить.
Рисунок 1. Основные виды валидности. Автор24 — интернет-биржа студенческих работ
Валидность эксперимента может быть внутренней и внешней. Признак хорошего эксперимента – это высокая внутренняя валидность и, если экспериментальный эффект вызван изменением независимой переменной, то внутренняя валидность будет выше.
Внутреннюю валидность эксперимента, по мнению Кемпбелла могут нарушить несколько основных факторов:
- селекция – неэквивалентность, вызывающая систематическую ошибку в результатах;
- статистическая регрессия является частным случаем селекции;
- экспериментальный отсев при котором из группы происходит неравномерное выбывание испытуемых;
- естественное развитие – изменение испытуемых в течение времени.
Теоретическая валидность, определить которую можно по соответствиям показателей исследуемых качеств, получена с помощью созданной методики. Проверить теоретическую валидность можно путем корреляции одного и того же свойства, который измеряется различными методами.
В пределах теоретической валидности выделяют конвергентную, конструктную, эмпирическую, внутреннюю валидность.
Благоприятная ситуация использования конвергентной валидности складывается тогда, когда уже есть в психологии валидная методика, которая проверяет изучаемое качество. Если между показателями этих методик корреляция высокая, то это значит, что для новой методики характерна конвергентная валидность.
Когда для измерения какого-либо свойства тест с известной валидностью не опробирован тогда исследователь выдвигает ряд гипотез – будет ли коррелировать новый тест с другими тестами. В основе выдвигаемых гипотез лежат теоретические представления об измеряемом свойстве. Когда они подтверждаются, то это указывает на валидность выдвигаемого конструкта, т. е. конструктную валидность (предполагаемую).
Что касается эмпирической валидности, то исследователь смотрит, насколько клиент в реальной жизни ведет себя соответственно результатам исследования. Кроме этих видов существует ложная, очевидная валидность, валидность, исходящая из опыта, валидность, основанная на желаниях, валидность всех тестовых методик.
Ложная валидность фиксирует видимость пригодности методики, а очевидная валидность соответствует подлинной только в дидактических тестах и иногда действительно исследует реально существующие факты.
В основе валидности, исходящей из опыта, лежат личные чувства психолога для измерения какого-либо качества испытуемого.
Валидность, основанная на желаниях предполагает желание видеть свою методику валидной, не замечая, при этом, противоречащих этому желанию фактов. Для расчета валидности, как показывает практика, должно быть не меньше 50 человек, но, лучше больше 200.
Внешняя валидность
Замечание 2
Внешняя валидность указывает, на какие популяции, ситуации, независимые переменные, параметры воздействия, переменные измерения можно распространить результаты эксперимента.
Например, можно ли использовать методику обучения плаванию 10-летних детей при обучении студентов.
Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, соответствуют жизненной ситуации.
Кроме того, она характеризует возможность обобщения переноса экспериментальных результатов на все жизненные условия — время, место, условия и группы людей.
Возможность переноса является следствием двух причин:
- когда условия эксперимента соответствуют его «первообразной» ситуации (репрезентативность эксперимента), например, исследование мотивации учащихся, есть репрезентативный эксперимент, потому что все они находятся в ситуации учебной деятельности и мотивированы на учебу;
- типичности ситуации для реальности (репрезентативность ситуации).
В эксперименте ситуация, выбранная для моделирования, может быть с точки зрения жизни совсем нерепрезентативной для испытуемых, может являться нетипичной, редкой.
Внешняя валидность делится на операциональную валидность и конструктную, которая объясняет поведение человека при прохождении им теста.
Кемпбелл говорит о причинах нарушения внешней валидности:
- Реактивный эффект или эффект тестирования – это возможное увеличение или уменьшение восприимчивости испытуемых к экспериментальному воздействию. Результаты тех, кто прошел предварительное тестирование, будут нерепрезентативны относительно тех, кто предварительному тестированию не подвергался;
- Условия, при которых организуется эксперимент, вызывают у испытуемого реакцию, значит, результат эксперимента нельзя переносить на тех, кто участия в эксперименте не принимал;
- Взаимная интерференция – испытуемые имеют память и обладают обучаемостью, и если эксперимент будет состоять из нескольких серий, то, безусловно, первые воздействия бесследно для них не пройдут и скажутся на появлении эффектов от последующих воздействий.
Провести «правильное» исследование с учетом всех условий и требований в реальной практике невозможно. Чаще бывает так, что невозможно подобрать репрезентативные выборки, исключить эффекты селекции, выбывания и возможность переноса результатов на всю популяцию.
Понятие «валидность тестов»
Краткая характеристика валидности тестов
Валидность результата теста является соответствием измеряемому признаку.
Валидность теста не применяется в статистических процедурах. Их (процедуры) можно использовать для доказательства, что разрабатываемая процедура психологических измерений имеет достаточную валидность. Они оценивают эмпирическую валидность.
Взаимосвязь между эмпирической и содержательной валидностью схожа с взаимосвязью статистической и экспериментальной гипотезами. Так как первые описывают причинно-следственные связи между фактом и явлением в эксперименте, а вторые – вероятную оценку результата, которая является базой для решения реальности. То содержательная валидность устанавливает связь между результатом теста и реальностью, а статистическая – содержит оценку валидизации эксперимента, которая считается инструментом для принятия решения.
Отсюда следует, что содержательная сторона валидизации отличается от понятия надежность, а эмпирическая сторона совпадает. Но сама по себе валидизация тестирования предполагает надежность психодиагностических методов. Высокая степень надежности не гарантия такой же валидизации. Но при этом снижение надежности тестирование ведет к снижению валидизации.
Характерные особенности эмпирической валидности
Она устанавливается внешним критерием, определяющий предметную область. Например, интеллектуальная шкала Д. Векслера WAIS, или тест Векслера включает в себя шесть заданий на вербальный интеллект, 5 – на невербальный, сенсомоторный интеллект. Задания называются субтестами, на базе результатов которых анализируют показатели интеллекта. Для оценивания шкалы вербального интеллекта используют уровень академической успеваемости, для невербальной – успешность канцелярской работы. Валидизация оценивается, с точки зрения соотношения между результатами тестирования и успеха в определенных видах деятельности. Такая валидность называется прагматической.
Определение прагматической валидизации
Считает, что валидность теста дает прогноз:
- личностных свойств человека;
- влияния на поведение индивида.
Она может не предполагать организацию соотношения. Оценивание валидизации тестирования основывается на:
- принципах квазиэксперимент;
- выделение контрастных групп.
Нужна помощь преподавателя?
Опиши задание — и наши эксперты тебе помогут!
Описать задание Замечание 1Разработка теста по оцениванию мотивации достижения школьников. Для этого есть все необходимые документы по успеваемости учеников. Класс делят на две группы:
- с низким уровнем успеваемости;
- с высоким уровнем успеваемости.
Самый грубый метод разделения – деление по медиане, надежный – исследования каждого ребенка и правильное соотнесение в ту или иную группу.
Например, для валидизации теста применяют только результаты успеваемости учеников, входящие в первый и четвертый квартили. В конечном итоге появляется квазиэкспериментальный план. Тогда значениями ковариаты будут результаты теста.
Данный ход в вылидной прагматике определяют ретроспективным.
Понятие проспективной, конструктивной и истинной валидности теста
Первый метод используют, когда только предполагается получить критерий валидности. Здесь испытуемые выбираются по принципу вероятностного прогноза проявления измеряемого признака в популяции. Это дает больше возможности оценить причинно-следственные связи между измеряемыми свойствами и формами поведения человека.
Замечание 2Конструктивная валидность используется, когда нет сомнений в валидизации тестирования.
Один из способов получения валидности является применение экспертных оценок. Их получает во время наблюдения за тестированием. Полученные результаты вносятся в таблицу, где в столбцах указывают оценки экспертов (k ), а в строках – оценки испытуемых (п). Главный фактор – согласованность полученных оценок, которую определяют при помощи критерия Кронбаха (α) или формулы Спирменаа-Брауна.
Истинная валидность тестирования определяется формулой:
где ryy – соотношение с «истинным критерием», rхх – эмпирическое соотношение с критерием, αс – надежность критерия, найденная по формуле Кронбаха.
Автор: Анна Коврова
Преподаватель факультета психологии кафедры общей психологии. Кандидат психологических наук
Качество информации
Вышла книга автора сайта!
Теоретическая валидизация в социологическом исследовании: Методология и методы
Качество получаемой информации: валидность и надежность
Построение выборки >> Качество информацииДля ученого-практика рассуждать о проблемах качества информации — высший пилотаж. Тебе тоже не помешает кое-что знать об этом.
0 Нажми, если пригодилось =ъ
Ссылка на эту страницу для научных и учебных работДембицкий С. Качество получаемой информации: валидность и надежность [Электронный ресурс]. — Режим доступа: http://soc-research.info/principles/7.html
Традиционно «валидность» является одной из ключевых категорий в анализе эмпирических данных как психологических, так и социологических исследований. В дальнейшем под валидностью будет пониматься степень соответствия результатов исследовательского процесса действительности [Johnston, 1980: р.190-191].
В рамках количественных исследований принято выделять конструктную, внешнюю и внутреннюю валидность. Первая связана с обеспечением правильности измерения, вторая и третья – с выявлением причинно следственных связей в рамках экспериментальных исследований [Lahm, 2007: р. 5173-5175]. Несмотря на то, что Дональд Кэмпбелл в свое время уделил немало внимания всем трем типам валидности [Кэмпбелл, 1996; Campbell and Fiske, 1959], сегодня все еще часто встречаются случаи «межурментизации» понятия валидность, во время которых в ранг ключевой возводится конструктная валидность, интегрирующая в себе очевидную, содержательную, внешнюю и другие виды валидности валидности [Messick, 1995: р. 745]. С точки зрения разработки тестов и других измерительных методик это может звучать логично. Однако в более широком контексте эмпирических исследований «межурментизация» является классическим примером косности, догматизма и нежелания признать очевидное. Такая позиция «оставляет за бортом» даже количественную экспериментальную традицию, не говоря уже о широком спектре подходов качественного толка.
Что касается качественных исследований, то проблема валидности не получила здесь однозначного решения. Вместе с тем, ее состояние полностью отвечает принципу пролиферации, предложенному в ранних работах Феерабента – каждый сможет найти то, что будет отвечать его личной методологической позиции.
Наибольшей известностью пользуется концепция Губы и Линкольн, впервые представленная еще в 1985 году [Miles and Hernandez Jozefowicz-Simbeni, 2010: p. 421-422]. В своей работе они говорят даже не о валидности, а о критериях оценки качества или строгости (rigor) качественных исследований. По мнению Губы и Линкольн, в качественных исследованиях необходимо говорить не о внутренней валидности, а о достоверности (credibility), не о внешней валидности, а о переносимости (transferability), не о надежности, а о функциональной надежности (dependability), наконец не об объективности, а о подтверждаемости (confirmability). Все они характеризуют достоверность (trustworthiness) исследования. Правдоподобие основывается на согласии участников исследования с формулировками, интерпретацией и вообще результатами анализа исследователя. Переносимость относится к способности концептов или конструктов, полученных в ходе исследования, быть применимыми к более широкому социальному контексту. Функциональная надежность имеет отношение к тому насколько правильно выбран тип данных и соответствующие методы их сбора в рамках того или иного качественного проекта. Подтверждаемость переносит «бремя» объективности с исследования на данные. Поэтому исследователь должен сделать все возможное для подтверждения полученных данных.
В еще одной известной работе [Patton, 2002: p. 552] интегральной характеристикой является уже достоверность (credibility), основывающаяся на строгости использования методов (rigorous methods), достоверности самого исследователя (credibility of the researcher) и его философских взглядах относительно особенностей качественного исследования (philosophical belief in the value of qualitative inquiry). Строгость использования методов необходима для получения высококачественных данных, открывающих возможность проведения систематического анализа. Достоверность исследователя основывается на его тренировках, опыте, достижениях и самопрезентации. А его философские взгляды должны включать признание натуралистичного исследования, качественных методов, индуктивного анализа, целенаправленной выборки и целостного мышления.
И даже в таких подходах, где одной из центральных категорией остается валидность, она сопоставляется с другими, центральными с точки зрения качественных исследований, понятиями. Так, в своей работе Максвелл [Maxwell, 1992: p. 285-293] указывает на то, что понимание является более важным понятием, чем валидность. Поэтому типы последней выводятся именно из специфики понимания, присущего качественным исследованиям (типы валидности характеризуют типы понимания). При этом он не считает, что качественный и количественный подходы к валидности являются несопоставимыми. Главное же условие соответствующей интеграции – их правильное понимание в их собственных терминах.
Максвелл выделяет три типа валидности – описательную, интерпретативную и теоретическую. Описательная валидность связана с тем правильно ли исследователь излагает в своей работе то, что он увидел и услышал во время исследования. Это первый и важнейший аспект валидности – неправильное описание поступков и слов людей перечеркнет дальнейшие попытки в достижении понимания изучаемого феномена. Вместе с тем, исследователь не только описывает слова и поступки людей, но объясняет их значение – интерпретирует данные. Отсюда понимание исследователем того, что принято называть перспективой участников исследования (особенности их интенции, восприятия, чувств, убеждений, оценок и т.д.), напрямую связано с интерпретативной валидностью. После того как исследователь достиг понимания на описательном и интерпретативном уровне, он готов перейти к построению теории, позволяющей подняться на более высокий уровень абстракции как в смысле выводов, так и в смысле терминологии. Если на предыдущих этапах исследователь фокусируется на понимании, то здесь он переходит к объяснению, являющемуся его завершающей фазой. Теоретическая валидность, имеющая решающее значение на этом этапе, должна давать оценку двум главным составляющим любой теории – используемым понятиям и взаимоотношениям, существующим между ними. В соответствии с этими двумя аспектами теории можно выделить и два аспекта теоретической валидности – валидность используемых понятий и валидность постулируемых взаимосвязей между ними.
Подход Максвелла представляется наиболее приемлемым в решении проблемы совместной валидизации в рамках качественных и количественных исследований. В этом случае в состав валидности входят такие ее типы: теоретическая, конструктная, внешняя, внутренняя и предсказательная. Теоретическая валидность указывает насколько теоретический конструкт, положенный в основу исследования, соответствует реальному социальному феномену. Конструктная валидность демонстрирует насколько измерительная методика и полученные на ее основе результаты соответствуют теоретическому конструкту. Внешняя валидность связана с тем насколько выборочная совокупность может выступать основой для обобщений в отношении других людей, контекстов и периодов. Внутренняя валидность показывает насколько измерения исследования подтверждают существование связей между переменными, а также насколько такие связи могут быть подтверждением причинно-следственной зависимости между ними. Предсказательная валидность связана с тем насколько теоретическая, внешняя и внутренняя валидности обеспечивают предсказательный потенциал исследования [Дембицкий, 2010].
По большей части достижение теоретической валидности является прерогативой качественного исследования, так как теория, построенная на основе тщательного изучения эмпирического мира, будет гораздо обоснованней, чем теория, основывающаяся на изучении литературы и, тем более, на здравом смысле исследователя. После достижения теоретической валидности можно переходить к решению других задач валидизации в рамках количественной парадигмы.
Категория «надежность» имеет отношение к устойчивости и согласованности полученных результатов. Остановимся на трех основных видах надежности:
А. Ретестовая надежность является характеристикой, показывающей, насколько результаты опроса с помощью конкретной методики меняются с течением времени. Определение ретестовой надежности приемлемо в случаях измерения устойчивых свойст, слабо подверженных изменениям в долгосрочной перспективе. Если соответствующая методика является надежной, то результаты первого и второго опросов должны показать устойчивые результаты. Если же первый и второй опрос согласованы слабо, то методика является ненадежной и не может использоваться в исследованиях. Величина ретестовой надежности определяется с помощью коэффициентов корреляции.
Важно помнить, что использование ретестовой надежности не подходит для тех методик, которые предназначены для измерения характеристик, находящихся в постоянном изменении. В данном случае низкая устойчивость укажет не на недостатки опросного инструмента, а на изменение социальной/психологической ситуации.
Б. Внутренняя надежность показывает, насколько согласованны результаты, полученные с помощью разных индикаторов, измеряющих один признак. Таким образом, этот вид надежности подходит для сложных составных шкал, опирающихся на группу показателей. Высокая внутренняя надежность будет продемонстрирована в том случае, когда результаты показателей изменяются в одном направлении. Одним из главных способов определения внутренней надежности является использование коэффициента Альфа Кронбаха.
Проверка внутренней согласованности необходима, прежде всего, для того, чтобы удостовериться измеряют ли индикаторы методики одно и то же свойство.
В. Надежность кодировки определяется в исследованиях с применением контент-анализа или же в других исследованиях, требующих кодировки текстового материала. Этот вид надежности показывает качество инструкций, служащих руководством при кодировке различных частей текста. Высокая согласованность работы различных кодировщиков говорит о том, что соответствующая инструкция составлена правильно.
Коэффициенты, используемые для определения надежности кодировки, зависят от характера свойств, подлежащих кодировки. Если свойство является количественным, можно использовать один из коэффициентов корреляции. Если же свойство является качественным, то подойдет, например, коэффициент Каппа Кохена.
В зависимости от особенностей исследования необходима проверка тех или иных видов валидности и надежности. В противном случае исследователь рискует получить результаты-артефакты, то есть результаты, порожденные особенностями проведения исследования, а не свойствами изучаемых объектов.
- default_titleJohnston J., Pennypacker H. Strategies and tactics of human behavioral research. – New Jersey: Erlbaum, 1980. – 210 p.
- default_titleLahm K. Quantitative validity // The Blackwell Encyclopedia of Sociology / ed. by George Ritzer. — Malden, Oxford, Carlton: Blackwell Publishing, 2007. — P. 5173-5175.
- default_titleКэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях. – М.: Социально-психологический центр, 1996. – 392 с.
- default_titleCampbell D., Fiske D. Convergent and Diskriminant Validation by the Multitrait-multimethod Matrix // Psychological Bulletin. – 1959. – № 2. – Р. 81–105.
- default_titleMessick S. Validity of Psychological Assessment // American Psychologist. — 1995. — №9. — P. 741-749.
- default_titleMiles B., Hernandez Jozefowicz-Simbeni D. Naturalistic Inuiry // The Handbook of Social Work Research Methods / ed. by B. Thyer. – Los Angeles; London; New Delhi; Singapore; Washington DC: Sage, 2010. — P. 415-424.
- default_titlePatton M. Qualitative evaluation and research methods. – Thousand Oaks: Sage, 2002.
- default_titleMaxwell J. Understanding and Validity in Qualitative Research // Harvard Educational Review. — 1992. — №3. — P. 279-300.
- default_titleДембицкий С. Теоретическая валидность и смещение данных в социологическом исследовании [Электронный ресурс]. – Режим доступа: http://www.ecsocman.edu.ru/soc-ua/msg/337817.html (обновленный вариант статьи)
- Show More
Что такое валидность теста
Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Валидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом.
Анализируя сложную ситуацию с валидностью педагогических тестов, Е.Михайлычев 16 отмечает, что педагогу, заинтересовавшемуся валидностью, трудно будет разобраться в том, что же это такое.
Ниже мы приведем несколько определений валидности теста.
ВАЛИДНОСТЬ означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование (В.Аванесов) 17 .
ВАЛИДНОСТЬ – это характеристика способности теста служить поставленной цели измерения (М.Челышкова) 7 .
ВАЛИДНОСТЬ – определяет, насколько тест отражает то, что он должен оценивать (А.Майоров) 18 .
Приведенные определения в целом перекликаются и являются практически равноценными. Мы несколько уточним определение, сделав акцент на цель тестирования. Тестирование как измерительная процедура, дает информацию, на основе которой в дальнейшем должно быть принято то или иное управленческое решение. Обоснованность этих решений, зачастую сильно влияющих на судьбу испытуемых, определяется надежностью и валидностью теста.
ВАЛИДНОСТЬ – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений.
После создания теста начинается процесс его валидизации. Приведем определение:
ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста 19 .
По нашему мнению ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.
Выделяют три вида валидности – содержательную, критериальную и конструктную 20 . А.Майоров приводит следующую диаграмму видов валидности 18 :
Рис.3.9.1. Виды валидности.
КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.
КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.
Имеется два вида критериальной валидности – текущая и прогностическая.
Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.
Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.
СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.
Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений 20 .
Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.
Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляетсяспецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области.
Согласно П.Клайну содержательная валидность определяется следующим образом:
1) указать категорию лиц, для которой предназначен тест;
2) составить список знаний, умений, навыков, подлежащих тестированию;
3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
4) на основе списка составить перечень заданий;
5) выполнить внешнюю экспертизу полученных заданий;
6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, который будет содержательно валидным.
Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инструмента.
По определению американского текстолога А.Анастази, «валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает». Валидность свидетельствует о том, пригодна ли методика для измерения определённых качеств, особенностей и насколько эффективно она это делает. Наиболее распространённым способом нахождения теоретической валидности теста (методики) является конвергентная валидность, то есть сопоставление данной методики с авторитетными родственными методиками и доказательство значимых связей с ними.
Сопоставление с методиками, имеющими другое теоретическое основание, и констанция отсутствия значимых связей с ними называется дискриминантной валидностью. Другой вид валидности – прагматическая валидность – проверка методики с точки зрения её практической значимости, эффективности, полезности. Для проведения такой проверки, как правило, используются так называемые независимые внешние критерии, то есть используется независимый от теста, внешний источник информации о проявлении в реальной жизни и деятельности людей измеряемого психического свойства. Среди таких внешних критериев могут быть успеваемость, профессиональные достижения, успехи в разных видах деятельности, субъективные оценки (или самооценки). Если например, методика измеряет особенности развития профессионально важных качеств, то для критерия необходимо найти такую деятельность или отдельные операции, где именно эти качества реализуются.
Для проверки валидности теса можно использовать метод известных групп, когда приглашаются люди, про которых известно, к какой группе по критерию они относятся (например, группа «высокоуспешных, дисциплинированных студентов» – высокий критерий и группа «неуспевающих, недисциплинированных студентов» – низкий критерий, а студенты со средними значениями не участвуют в тестировании), проводят тестирование и находят корреляцию между результатами теста и критерием.
высокий критерий | низкий критерий | |
высокий результат теста | a | b |
низкий результат теста | c | d |
Здесь a – число испытуемых, попавших в высокую группу по тесту и по критерию, c – число испытуемых, попавших в высокую группу по критерию и имеющих низкие результаты теста. При полной валидности теста элементы b и c должны быть равны нулю. Меру совпадения, корреляции между крайними группами по тесту и критерию оценивают с помощью фи-коэффициента Гилфорда. Существует достаточно много разных способов доказательства валидности теста. Тест называется валидным, если он измеряет то, для измерения чего предназначен. Валидность внешняя – применительно психодиагностических методик означает соответствие результатов психодиагностики, проводимой посредством данной методики, независимым от методики внешним признакам, относимым к субъекту обследования. Означает примерно то же самое, что валидность эмпирическая, с той разницей, что здесь речь идёт о связи между показателями методики и самыми важными, ключевыми внешними признаками, относимыми к поведению испытуемого. Психодиагностическая методика считается внешне валидной, если, например, её посредством оцениваются черты характера индивида и его внешне наблюдаемое поведение согласуется с результатами проведённого тестирования.
Валидность внутренняя – применительно психодиагностических методик означает соответствие содержащих в ней заданий, субтестов; соответствие результатов психодиагностики, проводимой посредством данной методики, определению оцениваемого психологического свойства, использованному в самой методике. Методика считается внутренне не валидной или недостаточно валидной, когда все или часть включённых в неё вопросов, заданий и субтестов измеряют не то, что требуется данной методикой. Очевидная валидность – описывает представление о тесте, сложившиеся у испытуемого. Тест должен восприниматься обследуемым как серьёзный инструмент познания его личности. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с помощью которых читателю предлагается определить всё, что угодно: от интеллекта до совместимости с будущим супругом.
Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый? Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого-нибудь теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия – чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта. Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов. Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.
Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен), которые как еже указывалось, тестами, собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты. Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил, которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчёркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:1) существует ли реально некоторое свойство; 2) надёжно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.
Из вышесказанного следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надёжности и дискриминативности, нельзя осуществить точные статистические расчёты, подтверждающие валидность методики. Тем не менее, разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции. Несмотря на то, что проблеме валидности в классической теории теста уделяется много внимания, теоретически она никак не решается. Приоритет отдан надёжности, что и выражено в правиле: валидность теста не может быть больше его надежности. Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше – другие переменные (в том числе внешние), тем тест валидней. Валидность – одна из важнейших характеристик психодиагностических методик и тестов, один из основных критериев их качества. Это понятие близко к понятию достоверности, но не вполне тождественно. Проблема валидности возникает в ходе разработки и практического применения теста или методики, когда требуется установить соответствие между степенью выраженности интересующего свойства личности и методом его измерения. Валидность указывает, что именно тест или методика измеряет и насколько хорошо это делает; чем они валиднее, тем лучше отображается в них то качество, ради измерения которого они создавались. Количественно валидность может выражаться через корреляции результатов, полученных с помощью теста или методики, с другими показателями, – например, с успешностью выполнения соответственной деятельности. Валидность можно обосновать разными путями, чаще всего – комплексно. Применяются также дополнительные понятия валидности концептуальной, критериальной, конструктивной, и прочие виды валидности – со своими способами установления их уровня. Требование валидности весьма важно, и многие нарекания в адрес тестов или иных психодиагностических методик связаны с сомнительностью их валидности. Например, валидность измерения интеллекта зависит:
1) от определения понятия интеллекта, являющего ту или иную концепцию этого феномена;
2) от состава тестовых заданий, разрабатываемых согласно этой концепции;
3) от эмпирических критериев.
Разные концепции требуют различного состава заданий, поэтому важен вопрос валидности концептуальной. Чем больше задания соответствуют данной авторской концепции интеллекта, тем уверенней можно говорить о концептуальной валидности теста. Корреляция теста в эмперическим критерием указывает на его возможную валидность по отношению к данному критерию. Определение валидности теста всегда требует постановки дополнительных вопросов: валидность для чего? Для какой цели? По какому критерию?
Не нашли то, что искали? Воспользуйтесь поиском:
Краткий психологический словарь. — Ростов-на-Дону: «ФЕНИКС» . Л.А.Карпенко, А.В.Петровский, М. Г. Ярошевский . 1998 .
Психологический словарь . И.М. Кондаков . 2000 .
Большой психологический словарь. — М.: Прайм-ЕВРОЗНАК . Под ред. Б.Г. Мещерякова, акад. В.П. Зинченко . 2003 .
Смотреть что такое «валидность теста» в других словарях:
Валидность Теста — действительная способность теста измерять ту психологическую характеристику, для диагностики которой он заявлен. Количественно валидность теста может выражаться через корреляции результатов, полученных с его помощью, с другими показателями,… … Психологический словарь
Валидность теста — – адекватность и действенность теста, важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен оценивать, насколько отдельные составляющие его пробы… … Словарь-справочник по социальной работе
валидность теста — testo val >Sporto terminų žodynas
ВАЛИДНОСТЬ ТЕСТА — ВАЛИДНОСТЬ (от лат. val >Новый словарь методических терминов и понятий (теория и практика обучения языкам)
Валидность теста — (отангл. val >Словарь-справочник по педагогической психологии
Валидность теста — (отангл. val >Словарь по педагогической психологии
валидность теста — (от англ. val >Энциклопедический словарь по психологии и педагогике
валидность теста по критерию — критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества… … Энциклопедический словарь по психологии и педагогике
валидность теста по содержанию — критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров. Если, например, нужно проверить с… … Энциклопедический словарь по психологии и педагогике
валидность теста конструктивная — критерий качества теста, используемый при измерении какого либо сложного психического феномена, имеющего иерархическую структуру, измерить который из за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без… … Энциклопедический словарь по психологии и педагогике
Валидность теста (от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста.
Различают несколько видов валидность теста:
- валидность теста конструктная,
- валидность теста по критерию,
- валидность теста по содержанию,
- прогностическая валидность теста и др.
Валидность лучших тестов, выраженная коэффициентами корреляции (линейными, ранговыми и др.) составляет 0,3-0,8. К сожалению, есть случаи, когда тесты применяются без проверки их на в. В результате оказывается, что они бесполезны или даже вредны. Валидность теста – это показатель степени его эффективности. Она, естественно, меняется в зависимости от контингента людей, которые подвергаются тестированию, и характера их будущей деятельности. Один и тот же тест может быть высоковалидным для одной ситуации, бесполезным для другой и вредным для третьей.
Валидность теста конструктная
критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект», его структуры. Степень соответсвия нашего предварительного понимания и определения интеллекта реальной возможности конкретного теста, степень соответствия структуры интеллеткта структуре теста и есть в.т.к. Она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.
Валидность теста по критерию
критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества личности на практике. Например, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых на протяжении достаточно продолжительного времени в интересующем нас аспекте. Оценка должна даваться по шкале порядковой, интервальной или отношений. В лучших тестах в. по критерию, измеренная коэффициентом корреляции, составляет от 0,3 до 0,8. Применение теста оправдано, если валидность по критерию оставляет 0,2-0,25.
Валидность теста по содержанию
критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров. Если, например, нужно проверить с помощью теста математическую подготовку абитуриента вуза, то в предлагаемый тест должны быть включены математические задания, для решения которых необходимы знания по всем разделам математики, изучаемым в средней школе. Таким образом, степень соответствия структуры данного теста структуре программы математических дисциплин, изучаемых в школе, и является валидностью данного теста по содержанию. Естественно, что для обследования лиц, окончивших вузы, предназначаются тесты с иной вялидностью по содержанию.
Валидность теста прогностическая
критерий качества теста, используемый при предсказании характера развития измеряемого параметра в будущем. Одним из самых существенных недостатков подобных тестов является то, что они не учитывают неравномерность развития измеряемого параметра у различных людей в будущем. Данный вид валидности является особо ценным с практической точки зрения.
Валидность эксперимента
критерий качества эксперимента, степень его точности, в зависимости от которой выводы, полученные в его ходе могут быть распространены на всю генеральную совокупность. В.э. позволяет определить насколько всеобщими могут быть выводы, полученные путем исследования ограниченной по времени и обьему выборки. Различают внутреннюю и внешнюю валидность эксперимента.
Валидность эксперимента внешняя
критерий качества эксперимента, в зависимости от которого выводы об определенной тенденции, закономерности развития конкретных психических явлений, личностей, видов деятельности и т.д. могут быть распространены на другие явления и т.д. в данной или иной сфере. Языком математики это можно сформулировать так: насколько закономерности данного подмножества характерны для всего множества. Для определения границ применения экспериментальных выводов и необходимо определять в.э.в.
Валидность эксперимента внутренняя
критерий качества эксперимента, используемый при выяснении степени достоверности выявленной в результате эксперимента тенденции, закономерности, характерной для данной единицы множества или для всего подмножества элементов генеральной совокупности. Допустим, исследуя степень влияния освещенности на эффективность производственной деятельности ткачих, психологи обнаружили статистическую зависимость их эффективности работы от частоты смены освещения. Что является основным фактором повышения эффективности деятельности: смена освещения, внимание экспериментаторов, особое поведение руководителей в период эксперимента или другие факторы? В данном случае психологи пришли к выводу: появление молодых мужчин-исследователй в цехе, где работали женщины, и послужило причиной повышения производительности их труда. Но ведь могла быть и принята гипотеза о росте производительности ткацкого труда в зависимости от смены освещенности. В.э.в. показывает в какой степени независимая переменная (производительность труда) связана с зависимой (освещенность). Строго научное проведение психологического эксперимента предполагает определение его валидности.
Валидность в психологии: типы и определение — видео и стенограмма урока
Construct Validity
Вы, вероятно, уже знакомы с определением конструкции. Конструкция — это атрибут, навык или способность, основанные на установленных теориях и существующие в человеческом мозгу. Интеллект, тревога и депрессия — все это примеры конструктов. Достоверность конструкции — это степень, в которой тест измеряет конструкт, который он должен измерять.Другими словами, насколько хорошо BAI измеряет теоретическую концепцию тревоги? Для установления валидности конструкта необходимо изучить многочисленные исследования, в которых используется BAI. Есть два необходимых компонента валидности конструкции: конвергентной и дискриминантной валидности.
Предположим, что при чтении руководства вы обнаружили, что BAI сильно коррелирует с рейтинговой шкалой Гамильтона (HRS) и опросником состояния тревожности (STAI), которые представляют собой два ранее проверенных показателя тревожности.Это устанавливает конвергентную действительность . Конвергентная достоверность — это степень, в которой измерение согласуется с другими измерениями, оценивающими ту же конструкцию.
Вы также обнаружили, что BAI имеет низкую корреляцию с инвентаризацией депрессии Бека, которая предназначена для измерения депрессии. Это устанавливает дискриминантной действительности . Дискриминантная валидность — это степень, в которой измерение , а не коррелирует с другими измерениями, которые оценивают различных концепций , так что оно различает эти две конструкции.
Срок действия содержимого
Вы также читали в руководстве, что элементы BAI были выбраны на основе их сходства с критериями тревожных расстройств, приведенными в «Руководстве по диагностике и статистике психических расстройств» . Кроме того, эти предметы охватывают весь спектр тревожных симптомов, включая симптомы паники и генерализованные тревожные расстройства. Это устанавливает достоверность содержания BAI. Измерение имеет достоверность содержимого , когда его элементы охватывают все аспекты измеряемой конструкции.Другими словами, достоверность контента позволяет нам знать, адекватно ли элементы BAI охватывают все области, вызывающие беспокойство.
Действительность, связанная с критерием относится к степени, в которой измерение может точно предсказать конкретные переменные критерия. Параллельная валидность и прогностическая валидность — это два типа валидности, связанной с критериями. Одновременная достоверность включает измерения, которые выполняются в одно и то же время, в то время как прогнозирующая достоверность включает одно измерение, прогнозирующее будущую эффективность другого.
Предположим, вы обнаружили значительную корреляцию между оценками по BAI и оценками по HRS и STAI. Вы установили параллельную валидность, то есть степень, в которой оценки по измерению соответствуют другим измерениям, которые уже были признаны действительными.
Если баллы BAI значительно коррелируют с людьми, у которых в будущем будет диагностировано тревожное расстройство, BAI имеет прогностическую достоверность. Прогностическая достоверность — это степень, в которой баллы по оцениваемому измерению соответствуют другому критериальному измерению, которое проводится в будущем.В нашем примере диагноз тревожности (измерение критерия) ставится после введения BAI (оцениваемого теста).
Почему важна действительность?
Предположим, что через несколько недель после того, как вы вводили BAI своему клиенту, вы узнали, что BAI не измеряет тревожность, как предполагалось. Что это значит для вашего клиента? Это означает, что интерпретации результатов BAI, которые вы сделали, в зависимости от уровня тревожности вашего клиента, были недействительными. В результате любые выводы, сделанные вами на основе теста, будут неточными.Например, если вы диагностировали у своего клиента тревогу на основе результатов BAI, ваш диагноз был бы неправильным, поскольку тест не измерял тревожность.
Проведенные вами лечебные вмешательства, вероятно, будут неэффективными, поскольку ваш клиент на самом деле не испытывает беспокойства. Если вы решили помочь своему клиенту получить лекарства от тревожности, вы обнаружите, что они не помогают или не ухудшают состояние вашего клиента. Здесь вы можете понять, почему в психологии важна обоснованность. Без достоверности результаты вашей оценки совершенно бесполезны, и ваши попытки помочь клиенту, используя информацию из оценки, могут в конечном итоге навредить вашему клиенту.
Итоги урока
Давайте рассмотрим. Действительность относится к степени, в которой тест измеряет то, что он должен измерять. Есть три типа действительности. Действительность конструкции , то есть степень, в которой тест измеряет конструкт, который он должен измерять. Двумя необходимыми компонентами валидности конструкции являются конвергентной и дискриминантной валидности . Достоверность содержимого относится к тому, представляют ли элементы измерения все аспекты измеряемой конструкции.
Действительность, связанная с критерием относится к степени, в которой измерение может точно предсказать конкретные переменные критерия. Одновременная достоверность и прогнозируемая достоверность — это два типа достоверности, связанной с критериями. Чтобы тест был валидным, он должен иметь валидность конструкции, валидность содержания и валидность, связанную с критериями. Итак, в следующий раз, когда кто-нибудь придет к вам в офис для оценки, не забудьте вытащить руководство по тестированию и поискать доказательства его валидности.
Результаты обучения
Посмотрев этот урок и расширив свои знания о валидности в психологии, вы впоследствии могли бы перейти к:
- Опишите валидность в отношении тестирования и психологии
- Контрастная достоверность конструкции и достоверность содержания
- Определите, какой критерий достоверности относится к
- Понять важность действительности
Прогностическая валидность в психологии: определение и примеры — видео и стенограмма урока
Пример
Давайте рассмотрим пример, который поможет объяснить предсказательную достоверность в более практическом контексте.
Работодатели довольно часто просят соискателей пройти оценку личности в рамках процесса подачи заявления на трудоустройство. Соискателю это не всегда может показаться очевидным, но многие онлайн-заявки будут включать ряд вопросов, предназначенных для оценки различных личностных качеств. Возьмем для примера такую личностную черту, как сознательность. Поскольку добросовестность положительно коррелирует с такими вещами, как честность, своевременность и хорошие организационные навыки, вполне логично, что работодатели хотели бы нанимать людей с такими качествами.
Итак, какое это имеет отношение к достоверности прогнозов? Что ж, если оценка личности, используемая в процессе подачи заявки, не позволяет точно определить и измерить добросовестность соискателя, то результаты оценки не предоставят информацию, имеющую какую-либо прогностическую ценность для менеджеров по найму. Если работодатели хотят добросовестных сотрудников, им нужно быть уверенными в том, что они выбирают добросовестных сотрудников, верно?
Требуются время и усилия для разработки инструментов оценки, обладающих высокой прогностической достоверностью.Если вы хотите по-настоящему оценить сознательность, вы не можете просто спросить кого-нибудь, насколько они сознательны. Типичные элементы оценки будут основаны на некотором поведении, которое сильно или слабо коррелирует с рассматриваемой конструкцией. Например, поскольку мы знаем, что своевременность связана с добросовестностью, вопрос оценки может быть таким: «Когда я опаздываю на встречу, я обычно звоню, чтобы сообщить, почему: верно или неверно». Естественно, человек, который выбирает истину, вероятно, будет действовать сознательно.Однако своевременность — это только один из аспектов добросовестности, поэтому типичная оценка добросовестности должна включать множество вопросов, предназначенных для выявления различных аспектов добросовестности.
После того, как вопросы для оценивания будут разработаны, группе испытуемых будет предоставлена оценка, и их попросят ответить на все вопросы. Те, кто набрал высокие баллы по оценке добросовестности, позже будут оценены на рабочем месте. Если будет замечено, что эти люди действуют вовремя, честны и организованы, разработчики оценки могут сказать, что их инструмент оценки эффективен с точки зрения использования и оценки добросовестности.Другими словами, они могут сказать, что их оценка имеет прогностическую ценность.
Краткое содержание урока
Действительность указывает на то, насколько хорошо тест или оценка фактически измеряет то, что они намереваются измерить. Прогностическая достоверность фокусируется на том, насколько хорошо инструмент оценки может предсказать результат некоторой другой отдельной, но связанной меры. Прогностическая достоверность важна в деловом и академическом секторах, где важен выбор правильного кандидата или прием правильных студентов.Меры, имеющие высокий уровень прогностической достоверности, могут упростить процесс выбора и повысить точность.
Как узнать?
За прошедшие годы было разработано множество способов прогнозирования поведения человека. Возможность использовать оценку как средство измерения индивидуального поведения пользуется большим спросом как в академической, так и в корпоративной сферах. Процесс разработки таких оценок должен быть протестирован и исследован, процесс, который требует времени и постоянного обновления.
Результат обучения
Изучив этот урок, вы сможете описать роль, которую валидность и прогностическая валидность играют в создании точной оценки.
Срок действия | tutor2u
Действительность относится к тому, действительно ли мера измеряет то, что, по ее утверждению, измеряет . Ниже рассматриваются некоторые ключевые типы действительности.
Лицевая валидность
Лицевая валидность — это мера того, выглядит ли субъективно многообещающим, что инструмент измеряет то, что он должен измерять
- e.грамм. Можно заметить, что люди с более высокими баллами на экзаменах получают более высокие баллы по анкете IQ; вы не можете быть уверены, что они напрямую связаны, но на первый взгляд кажется, что результаты экзаменов являются разумным показателем оценки IQ, поэтому ваша мера показывает хорошую достоверность лица.
Внутренняя достоверность
Внутренняя достоверность — это мера того, влияют ли на полученные результаты только изменения переменной, которой манипулируют (то есть независимой переменной) в причинно-следственной связи.Двумя ключевыми типами внутренней валидности являются:
- Конструктивная валидность — спрашивает, успешно ли мера измеряет концепцию , для которой она должна быть (например, измеряет ли вопросник IQ или что-то связанное, но существенно отличающееся?).
- Параллельная валидность — спрашивает, согласуется ли мера с ранее существовавшими мерами, которые прошли валидацию для проверки той же [или очень похожей] концепции (измеряемой путем сопоставления мер друг с другом).
Внутренняя достоверность может быть оценена на основании того, успешно ли контролируются или устраняются посторонние (т.е. нежелательные) переменные, которые также могут повлиять на результаты; чем больше контроль над такими переменными, тем больше уверенность в том, что можно найти причину и следствие, относящиеся к исследуемой конструкции.
Внешняя достоверность
Внешняя достоверность — это мера того, можно ли обобщить данные на другие ситуации за пределами исследовательской среды, в которой они были изначально собраны.Два ключевых типа внешней валидности:
- Временная валидность — это высокий показатель, когда результаты исследования успешно применяются в течение времени (некоторые переменные в прошлом могут больше не иметь значения сейчас или в будущем).
- например Изменения отношения к гендерным ролям с течением времени могут снизить временную достоверность данных прошлых экспериментов в применении к современным исследованиям.
- Экологическая достоверность — можно ли обобщить данные для реального мира , на основе условий, в которых проводится исследование, и задействованных процедур.
- например Лабораторные исследования могут обеспечить высокую степень контроля над посторонними переменными, которые в противном случае изменились бы в естественной среде, поэтому результаты могут считаться слишком «искусственными» и, следовательно, иметь низкую экологическую ценность.
- Однако мыши, например, могут вести себя одинаково в лаборатории и в дикой природе, поэтому лабораторные эксперименты, вероятно, все еще могут поддерживать здесь высокую экологическую значимость.
- например Лабораторные исследования могут обеспечить высокую степень контроля над посторонними переменными, которые в противном случае изменились бы в естественной среде, поэтому результаты могут считаться слишком «искусственными» и, следовательно, иметь низкую экологическую ценность.
Внешнюю валидность эксперимента можно оценить и улучшить, повторив исследование в разное время и в разных местах и получив аналогичные результаты.Например, уверенность в универсальности [и, в свою очередь, во внешней достоверности] результатов повышается, когда исследования успешно тиражируются в разных культурах.
типов действительности | Psych Yogi
Типы валидности
Есть много типов валидности, и их знание чрезвычайно полезно для достижения наивысших возможных оценок на экзамене OCR A2 Psychology.
Срок действия
Во-первых, что такое срок действия?
Достоверность означает степень, в которой результаты или выводы исследования фактически измеряют то, что, по их утверждениям, измеряется.
Например: предположим, мы хотим измерить длину стола. Итак, достаем рулетку и затем приступаем к измерению высоты ножек стола.
Что не так?
Ну, мы не меряли длину стола. Вместо этого мы измерили высоту стола. Итак, наши измерения длины стола недействительны. Однако, если бы мы намеревались измерить высоту стола, наши измерения были бы действительными, потому что мы измерили высоту стола.
Внутренняя валидность
Внутренняя валидность — это мера измерения зависимой переменной экспериментатором.
Например: предположим, что экспериментатор хочет измерить время реакции человека, и для этого он использует человека с секундомером.
Вы видите проблему с этим измерением?
Проблема в том, что человек с секундомером тоже должен среагировать. Таким образом, можно ожидать, что это измерение неверно.
Лучшим способом измерения этой зависимой переменной было бы использование видеокамеры.Таким образом, экспериментатору не нужно полагаться на время реакции другого человека для измерения зависимой переменной. Таким образом, делая его более актуальным.
Внешний срок действия
Внешний срок действия делится на два типа. Экологическая ценность и популяционная ценность.
Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены. Важно иметь высокий уровень внешней валидности, потому что это напрямую влияет на полезность результатов и выводов исследования.
Экологическая валидность
Экологическая валидность означает степень, в которой результаты и выводы могут быть обобщены в реальной жизни.
На экологическую значимость в основном влияет задача, которую должны выполнить участники. Многие говорят, что именно методология, например, лабораторных экспериментов, влияет на экологическую обоснованность, но это не обязательно так. Можно провести лабораторный эксперимент, который имеет высокую экологическую ценность, потому что задача, которую должны выполнить участники, соответствует реальной жизни.
Рассмотрим пример. Представьте, что вы экспериментатор и изучаете психологию покупательского взаимодействия с продавцом.
Вы решили использовать лабораторный эксперимент, потому что он дает вам лучший контроль над посторонними переменными.
Вы открыли фальшивый магазин, который в точности такой же, как и в реальной жизни. Затем вы просите участников пойти в магазин и купить предметы, которые они обычно покупают. Это, хотя и лабораторный эксперимент, имеет высокую экологическую ценность, потому что задача, которую должны выполнить участники, соответствует реальной жизни.
Популяционная валидность
Популяционная валидность относится к степени, в которой выборка может быть обобщена на аналогичные и более широкие группы населения.
Этот тип достоверности важен, потому что без него исследования теряют свою полезность.
Рассмотрим пример.
Предположим, мы изучаем влияние прослушивания Моцарта на IQ (эффект Моцарта).
Итак, мы решили, что будем использовать выборку людей с высоким IQ, и используем случайную выборку.Эта выборка будет иметь высокую популяционную достоверность для людей с высоким IQ, но в основном потому, что мы использовали случайную выборку. Однако эта выборка будет иметь низкую достоверность для всех остальных, потому что выборка чрезвычайно ограничена.
Временная валидность
Временная валидность относится к степени, в которой результаты и выводы исследования действительны, когда мы рассматриваем различия и прогрессии, происходящие со временем.
Исследования, которые действительны во времени, будут либо недавними исследованиями, либо исследованиями, которые рассматривают то, что не изменилось с момента завершения исследования, например, исследование представлений людей о росте, проведенное 50 лет назад, может иметь высокую временную достоверность, потому что общество не изменил своих взглядов на высоту.Однако исследование телевизионной рекламы в семидесятые и восьмидесятые годы может быть временно недействительным сегодня из-за большого количества доступных в настоящее время телевизионных каналов по сравнению с немногими каналами, которые были доступны тогда. (Взгляните на это исследование в качестве примера, который можно считать низким по временной достоверности: Cowpe 1989)
Face Validity
Face Validity
Face validity означает степень, в которой исследование выглядит для измерения того, что, по его утверждению, измеряется.
Это тип достоверности, на который вы должны ссылаться в наименьшей степени, потому что это не очень хорошая точка оценки, внутренняя валидность была бы лучшим типом валидности для использования.Фактическая валидность может быть вам полезна, потому что вы можете легко использовать ее в качестве точки оценки на экзамене по психологии OCR A2, если вы ничего не понимаете и не можете придумать другую точку оценки.
Исследование с высокой достоверностью может выглядеть так, как будто оно измеряет то, что исследователь намеревается измерить, но это не обязательно означает, что исследование — это исследование , измеряющее то, на что он претендует.
Рассмотрим пример.
Предположим, мы пытаемся измерить влияние просмотра страшного фильма на уровень стресса участников.
Мы показываем участникам страшный фильм и измеряем у них уровень кортизола до и после.
Кортизол вырабатывается в ответ на стресс, это означает, что на первый взгляд это исследование выглядит так, как будто оно измеряет влияние страшного фильма на уровень стресса участников. Поэтому он имеет высокую лицевую достоверность.
Однако мы не учитывали влияние того, что участники не ели во время просмотра фильма.
Мы понимаем, что отказ от еды снижает уровень глюкозы в крови наших участников, что также вызывает выработку кортизола.Это означает, что наше исследование, хотя имеет высокую внешнюю валидность, имеет низкую внутреннюю валидность.
Срок действия теста
Срок действия теста состоит из нескольких составляющих.
Срок действия теста — это степень, в которой результаты исследования или теста могут иметь значение.
Рассмотрим пример.
Предположим, мы измеряем интеллект людей. Мы могли бы использовать тест на IQ. Мы можем утверждать, что тест IQ имеет высокий уровень достоверности, потому что мы видим, что это хорошо зарекомендовавший себя тест.
Действительность конструкции
Действительность конструкции относится к степени, в которой исследование или тест измеряет концепцию, на которую оно претендует.
Существует два типа конструктивной достоверности: конвергентная достоверность и дискриминирующая достоверность.
Рассмотрим пример.
Предположим, мы изучаем «Модель веры в здоровье» Беккера (1978).
Мы обнаруживаем, что существует несколько когнитивных эвристик, которые люди используют, когда они рассматривают возможность поведения, связанного со здоровьем.Все они присутствуют в модели веры в здоровье. Таким образом, мы можем утверждать, что наше исследование имеет высокую конструктивную достоверность.
Конвергентная валидность
Конвергентная валидность относится к степени, в которой тестируемые конструкции связаны друг с другом.
Дискриминационная валидность
Дискриминационная валидность относится к степени, в которой протестированные конструкции, не имеющие отношения, действительно не имеют взаимосвязи друг с другом.
Валидность контента
Валидность контента хорошо следует из валидности конструкции, поскольку валидность контента относится к степени, в которой исследование или тест сопоставляются со всеми элементами конструкции.
Например, предположим, что мы смотрим на влияние стресса на производительность труда.
Мы просим наших участников ответить на вопросы анкеты о том, насколько, по их мнению, на них влияет стресс на рабочем месте и насколько он влияет на их производительность.
Мы могли бы возразить, что это низкая валидность содержания, потому что на самом деле не проверялось влияние стресса на производительность труда.
Достоверность критерия
Достоверность критерия относится к степени достоверности результатов и выводов по сравнению с другими показателями.
Срок действия критерия делится на два типа достоверности: прогнозируемая достоверность и одновременная достоверность.
Прогнозная достоверность
Прогнозная достоверность означает степень, в которой результаты и выводы могут быть использованы для прогнозирования реальных приложений исследования.
Рассмотрим пример.
Предположим, мы изучаем влияние мысли, что за вами наблюдают, на поведение.
Наше исследование является копией нескольких или других исследований, которые были проведены ранее.
Даем участникам задачу выполнить. Во время выполнения задачи они столкнутся с несколькими признаками, указывающими на то, что они находятся под наблюдением, например, «за вами наблюдают операторы видеонаблюдения».
Это исследование может иметь прогностическую ценность для аналогичных ситуаций.
Обычно достоверность прогнозов подтверждается повторением результатов с течением времени.
Параллельная валидность
Параллельная валидность означает степень, в которой результаты и выводы совпадают с другими исследованиями и доказательствами.
Рассмотрим пример.
Милгрэм (1963) изучал эффекты подчинения власти. Результаты Милгрэма совпадают со многими повторениями исследования. Таким образом, исследование Милгрэма имело высокую параллельную силу.
Достоверность статистического заключения
Достоверность статистического вывода относится к степени, в которой мы можем получить статистически значимые результаты, то есть мы можем установить причину и следствие выше случайности.
Обычно в психологических исследованиях вероятность устанавливается равной 5% или> 0.05 шанс. Это означает, что если результаты выше 5%, мы примем нашу альтернативную гипотезу и отклоним нашу нулевую гипотезу. Это предполагает наличие причины и следствия между переменными. Если результаты ниже 5%, мы примем нашу нулевую гипотезу. Если результат ниже 5% вероятности, это означает, что мы не можем установить причинно-следственную связь, потому что результаты возникли случайно.
Действительность репрезентации
Действительность репрезентации, которая также известна как трансляционная валидность, относится к степени, в которой изучаемый конструкт или концепт может быть переведен в реальную жизнь.
Диагностическая валидность
Диагностическая валидность не часто используется в спецификации психологии OCR A2. Чаще всего он используется в клинических условиях. Диагностическая достоверность относится к степени точности диагноза, поставленного в отношении состояния.
Инструментальная достоверность
Инструментальная достоверность относится к степени, в которой инструменты, используемые для измерения зависимых переменных, являются правильными для этого измерения.
Например, возвращаясь к нашему исследованию таблицы ранее.Предположим, теперь мы правильно измеряем длину стола, но потом понимаем, что наша рулетка неточная. Таким образом, инструментальная достоверность нашего исследования была низкой.
Дополнительная литература
Десять лучших советов по пересмотру психологии Psych Yogi для A * ученика
Резюме
Название статьи
Типы действительности
Описание
Типы валидности Есть много типов валидности и знания, тогда чрезвычайно полезен для достижения максимально возможных оценок в вашем OCR A2
Автор
Psych Yogi
Перейти к основному содержанию ПоискПоиск
- Где угодно
Поиск Поиск
Расширенный поиск- Войти | регистр
- Подписка / продление
- Учреждения
- Индивидуальные подписки
- Индивидуальные продления
- Библиотекари
- Тарифы, заказы и платежи 9044 Чикагский пакет
- Полный охват и охват содержимого
- Файлы KBART и RSS-каналы
- Разрешения и перепечатка
- Инициатива развивающихся стран Чикаго
- Даты отправки и претензии
- Часто задаваемые вопросы библиотекарей
- Тарифы, заказы, и платежи
- Полный пакет Chicago
- Полный охват и содержание
- Даты отправки и претензии
- Часто задаваемые вопросы агента
- О нас
- Публикуйте у нас
- Недавно приобретенные журналы
- Издательская номинация tners
- Подпишитесь на уведомления eTOC
- Пресс-релизы
- СМИ
- Книги издательства Чикагского университета
- Распределительный центр в Чикаго
- Чикагский университет
- Положения и условия
- Заявление о публикационной этике
- Уведомление о конфиденциальности
- Доступность Chicago Journals
- Доступность университета
- Следуйте за нами на facebook
- Следуйте за нами в Twitter
- Свяжитесь с нами
- Медиа и рекламные запросы
- Открытый доступ в Чикаго
- Следуйте за нами на facebook
- Следуйте за нами в Twitter
Статистическая достоверность | Психология Вики
Оценка |
Биопсихология |
Сравнительный |
Познавательная |
Развивающий |
Язык |
Индивидуальные различия |
Личность |
Философия |
Социальные |
Методы |
Статистика |
Клиническая |
Образовательная |
Промышленное |
Профессиональные товары |
Мировая психология |
Статистика: Научный метод · Методы исследования · Экспериментальная дизайн · Курсы бакалавриата по статистике · Статистические тесты · Теория игры · Теория принятия решений
В психологии валидность имеет две различные области применения.Первый включает в себя валидность теста , концепция, которая эволюционировала вместе с областью психометрии: «Валидность означает степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов, вытекающую из предлагаемого использования тестов» [1] . Второй включает исследовательский дизайн . Здесь термин относится к степени, в которой исследование поддерживает предполагаемый вывод, сделанный на основе результатов. В традиции Кэмпбелла это относится к степени поддержки вывода о том, что причинная переменная вызвала эффект.
В отличие от валидности теста, оценка валидности дизайна исследования обычно не включает сбор данных или статистический анализ, а скорее оценку дизайна относительно желаемого заключения на основе преобладающих стандартов и теории дизайна исследования.
Срок действия теста []
Надежность и действительность []
Раннее определение валидности теста отождествляло ее со степенью корреляции между тестом и критерием.Под этим определением можно показать, что надежность теста и критерия устанавливает верхний предел возможной корреляции между ними (так называемый коэффициент достоверности). Интуитивно это отражает тот факт, что надежность предполагает отсутствие случайных ошибок, а случайные ошибки не коррелируют друг с другом. Таким образом, чем меньше случайная ошибка в переменных, тем выше возможная корреляция между ними. Согласно этим определениям, тест не может иметь высокую достоверность, если он также не обладает высокой надежностью.Однако концепция достоверности существенно расширилась за пределы этого раннего определения, и классическая взаимосвязь между надежностью и действительностью не обязательна для альтернативных концепций надежности и действительности. В рамках классической теории тестирования предсказательная или одновременная валидность (корреляция между предсказателем и предсказанным) не может превышать квадратный корень из корреляции между двумя версиями одного и того же показателя, то есть надежность ограничивает валидность.
Типы []
Валидность теста можно оценить несколькими способами, и тщательная валидация теста обычно включает в себя более одной линии доказательств в поддержку валидности метода оценки (например,грамм. структурированное интервью, личный опрос и т. д.). Текущие стандарты образовательного и психологического тестирования следуют за Сэмюэлем Мессиком в обсуждении различных типов свидетельств действительности для единого итогового суждения о валидности. К ним относятся доказательства, связанные с построением, доказательствами, связанными с содержанием, и доказательствами, связанными с критериями, которые подразделяются на два подтипа (параллельные и прогнозирующие) в зависимости от времени сбора данных.
Конструктивная валидность свидетельство включает эмпирическую и теоретическую поддержку интерпретации конструкта.Такие доказательства включают статистический анализ внутренней структуры теста, включая взаимосвязь между ответами на различные вопросы теста. Они также включают отношения между тестом и показателями других конструкций. В настоящее время понимается, что валидность конструкта не отличается от поддержки основной теории конструкта, для измерения которого предназначен тест. Таким образом, эксперименты, предназначенные для выявления аспектов причинной роли конструкции, также способствуют построению достоверных доказательств.
Достоверность содержимого свидетельство включает в себя степень, в которой содержимое теста соответствует домену содержимого, связанному с конструкцией. Например, тест на умение складывать двузначные числа должен охватывать весь диапазон комбинаций цифр. Тест только с однозначными числами или только с четными числами не обеспечит хорошего охвата предметной области. Свидетельства, относящиеся к содержанию, обычно включают в себя экспертов в предметной области (SME), оценивающих элементы тестирования в соответствии со спецификациями тестирования.
Свидетельство достоверности критерия включает корреляцию между тестом и критериальной переменной (или переменными), взятой в качестве репрезентативной для конструкции. Например, тесты по отбору сотрудников часто сравниваются с показателями производительности труда. Меры риска рецидивизма среди осужденных за преступление могут быть проверены по сравнению с мерами рецидивизма. Если данные теста и данные критерия собираются одновременно, это называется свидетельством одновременной достоверности.Если сначала собираются тестовые данные, чтобы предсказать данные критериев, собранные в более поздний момент времени, то это называется доказательством достоверности прогноза.
Действительность конструкции []
Валидность конструкции относится к совокупности свидетельств того, адекватно ли конкретная операционализация конструкции представляет то, что предполагается теоретическим расчетом измеряемой конструкции. (Продемонстрируйте, что элемент действителен, связав его с другим предположительно действительным элементом.)
Существует два подхода к построению достоверности, иногда называемые «конвергентной достоверностью» и «дивергентной достоверностью» (или дискриминантной достоверностью).
Конвергентная действительность []
Конвергентная достоверность относится к степени, в которой мера коррелирует с другими мерами, с которыми, согласно теоретическим прогнозам, коррелируют.
Дискриминантная валидность []
Дискриминантная валидность описывает степень, в которой операционализация не коррелирует с другими операционализацией, с которыми она теоретически не должна коррелироваться.
Срок действия []
Валидность контента — это нестатистический тип валидности, который включает «систематическое изучение контента теста, чтобы определить, охватывает ли он репрезентативную выборку области поведения, которую нужно измерить» (Анастаси и Урбина, 1997, стр. 114).
Тест имеет достоверность содержимого , встроенную в него путем тщательного выбора элементов для включения (Anastasi & Urbina, 1997). Пункты выбираются таким образом, чтобы они соответствовали спецификации теста, составленной путем тщательного изучения предметной области.Foxcraft et al. (2004, стр. 49) отмечают, что, используя группу экспертов для анализа спецификаций теста и выбора элементов, можно повысить достоверность содержания теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли они репрезентативный образец области поведения.
Срок действия представления []
Срок действия представления также известен как действительность перевода.
Срок действия []
Лицевая валидность — это оценка того, соответствует ли тест определенному критерию; это не гарантирует, что тест действительно измеряет явления в этой области.В самом деле, когда тест подвергается фальсификации (симуляции), низкая валидность может сделать тест более достоверным.
Действительность лица очень тесно связана с достоверностью содержимого. В то время как валидность содержания зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка дополнительных навыков хорошую меру для математических навыков? — Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметики математические навыки включают) лицевую валидность в зависимости от того, является ли тест хорошей мерой или нет.Это суждение выносится на основе теста, поэтому оно также может быть оценено любителем.
Критерий достоверности []
Достоверность, связанная с критериями, отражает успешность мер, используемых для прогнозирования или оценки. Существует два типа валидности, связанной с критериями: одновременная и прогностическая валидность. Хороший пример валидности, связанной с критериями, — это валидация тестов отбора сотрудников; в этом случае оценки за тест или набор тестов коррелируют с оценками производительности сотрудников.
Одновременное действие []
Параллельная валидность относится к степени, в которой операционализация коррелирует с другими показателями той же конструкции, которые измеряются в то же время. Возвращаясь к примеру выборочного теста, это будет означать, что тесты проводятся для текущих сотрудников, а затем коррелируются с их оценками в обзорах производительности.
Прогностическая достоверность []
Прогностическая достоверность относится к степени, в которой операционализация может прогнозировать (или коррелировать) с другими показателями той же конструкции, которые измеряются в какой-то момент в будущем.Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся для соискателей, все кандидаты принимаются на работу, их результаты проверяются позже, а затем их баллы по двум показателям сопоставляются.
Кэмпбелл и Стэнли (1963) определяют внутреннюю валидность как основные требования для интерпретации эксперимента. Имел ли эксперимент значение в данном случае? Внешняя валидность решает вопрос об обобщаемости — на кого мы можем обобщить результаты этого эксперимента?
Внутренняя действительность []
Внутренняя валидность — это индуктивная оценка степени вероятности того, что выводы о причинах взаимоотношений будут верными с учетом используемых мер, условий исследования и всего плана исследования.Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую изучается в строго контролируемых условиях, обычно допускают более высокую степень внутренней валидности, чем, например, планы для одного случая.
Восемь посторонних переменных могут помешать внутренней валидности:
- История , конкретные события, происходящие между первым и вторым измерениями в дополнение к экспериментальным переменным
- Созревание , процессы внутри участников как функция течения времени (не относящиеся к конкретным событиям), e.g., становясь старше, голоднее, более уставшим и т. д.
- Тестирование , влияние прохождения теста на результаты второго тестирования.
- Контрольно-измерительные приборы , изменения в калибровке средства измерения или изменения наблюдателей или счетчиков могут привести к изменениям в полученных измерениях.
- Статистическая регрессия , работающая, когда группы отбираются на основе их крайних баллов.
- Выборка , систематические ошибки, возникшие в результате дифференциального отбора респондентов для групп сравнения.
- Экспериментальная смертность , или дифференциальная потеря респондентов из групп сравнения.
- Взаимодействие отбор-созревание и т. Д., Например, в квазиэкспериментальных планах с несколькими группами
Преднамеренная достоверность []
В какой степени выбранные конструкции и меры адекватно оценивают то, что исследование было предназначено для изучения?
Внешнее действие []
Проблема внешней достоверности касается вопроса о том, в какой степени можно безопасно обобщить (внутренне достоверный) причинный вывод (а) от исследуемой выборки на определенную целевую совокупность и (б) на другие популяции (т.е. во времени и пространстве).
Четыре фактора, ставящие под угрозу внешнюю валидность или репрезентативность:
- Реактивный или интерактивный эффект тестирования , предварительный тест может увеличить баллы на посттесте
- Эффекты взаимодействия смещения выборки и экспериментальной переменной .
- Реактивные эффекты экспериментальных мероприятий , которые исключают обобщение о влиянии экспериментальной переменной на людей, подвергшихся ее воздействию в неэкспериментальных условиях
- Интерференция нескольких процедур , где невозможно стереть эффекты предыдущих обработок.
Экологичность []
Экологическая достоверность — это то, могут ли результаты быть применены к реальным жизненным ситуациям. Этот вопрос тесно связан с внешней достоверностью и охватывает вопрос, в какой степени ваши экспериментальные результаты отражают то, что вы можете наблюдать в реальном мире (экология = наука о взаимодействии между организмом и окружающей его средой).
Обычно в науке есть две области исследований: пассивно-наблюдательные и активно-экспериментальные. Цель экспериментальных планов — проверить причинно-следственную связь, чтобы вы могли сделать вывод, что A вызывает B или B вызывает A.Но иногда этические и / или метологические ограничения мешают вам провести эксперимент (например, как изоляция влияет на когнитивные функции ребенка?). Тогда вы все равно можете проводить исследования, но это не причинно, а корреляционно, A происходит вместе с B. У обоих методов есть свои сильные и слабые стороны. Чтобы получить экспериментальный план, вы должны контролировать все мешающие переменные. Вот почему вы проводите свой эксперимент в лабораторных условиях. Обретая внутреннюю достоверность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую значимость, потому что вы создаете искусственную лабораторную обстановку.
С другой стороны, с помощью наблюдательных исследований вы не можете контролировать мешающие переменные (низкая внутренняя достоверность), но вы можете проводить измерения в естественной (экологической) среде, то есть в месте, где происходит поведение.
См. Также []
Ссылки []
- ↑ Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерениям в образовании. (1999). Стандарты учебно-психологического тестирования .Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
Внешние ссылки []
4.2 Надежность и достоверность измерения — методы исследования в психологии
Цели обучения
- Определите надежность, включая различные типы и способы их оценки.
- Определите срок действия, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это очень важный момент.Психологи не просто предполагают, что их меры работают. Вместо этого они собирают данные для , чтобы продемонстрировать , что они работают. Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если в этот момент ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами.Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломан, и либо почините его, либо избавьтесь от него. Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.
НадежностьНадежность относится к последовательности меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).
Тестирование-повторное тестированиеКогда исследователи измеряют конструкт, который, по их мнению, является согласованным во времени, полученные ими оценки также должны быть согласованными во времени. Надежность повторных испытаний — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же оценки на следующей неделе, что и сегодня.Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Для оценки надежности повторного тестирования необходимо использовать показатель для группы людей за один раз, использовать его снова на той же группе людей позже, а затем посмотреть на корреляцию тест-повторный тест между двумя наборами оценки. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления коэффициента корреляции.На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю. Коэффициент корреляции для этих данных равен +,95. Как правило, корреляция между тестами и повторными тестами, равная +80 или выше, считается показателем хорошей надежности.
Рисунок 4.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученными два раза в неделю с разницей
Опять же, высокая корреляция между тестами и ретестами имеет смысл, когда предполагается, что измеряемый конструкт будет постоянным во времени, что имеет место в случае интеллекта, самооценки и измерений личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и повторными тестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованностьДругой вид надежности — это внутренняя согласованность , которая представляет собой согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут стабильно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов состоит в том, чтобы посмотреть на корреляцию и половину . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 4.3 показана корреляция половин между результатами нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных равен +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рисунок 4.3 Распределенная корреляция между результатами нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга
Возможно, наиболее распространенной мерой внутренней согласованности, используемой исследователями в области психологии, является статистика, называемая α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, значение +80 или больше обычно берется, чтобы указать на хорошую внутреннюю согласованность.
Надежность InterraterМногие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика. Надежность между экспертами — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы хотите измерить социальные навыки студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Срок действияДействительность — это степень, в которой оценки из меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения действительности обычно делят его на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Срок действияЛицевая достоверность — это степень, в которой метод измерения проявляется «на поверхности» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что он должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не дословные ответы участников на эти вопросы, а, скорее, то, соответствует ли характер ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимогоДостоверность содержимого — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать как нервные переживания, так и негативные мысли. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той степени, в которой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерияДостоверность критерия — это степень, в которой оценки людей по показателю коррелируют с другими переменными (известными как критерии ), с которыми можно было бы ожидать их корреляцию.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерий может быть любой переменной, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелировать с общим беспокойством и с артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноубординг и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как предсказательная достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими установленными показателями тех же конструктов.Это известно как конвергентная достоверность .
Оценка конвергентной достоверности требует сбора данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидностьДискриминантная валидность , с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
Основные выводы
- Исследователи-психологи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
- Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами).Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
- Действительность — это судебное решение, основанное на различных типах доказательств. Соответствующие свидетельства включают надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.