Конструктная валидность: Pictorial Model of Construct Validity

Автор: | 13.02.1972

Содержание

Конструктная валидность — это… Что такое Конструктная валидность?

Констру́ктная вали́дность (концептуальная, понятийная валидность) — частный случай операциональной валидности, степень адекватности метода интерпретации экспериментальных данных теории, которая определяется правильностью употребления терминов той или иной теории.

Конструктная валидность, обоснованная Л.Кронбахом в 1955г., характеризуется способностью теста к измерению такой черты, которая была обоснована теоретически (как теоретический конструкт). Когда сложно найти адекватный прагматический критерий, может быть выбрана ориентация на гипотезы, сформулированные на основе теоретических предположений об измеряемом свойстве. Подтверждение этих гипотез свидетельствует о теоретической обоснованности методики. Сначала необходимо, насколько возможно полно, содержательно описать конструкт, для измерения которого предназначен тест. Это достигается за счет формулирования гипотез о нем, предписывающих, с чем данный конструкт должен коррелировать, а с чем не должен.

После чего данные гипотезы проверяются. Это наиболее эффективный способ валидизации для личностных опросников, для которых установление единственного критерия их обоснованности является затруднительным.

Конструктная валидность является наиболее комплексным и сложным видом валидности. Вместо одного результата (прежде всего прагматического) необходимо учитывать множество (чаще всего собственно психологических). Конструктная валидность имеет отношение к попыткам обозначения любых аспектов эксперимента. Опасности нарушения конструктной валидности заключаются в неправильном обозначении причины и эффекта с помощью абстрактных терминов, терминов, взятых из обыденного языка или формальной теории.

Источник

  • Зароченцев К. Д., Худяков А. И. Экспериментальная психология: учеб. — М.: Проспект, 2005. C. 69.
  • Клайн П. Справочное руководство по конструированию тестов. М.,1993.
  • Купер К. Индивидуальные различия / Пер. с англ. Т.М. Марютиной; Под. ред. И.В. Равич-Щербо. М.: Аспект Пресс, 2000.

См. также

Что нужно знать о валидности заказчику оценки — FORMATTA

На осенней конференции «Оценка персонала» журнала «Штат» генеральный директор Formatta Евгений Куприянов выступал с докладом о валидности оценки. Мы публикуем текст его выступления. Это не научный доклад, а статья-обзор для заказчиков оценки: на простых и понятных примерах вы узнаете, что такое валидность и при каком показателе валидности оценка экономически оправдана.

Тема валидности становится всё популярнее в HR-сообществе. В 90-е, когда российские компании только начинали привлекать оценку персонала для решения бизнес-задач, акцент делали на разработке инструментов и методов, а их валидность интересовала далеко не всех заказчиков. Затем стало модно говорить о валидности, и многие провайдеры, пользуясь тем, что заказчики недостаточно разбирались в теме, предъявляли мифические 0,95 как показатель валидности своих инструментов.
Сегодня мы наблюдаем другую тенденцию: академический подход к измерению валидности проник в бизнес. Всё меньше компаний доверяют мифическим показателям и всё чаще требуют от провайдера результатов исследования валидности оценочного инструмента.

Какие значения может принимать валидность

Валидность — это коэффициент корреляции между результатами оценки и независимым критерием: мы выбираем внешний критерий и смотрим,
насколько результаты оценки ему соответствуют и насколько мы можем доверять прогнозу, который делаем по итогам оценки.

Этот коэффициент принимает значения от минус единицы до единицы. Чем выше валидность, тем выше точность прогноза. Если валидность равна нулю, значит, взаимосвязи между результатами оценки и выбранным критерием нет: количество ошибок и точных прогнозов примерно одинаково. Бывает отрицательная валидность: в этом случае прогноз по итогам оценки будет оправдываться «наоборот».

Валидность бывает нескольких видов — это зависит от внешнего критерия,
с которым сравнивают результаты проведённой оценки. Остановимся подробнее на каждом виде валидности и критериях её измерения.

Виды валидности и критерии


для её измерения

Конструктная валидность — внешним критерием становятся результаты другого инструмента оценки, который измеряет те же характеристики. К примеру, мы хотим измерить конструктную валидность мотивационного опросника: находим инструмент, которые оценивает те же факторы мотивации, и сравниваем результаты двух инструментов. Конструктная валидность показывает, насколько они соотносятся между собой.

Конкурентная валидность — сравниваем результаты оценки выбранного инструмента с показателями текущей или прошлой эффективности. Это может быть балл в системе performance management, результаты обучения, показатели продаж, коэффициент удовлетворённости клиента сервисом.

Прогностическая валидность показывает, насколько соотносятся результаты оценки и показатели будущей эффективности сотрудника. Это самые интересные для компании данные: они говорят, насколько себя оправдает прогноз по результатам оценки. Но прогностическую валидность труднее всего измерить
из-за ограничения выборки. К примеру, мы оценили 100 продавцов, у 15 из них показатели продаж оказались низкие, скорее всего, мы не сможем оценить их в следующем цикле: их уволят.

Инкрементная валидность — сравниваем, насколько повысилась корреляция
при добавлении нового инструмента в уже существующую оценочную процедуру.

Провайдеры, как правило, считают валидность так, как им удобно и выгодно.
Если из всех видов валидности инструмента самые высокие показатели у конструктной, в маркетинговых материалах укажут именно эту цифру.
Поэтому всегда уточняйте, о каком виде валидности говорит провайдер,
когда приводит показатель валидности.

Что означают показатели валидности на практике

На практике почти не встречается валидность выше 0,7. Если провайдер заявляет
эту цифру, уточните, о каком виде валидности идёт речь и как она рассчитывалась. Показатель 0,7 может быть только в том случае, если провайдер измерял валидность комбинацией разных оценочных инструментов.

ВалидностьЕсли выбрать 20% лучших сотрудников по итогам оценки
Нет валидности04 из 20 будут в числе лучших
Средняя валидность0,37 из 20 будут в числе лучших
Высокая валидность0,610 из 20 будут в числе лучших

 

ВалидностьЕсли выбрать 20% лучших сотрудников по итогам оценки
Нет валидности01 из 5 будет в числе худших
Средняя валидность0,31 из 10 будет в числе худших
Высокая валидность0,61 из 50 будет в числе худших

Посмотрим, что означают эти цифры на практике: к примеру, вы оценили 100 сотрудников и выбрали 20 лучших по итогам оценки. Если вы использовали инструмент со средней валидностью, то из выбранных 20 участников только семеро будут в числе лучших 20%.

Если же вы оценивали 100 сотрудников инструментом с высокой валидностью, то в числе 20% лучших окажутся десять из выбранных двадцати по итогам оценки. При этом результаты выше среднего покажут 17 из этих 20 сотрудников.

Если вы знаете валидность инструмента, вы можете посчитать точность прогноза, который сделаете по результатам оценки. К примеру, вы используете инструмент с валидностью 0,3. Разделите этот показатель на 2 и прибавьте 50% — получится 65%. С такой вероятностью прогноз по итогам оценки окажется достоверным,
если за 50% принять случайное угадывание.

3 уровня проверки валидности

Если вы используете инструмент оценки, у вас есть три уровня проверки
его валидности:

Во-первых, вы можете посмотреть, насколько велика валидность метода оценки. К примеру, вы покупаете у провайдера тесты способностей. Чтобы оценить их валидность, используйте мета-анализы — эта процедура объединяет показатели валидности, полученные на разных инструментах и выборках от нескольких исследователей. С их помощью вы определите среднюю валидность тестов
как метода оценки. Классическим считается мета-анализ Шмидта и Хантера 1998 года.

Во-вторых, вы можете узнать валидность инструмента — тех конкретных тестов способностей, которые вы покупаете. Эти данные вам должен предоставить провайдер.

Наконец, вы можете посмотреть, насколько конкретный инструмент валиден
для ваших задач.
Чтобы посчитать валидность инструмента на ваших данных:

1. Оцените при помощи инструмента не менее 200 сотрудников одной группы должностей — это минимальная выборка. Чем больше человек вы оцените,
тем более надёжные цифры получите.

2. Выберите критерий, относительно которого будете проверять валидность. Например, оценка результативности руководителем.

3. Оцените надёжность этого критерия. Критерием могут быть объективные данные — например, показатели производительности. В этом случае его можно считать надёжным. Оценка эффективности руководителем — субъективные данные, надёжность этого критерия будет низкой.

4. Посмотрите, нет ли у вас ограничения выборки. Например, если вы используете тесты при подборе, кандидаты с низкими результатами обычно просто не попадают на работу.

5. Проверьте свои данные: насколько они полные, корректные и однородные. Если в качестве внешнего критерия вы выбрали показатели продаж, проверьте, что все данные по продажам соответствуют тому менеджеру, который продавал. Это поможет избавиться от некорректных данных: к примеру, сотрудник в отпуске, а на него записаны продажи другого.

6. Посчитайте сам показатель валидности: обычно это коэффициент корреляции или регрессии, с учётом тех поправок, которые мы упомянули выше. Для начала можно воспользоваться самыми простыми показателями. Например, коэффициентом корреляции Спирмена — его можно посчитать даже в MS Excel.

У вас получился показатель валидности конкретного инструмента на ваших данных. Он показывает, насколько достоверным будет прогноз, который вы сделаете по результатам оценки при помощи этого инструмента.

23. Конструктная валидность. Конвергентная и дискриминантная валидности

Читайте также

21. Определения валидности. Важнейшие составляющие валидности

21. Определения валидности. Важнейшие составляющие валидности Валидность (англ. valid – «действительный, пригодный, имеющий силу») – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической

22. Основные типы валидности. Понятие «комплекса валидности». Обоснование необходимости периодической валидизации психодиагностических методик

22. Основные типы валидности. Понятие «комплекса валидности». Обоснование необходимости периодической валидизации психодиагностических методик Классификация типов валидности в достаточной мере условна, так как нередко для различных критериев валидности применяются

24. Факторная валидность

24. Факторная валидность Факторная валидность. Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными

25. Дифференциальная валидность. Валидность по возрастной дифференциации

25. Дифференциальная валидность. Валидность по возрастной дифференциации Дифференциальная валидность – вид конструктной валидности, рассматривающей внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической

26.

 Критериальная валидность

26. Критериальная валидность Критериальная валидность – комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве критерия

27. Синтетическая и инкрементная валидности

27. Синтетическая и инкрементная валидности Синтетическая валидность. Более эффективным с точки зрения практической направленности теста (его адекватности как средства диагноза и прогноза реальной деятельности) является соотнесение результатов с критериальными

28. Текущая и эмпирическая валидности

28. Текущая и эмпирическая валидности Текущая валидность (диагностическая, конкурентная) – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В более узком

29. Прогностическая валидность

29. Прогностическая валидность Прогностическая валидность – информация о том, с какой степенью точности и обоснованности методика (тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. Прогностическая валидность

32. Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности

32. Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности Соответствие теста измеряемому психическому свойству называется валидностью теста. На валидность теста негативно влияют случайные факторы, поэтому в психометрике принято

Глава 5.

Оценка валидности утверждений

Глава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представленных в устной форме. Эта методика была

Валидность

Валидность В каждом исследовании есть переменные и отношения между ними. Поэтому, когда мы хотим описать исследование, центральным является конструкт переменных: какого вида различия изучаются и какими способами? Если мы хотим выйти за рамки описания и перейти к оценке

Причины искажения валидности

Причины искажения валидности Как мы увидели, конечной целью планирования исследования всегда является достижение валидных выводов об изучаемом феномене. Неудачный исследовательский план ставит валидность под сомнение, не устраняя спорных моментов и ограничивая

Валидность

Валидность При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то

Глава 5. Оценка валидности утверждений

Глава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представ-, ленных в устной форме. Эта методика была

Валидность

Валидность Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим

Для примера конструктной валидности рассмотрим серию исследований,

Для примера конструктной валидности рассмотрим серию исследований, проведенных Уолтером Мишелем — ученым, занимающимся психологией личности, — и его коллегами. Мишель интересовался вопросом, почему дети бывают нетерпеливы, почему они иногда хотят чего-то «прямо сейчас» и почему им трудно ждать. Мишель придумал конструкт, который назвал «задержка удовольствия» и попытался разработать для него подходящий способ измерения. Его исследовательская программа показала, что задержка удовольствия валидна как конструкт и соответствует общей когнитивно-социальной теории личности, а также валидность разработанных им измерений.

Одно простое измерение, придуманное Мишелем, состояло в том, чтобы попросить детей выбрать между маленькой наградой, доступной в этот же момент, и большей, но при условии, что ее выдадут спустя некоторое время.

Мишель предположил, что если неспособность к задержке удовольствия является неотъемлемой особенностью маленьких детей, то старшие дети должны охотнее ждать большую награду. Эти рассуждения привели к очевидному эксперименту (процитировано в Mischel, 1981), в ходе которого дети выполнили небольшое задание, а затем им сказали:

Я бы хотел раздать каждому из вас по конфете, но сегодня я взял с собой очень мало вот таких (показывая большую конфету). Поэтому вы можете либо взять такую (показывая маленькую конфету) прямо сейчас, или, если хотите, можете подождать такую (показывая), которую я принесу в следующий четверг (неделей позже).

Mischel, 1981, р. 164-Результаты подтвердили предположение Мишеля: немедленное (но маленькое) вознаграждение было выбрано 81% 7-летних, 48% 8-летних и 20% 9-летних детей.
Естественно, одного этого эксперимента недостаточно для того, чтобы установить валидность задержки удовольствия как конструкта или процедуры измерений, предложенной Мишелем, поэтому он продолжил разработку серии экспериментов, исследуя возможные взаимосвязи между изучаемым конструктом и другими признанными конструктами. Например, он обнаружил, что дети, решившие отложить удовольствие, были также эмоционально более зрелыми, сильнее нацелены на успех, вероятность делинквентности для них была ниже, а вероятность стать социально ответственными — выше (Mischel, 1981). Таким образом, на основании ряда исследований, результаты которых подтвердили сделанные предположения, задержка удовольствия была признана валидным конструктом.

Валидность конструктная | Psylist.net

Валидность конструктная — один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т. д. Иначе говоря, В. к. определяет область теоретической структуры психологических явлений, измеряемых тестом.

Поскольку проявления таких конструктов, как, напр., интеллект в деятельности человека многообразны и неоднозначны с т. з. их выделения, процедура установления В. к. по сравнению с валидностью критериальной или валидностью содержательной сложна.

При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное накопление разнообразной информации о динамике развития измеряемого свойства, а также о его взаимодействии с другими психическими явлениями.

Среди конкретных методов характеристики В. к. в первую очередь необходимо назвать сопоставление исследуемого на предмет В. к. теста с другими методиками, конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом указывает на то, что разрабатываемый тест «измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика. Такая процедура валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве независимого критерия.

Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе В. к. не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с т. з. создания параллельной формы теста. Смысл процедуры В. к. состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.

При анализе В. к. методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом В. к. характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно. Эти подходы определяются как конвергентная (проверка степени близости прямой или обратной связи) и дискриминантная (установление отсутствия связи) валидизации. Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений В. к. В англоязычной психодиагностике такое операциональное определение В. к. обозначается как «предполагаемая валидность» (assumed validity).

Прямое отношение к характеристике В. к. имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленное™ в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важность такой процедуры является основанием для выделения ее в особый вид В. к. — факторную валидность.

Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. Следует отметить, что критерий внутренней согласованности указывает лишь на меру связи всего содержания теста с измеряемым конструктом, давая лишь косвенную информацию о природе измеряемого свойства.

При определении В. к. важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из таких подходов является применение критерия возрастной дифференциации (см. Валидность по возрастной дифференциации), что предусматривает согласование результатов теста с ожидаемыми изменениями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап развития. Этот метод В. к. особенно важен для валидизации тестов интеллекта, достижений в обучении.

В комплекс сведений о В. к. методики входят также данные, относящиеся к сфере критериальной и содержательной валидности. Так, критерии, используемые при валидизации, несут информацию, позволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики В. к. необходимы связь с практическими формами деятельности, достоверность прогноза реального поведения. Однако В. к. является качественно более высоким и комплексным уровнем описания теста, характеризуя область измеряемого поведения в широких психологических понятиях. Благодаря данным В. к. мы можем с психологических позиций закономерно объяснить результаты теста и их дисперсию, обосновать диагноз, введя измеряемое свойство в систему психологических категорий, прогнозировать поведение в более широких пределах, чем это задается областью деятельности, для которой определялась содержательная валидность.

В качестве примера, иллюстрирующего необходимость глубокого анализа теоретического конструкта, лежащего в основе конкретной методики, для правильного применения теста и интерпретации его результатов, можно привести сопоставление двух популярных опросников личностных «Проявления тревожности» шкалы (MAS) и варианта Айзенка личностных опросников EPI. Корреляционные исследования показывают, что шкала «тревожности» MAS положительно коррелирует со шкалой «нейротизма» и отрицательно — со шкалой «экстраверсии» EPI. С т. з. концепции Айзенка, эти данные можно рассматривать как свидетельство низкой валидности шкалы MAS: «тревожность» коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой т. з. MAS оказывается просто нечувствительным к особой разновидности «нейротизма» — нейротизму (тревожности) экстравертов: из перечня пунктов MAS исключены высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с теоретических позиций К. Спенса и Дж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом — следствием дефекта данного диагностического средства. Согласно К. Спенсу, пытавшемуся переносить на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйва — неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация, по Айзенку) и интроверсии (неспецифическая активация) (Практикум по психодиагностике, 1984). Таким образом, названия тестов не всегда однозначно выражают понятия об измеряемом свойстве. В данном примере особенно подчеркивается роль психологической теории, лежащей в основе методики для раскрытия содержания показателей, получаемых с ее помощью.

Вконтакте

Facebook

Twitter

Одноклассники

Похожие материалы в разделе Словари:

Пример 3. Конструктная валидность

Для примера конструктной валидности рассмотрим серию исследований, проведенных Уолтером Мишелем — ученым, занимающимся психологией личности, — и его коллегами. Мишель интересовался вопросом, почему дети бывают нетерпеливы, почему они иногда хотят чего-то «прямо сейчас» и почему им трудно ждать. Мишель придумал конструкт, который назвал «задержка удовольствия» и попытался разработать для него подходящий способ измерения. Его исследовательская программа показала, что задержка удовольствия валидна как конструкт и соответствует общей когнитивно-социальной теории личности, а также валидность разработанных им измерений.

Одно простое измерение, придуманное Мишелем, состояло в том, чтобы попросить детей выбрать между маленькой наградой, доступной в этот же момент, и большей, но при условии, что ее выдадут спустя некоторое время. Мишель предположил, что если неспособность к задержке удовольствия является неотъемлемой особенностью маленьких детей, то старшие дети должны охотнее ждать большую награду. Эти рассуждения привели к очевидному эксперименту (процитировано в Mischel, 1981), в ходе которого дети выполнили небольшое задание, а затем им сказали:

Я бы хотел раздать каждому из вас по конфете, но сегодня я взял с собой очень мало вот таких (показывая большую конфету). Поэтому вы можете либо взять такую (показывая маленькую конфету) прямо сейчас, или, если хотите, можете подождать такую (показывая), которую я принесу в следующий четверг (неделей позже).

Mischel, 1981, р. 164-165

Результаты подтвердили предположение Мишеля: немедленное (но маленькое) вознаграждение было выбрано 81% 7-летних, 48% 8-летних и 20% 9-летних детей.

Естественно, одного этого эксперимента недостаточно для того, чтобы установить валидность задержки удовольствия как конструкта или процедуры измерений, предложенной Мишелем, поэтому он продолжил разработку серии экспериментов, исследуя возможные взаимосвязи между изучаемым конструктом и другими признанными конструктами. Например, он обнаружил, что дети, решившие

отложить удовольствие, были также эмоционально более зрелыми, сильнее нацелены на успех, вероятность делинквентности для них была ниже, а вероятность стать социально ответственными — выше (Mischel, 1981). Таким образом, на основании ряда исследований, результаты которых подтвердили сделанные предположения, задержка удовольствия была признана валидным конструктом.

Надежность и валидность

Чтобы измерение имело ценность для психологического исследования, оно должно обладать одновременно и надежностью, и валидностью. Надежность важна для формирования уверенности в том, что проводимое измерение приближает к истинному значению, а валидность важна, так как она указывает, что измеряется именно то, что вы предполагаете. Обратите внимание, что валидность предполагает надежность, а обратное не верно. Надежные измерения могут не быть валидными, но валидные должны быть надежными.

Проиллюстрировать это можно на простом примере. Из главы 1 вы получили некоторые сведения о френологии — популярной в XIX в. теории, утверждающей, что можно определить «способности» человека по форме его черепа. После обсуждения проблемы надежности вы можете сделать вывод, что френологические измерения черепа действительно обладали высокой надежностью — расстояние между точкой, расположенной пятью сантиметрами выше вашего левого уха, и другой, находящейся пятью сантиметрами выше вашего правого уха, не сильно изменится от измерения к измерению. Однако утверждение, что при измерении определяется «деструктивная» способность человека, — это совсем другое дело. Мы уверены, что измерение черепа не является валидным измерением деструктивно-сти, поскольку оно не кажется нам разумным (очевидная валидность), на основании его невозможно предсказать проявление агрессивности (критериальная валидность), а также потому, что оно не согласуется с другими исследованиями конструктов, связанных с деструктивностью, таких как импульсивность, или исследованиями функций мозга (конструктная валидность).

Вопрос надежности и валидности имеет также этическую сторону, особенно если результаты измерений используются для принятия решений, касающихся жизни людей. Студентов принимают или нет в учебные заведения, людей берут или нет на работу, кому-то ставят психиатрический диагноз и предоставляют лечение — и все это на основании измерений способностей или оценки особенностей поведения. Если вы ищете работу и ваши оценки по некоторому тесту являются решающим показателем, то вы испытаете законное разочарование, узнав, что тест не был достаточно надежным и валидным.

И последнее замечание. В этой главе понятие валидности обсуждалось в контексте темы измерений. Как вы узнаете из следующей главы, валидными могут быть не только измерения психологических конструктов. Валидность также в более общем смысле характеризует весь исследовательский проект. По отношению к измерениям валидность означает, что используемый инструмент измеряет именно то, что должен. В более широком смысле валидность характеризует правильность проведения экспериментов и проверки гипотезы.

Конструктная валидность. Учет в кросс-культурных исследованиях конструктной валидности

Выше приведенная дискуссия не означает, что в кросс-культурном исследовании не следует использовать те или иные формы тестирования. Существуют ситуации, в которых проведение тестирования полезно. Повторим мнение, высказанное ранее: если психолог пытается предсказать показатели успеваемости для учеников школы, состоящих из представителей среднего класса, то тесты для этой категории могут оказаться вполне хорошими. Однако отметим разницу между утверждением «Этот ребенок вряд ли будет хорошо учиться в этой школе» и «ребенок глуп».

Мы можем статистически контролировать те переменные, которые коррелируют с изучаемой зависимой переменной. Например, если существует фактор социально одобряемого реагирования, то можно его контролировать путем статистической «стандартизации» данных.

 

Общие комментарии

Ясно, что при тестировании возникает много ошибок, и  нужно быть очень внимательными. Один из лучших способов проведения исследования конкретного явления – привлекать к нему местных ученных, которые хорошо знают свою культуру. Кроме этого, необходимо использовать несколько методов получения данных, поскольку в каждой культуре каждый метод имеет различное значение. Если результаты, полученные разными методами, совпадают, то маловероятно, чтобы какое-то конкретное пристрастное отношение испытуемых к методу измерения, проявится во всех результатах.

Исследователь также должен различать конструктную валидность в рамках каждой культуры. Для проверки конструкной валидности он имеет теорию и проверяет ее. Если получаемые данные в совокупности соответствуют теоретическим предсказаниям, то и теория, и инструментарий измерения изучаемого конструкта, скорее всего, окажутся валидными.

Предположим, у нас есть теория, предсказывающая связь «предпосылок» в отношении интеллекта (например, возраста, стимулирующего социального окружения) с конкретными  «последствиями» для интеллектуального развития (например, хорошей успеваемостью, успешным решением проблем). Если в каждой культуре мы будем измерять  IQ разными методами и обнаружим, что корреляция между измерениями IQ  и рядом «предпосылок» и «следствий», соответствующих теории, приблизительно одинаковы для обеих культур, то мы валидизировали наш  методический инструментарий для использования в этих культурах. Если модели корреляций одинаковы, а статистические тесты (обсуждены Irvine,Carroll, 1980) показывают, что эти два измерения эквивалентны, то результаты можем сравнивать.

 

Хорошая теория может исключать конкурирующие гипотезы

Если у нас есть хорошая теория, позволяющая делать предсказания, и она подтверждается конкретными эмпирическими данными, то влияние некоторых конкурирующих на исследование гипотез становится менее вероятным (Malplass, 1977). Предположим, что теория предсказывает, что в культуре коллективистического типа люди будут больше отдавать предпочтение достижению семейных целей, чем своих личных, а в индивидуалистической культуре люди больше будут отдавать предпочтение достижению личных целей, чем семейных. И предположим далее, что мы собрали данные в сельских регионах Китая и Америки и получили результаты, которые предсказывала теория. В этом случае влияние многих конкурирующих гипотез на результаты – различное определение изучаемых конструктов, разные уровни мотивации, различные конфигурации возможных реакций – становятся менее вероятными.

Это не означает, что не следует беспокоиться о возможном влиянии конкурирующих гипотез на результаты исследований, если есть хорошая теория. Если теория и конкурирующая гипотеза дают одинаковые предсказания, использовать эту теорию для исключения влияния конкурирующей гипотезы невозможно.  Однако в некоторых случаях теория и конкурирующие гипотезы будут давать различные предсказания. И если данные соответствуют теоретическим предположениям, то это служит подтверждением ее правильности.

Исходя из этой дискуссии, главное, о чем необходимо помнить при проведении кросс-культурных сравнений – делать выводы о культурных различиях не так легко. Это требует  больших усилий, проверки, исключения конкурирующих гипотез и т.п., прежде чем выявленное культурное различие становится более вероятным и объяснимым. Поэтому при чтении литературы по кросс-культурной проблематике необходимо выяснять, что дополнительная работа по проверке и исключению конкурирующих гипотез действительно проведена исследователем.

 

тестовая ситуация – предыдущая  |  следующая – аккультурация

Триандис. Культура и социальное поведение. Оглавление

Construct Validity — обзор

Животные модели: Construct Validity

Чтобы иметь конструктивную валидность, животная модель злоупотребления кокаином должна опираться на аналогичные нейрохимические, нейробиологические и физиопатологические механизмы и должна быть чувствительной к тем же событиям, которые считаются важными в вызывая человеческое расстройство. Годы клинических и экспериментальных исследований показали, что кокаиновая зависимость — это многофакторное заболевание, в котором важную роль играет генетическая предрасположенность.Например, исследования близнецов показали, что на злоупотребление кокаином и зависимость от него в течение всей жизни в значительной степени влияют генетические факторы риска. В соответствии с ролью генетических механизмов в кокаиновой зависимости, несколько исследований анализа сцепления показали корреляцию между склонностью к злоупотреблению кокаином и конкретным полиморфизмом генов на уровне различных систем нейротрансмиттеров. Эта точка зрения была подтверждена на лабораторных животных, на которых было показано, что делеция одного конкретного гена приводит к увеличению или уменьшению поведения, связанного с употреблением кокаина, и / или уязвимости к поиску кокаина.Например, было показано, что отключение генов, регулирующих функции рецепторов или нейротрансмиттеров, связанных с DA, глутаматом, серотонином и эндоканнабиноидергическим действием, резко меняет чувствительность к кокаину и / или мотивацию к его потреблению. Клинические исследования также продемонстрировали, что черты генетической уязвимости могут быть общими для некоторых наркотиков, которыми злоупотребляют. В соответствии с этим клиническим наблюдением было продемонстрировано, что крысы, генетически отобранные для чрезмерного употребления алкоголя, показали повышенную мотивацию к самостоятельному введению кокаина.Фактически, по крайней мере, две линии крыс, генетически отобранные для чрезмерного употребления алкоголя, а именно крысы P и AA, оказались более чувствительными к психотропным эффектам кокаина и имеют врожденную более высокую предрасположенность к его потреблению.

Одна из текущих лабораторных экспериментальных парадигм, которая может играть ключевую роль в поведении, сходном с зависимостью, включает использование векторных систем доставки для изменения экспрессии генов в мозгу грызунов с целью выявления новых сигнальных каскадов.Эта недавно разработанная технология оптической нейроинженерии включает фундаментальную концептуальную концепцию модуляции конкретных мозговых цепей и вмешательств, направленных на раскрытие методов лечения наркомании и сложной сети нейротрансмиттеров.

Дополнительные доказательства, подтверждающие конструктивную валидность моделей на животных, получены из исследований двух инбредных линий крыс, линии Льюиса (LEW) и ее гистосовместимого контроля, штамма Fischer 344 (F344). При обучении расширенному графику самостоятельного введения кокаина крысы LEW склонны увеличивать потребление наркотиков, в то время как крысы F344 — нет.Более того, крысы LEW, как и люди-наркоманы, имеют более низкую плотность рецепторов D 2 в полосатом теле, более высокое увеличение DA в прилежащем ядре (NAc) в ответ на лекарственную стимуляцию и более высокую тенденцию к нарушению регуляции. оси HPA. Исходя из этого, крыс LEW можно считать генотипом, предрасположенным к зависимости, а крыс F344 — устойчивым к зависимости.

Еще одним важным аспектом зависимости является индивидуальная уязвимость. Фактически, хорошо известно, что относительно небольшой процент людей, которые имеют врожденную предрасположенность к злоупотреблению кокаином, в конечном итоге становятся зависимыми от него.Эти индивидуальные различия в вероятности развития кокаиновой зависимости могут отражать тот факт, что кокаиновая зависимость является многофакторным расстройством, при котором генетическая предрасположенность является важным детерминантом, но воздействие наркотиков и факторы окружающей среды могут в этом случае играть решающую роль в формировании индивидуальной уязвимости к прогрессированию заболевания. . В этом отношении важно, что индивидуальные различия в развитии злоупотребления кокаином и зависимости также были описаны у лабораторных животных. Например, было продемонстрировано, что гетерогенные крысы, отобранные по низкой и высокой импульсивности, также различаются по уязвимости к развитию злоупотребления кокаином, и только последние демонстрируют компульсивное употребление наркотиков, несмотря на негативные последствия.Эпидемиологические исследования также выявили четкую связь между чертой стремления к новым ощущениям и злоупотреблением кокаином. Параллельно с состоянием человека крысы, характеризующиеся более высоким уровнем двигательной активности и исследовательского поведения в новой среде (считающейся мерой поиска ощущений / новизны), демонстрируют повышенное самовведение кокаина и компульсивные черты, связанные с наркотиками, соответственно. Наконец, было продемонстрировано, что если крыс обучить самостоятельно вводить кокаин в течение очень длительного периода времени, у относительно небольшой части разовьется типичное поведение, связанное с кокаиновой зависимостью, имитирующее основные клинические симптомы кокаиновой зависимости, описанные в DSM- IV.

В кокаиновой зависимости также существует сложная взаимосвязь между употреблением наркотиков, активацией оси HPA и эндокринными эффектами, что также было задокументировано. Например, острое введение кокаина увеличивает плазменные уровни адренокортикотропного гормона (АКТГ) и глюкокортикоидов у людей. Введение кокаина хроническим потребителям кокаина также может стимулировать реакцию оси HPA, но этот эффект менее выражен по сравнению с тем, что наблюдается у лиц, не употребляющих кокаин. Это открытие указывает на то, что хроническое употребление кокаина в анамнезе приводит к гипофункции активности HPA и изменению реактивности на стресс.В соответствии с этими клиническими данными исследования на грызунах и нечеловеческих приматах продемонстрировали, что инъекция кокаина животным, не получавшим наркотики, приводит к выраженной активации оси HPA. Подобный эффект также наблюдается у крыс, у которых увеличилось потребление кокаина после длительной тренировки по самостоятельному введению кокаина внутривенно. Однако эффект значительно менее выражен по сравнению с наивными животными. Эти результаты показывают, что хроническое воздействие кокаина приводит к аналогичным адаптивным изменениям в системе гормонального стресса у людей и лабораторных животных.В настоящее время неясно, играет ли гипоактивность оси HPA причинную роль в прогрессировании траектории злоупотребления кокаином или это просто следствие хронического воздействия наркотиков. С другой стороны, эти результаты подтверждают мнение о том, что адаптивные механизмы, возникающие после длительного употребления кокаина, ведущие к гипофункции активности оси HPA, связаны с прогрессированием кокаиновой зависимости не только у людей, но и у лабораторных животных. Ясно, что это поразительное свидетельство, подтверждающее конструктивную ценность животных моделей кокаиновой зависимости.

Действительность конструкции — соответствует ли концепция конкретным измерениям?

Проще всего думать об этом как о тесте на обобщение, как о внешней валидности, но он оценивает, учитывается ли в эксперименте переменная, которую вы проверяете.

Конструктивная валидность — это прием, который используется почти исключительно в социальных науках, психологии и образовании.

Например, вы можете спланировать, увеличивает ли образовательная программа художественные способности дошкольников.Конструктивная валидность — это мера того, действительно ли ваше исследование измеряет художественные способности, слегка абстрактная метка.

Что такое срок действия конструкции?

Термин «построение достоверности» может немного вводить в заблуждение, потому что он часто заставляет людей задуматься о том, как физически построен или разработан эксперимент.

Конструкция относится к «теоретически обоснованной психологической конструкции».

Соответствует ли теоретическая концепция конкретному измерению / шкале, используемым в исследованиях?

Достоверность конструкции относится к тому, адекватно ли измеряется конструкция с помощью шкалы или теста.

Примером может служить измерение человеческого мозга, например интеллекта, уровня эмоций, навыков или способностей.

Некоторыми конкретными примерами могут быть знание языка, артистические способности или уровень проявленной агрессии, как в эксперименте с куклой Бобо. Эти концепции абстрактны и теоретичны, но соблюдаются на практике.

Примером может служить врач, проверяющий эффективность обезболивающих у хронических больных спиной.

Каждый день он просит испытуемых оценить уровень своей боли по шкале от одного до десяти — боль существует, мы все это знаем, но ее нужно измерять субъективно.

В этом случае валидность конструкции будет проверять, действительно ли врач измерял боль, а не онемение, дискомфорт, беспокойство или какой-либо другой фактор.

Следовательно, правильно определив определение конструкции, мы можем посмотреть на способность построения конструкции, меру того, насколько хорошо тест измеряет конструкцию. Это инструмент, который позволяет исследователям проводить систематический анализ того, насколько хорошо спланировано их исследование.

Конструктивная валидность ценна в социальных науках, где концепции очень субъективны.Часто не существует общепринятой единицы измерения для конструктов, и даже относительно хорошо известные, такие как IQ, открыты для обсуждения.

Как измерить изменчивость конструкции?

Для крупных и обширных исследований, особенно в сфере образования и изучения языков, большинство исследователей проверяют валидность конструкта перед основным исследованием.

Эти пилотные исследования подтверждают эффективность их исследований и позволяют им вносить любые коррективы.

Используя учебный пример, такой предварительный тест может включать исследование дифференциальных групп, в котором исследователи получают результаты тестирования для двух разных групп, одна с конструктом, а другая без.

Другой вариант — интервенционное исследование, в котором группа с низкими баллами в конструкте тестируется, обучается конструкции и затем повторно измеряется. Если есть существенная разница до и после теста, обычно анализируемая с помощью простых статистических тестов, то это доказывает хорошую валидность конструкции.

После войны были попытки разработать статистические методы для проверки валидности конструкта, но они были настолько длинными и сложными, что оказались неприменимыми. Установление правильности построения — вопрос опыта и суждений, позволяющих собрать как можно больше подтверждающих доказательств.

Целая батарея статистических инструментов и коэффициентов используется для доказательства строгой валидности конструкции, и исследователи продолжают, пока не почувствуют, что нашли баланс между доказательством валидности и практичности.

Угрозы для конструирования валидности

Существует большое количество способов поставить под угрозу валидность конструкта, поэтому вот несколько основных кандидатов:

Угроза гипотезы

Эта угроза возникает, когда субъект угадывает цель теста и сознательно или подсознательно изменяет свое поведение.

Например, многие факультеты психологии ожидают, что студенты будут добровольно участвовать в исследованиях для получения кредитов по курсу. Опасность состоит в том, что студенты могут понять, каковы цели исследования, потенциально оценивая результат.

Не имеет значения, правильно ли они угадывают гипотезу, меняется только их поведение.

Опасение оценки

Эта конкретная угроза основана на склонности людей действовать иначе, когда они находятся под давлением.Как известно, индивидуальное тестирование вызывает выброс адреналина, который может улучшить или снизить производительность.

В этом отношении опасения по поводу оценки связаны с экологической внешней достоверностью, где они влияют на процесс обобщения.

Ожидания и предвзятость исследователя

Исследователи — всего лишь люди и могут давать подсказки, влияющие на поведение подопытного. Люди подают сигналы через язык тела и подсознательно улыбаются, когда субъект дает правильный ответ, или хмурится при нежелательной реакции — все это имеет эффект.

Этот эффект может снизить валидность построения, затуманивая эффект фактической исследовательской переменной.

Чтобы уменьшить этот эффект, взаимодействие должно быть сведено к минимуму, а помощники не должны знать общих целей проекта.

См. Также:
Двойной слепой эксперимент
Смещение исследования

Плохое определение конструкции

Достоверность конструкции — это все о семантике и маркировке. Слишком широкое или слишком узкое определение конструкции может свести на нет весь эксперимент.

Например, исследователь может попытаться использовать удовлетворенность работой для определения общего счастья. Это слишком узко, так как кто-то может любить свою работу, но жить несчастливой жизнью вне рабочего места. Точно так же использование общего счастья для измерения счастья на работе слишком широко. Многие люди наслаждаются жизнью, но ненавидят свою работу!

Неправильная маркировка — еще одна распространенная ошибка определения: заявление о том, что вы собираетесь измерить депрессию, когда вы на самом деле измеряете тревогу, ставит под угрозу исследование.

Лучший способ избежать этой конкретной угрозы — это хорошо спланировать ситуацию и обратиться за советом до начала исследовательской программы.

Construct Confounding

Эта угроза достоверности конструкции возникает, когда другие конструкции маскируют эффекты измеряемой конструкции.

Например, на самооценку влияют уверенность в себе и самооценка. Эффект этих конструкций необходимо включить в исследование.

Взаимодействие различных методов лечения

Эта конкретная угроза заключается в том, что более одного лечения влияют на конечный результат.

Например, исследователь тестирует программу интенсивного консультирования как способ помочь курильщикам отказаться от сигарет.В конце исследования результаты показывают, что 64% ​​испытуемых успешно сдались.

К сожалению, затем исследователь обнаруживает, что некоторые из испытуемых также использовали никотиновые пластыри и жевательную резинку или электронные сигареты. Теперь валидность конструкции слишком мала, чтобы результаты имели какое-либо значение. Только хорошее планирование и наблюдение за объектами могут предотвратить это.

Ненадежные оценки

Разница в оценках — очень легкая ловушка, в которую можно попасть.

Например, исследователь в сфере образования разрабатывает тест на интеллект, который дает отличные результаты в Великобритании и демонстрирует высокую конструктивную валидность.

Однако, когда тест проводится с детьми иммигрантов, когда английский является вторым языком, баллы ниже.

Тест измеряет их языковые способности, а не интеллект.

Mono-Operation Bias

Эта угроза связана с независимой переменной и представляет собой ситуацию, когда одна манипуляция используется для воздействия на конструкцию.

Например, исследователь может захотеть узнать, работает ли лекарство от депрессии. Они делят пациентов на две группы: одна получает препарат, а контрольная — плацебо.

Проблема заключается в том, что он ограничен (например, случайная ошибка выборки), и надежный дизайн будет использовать несколько групп с разными дозами.

Другой вариант — провести предварительное исследование, которое вычислит оптимальную дозу, что в равной степени приемлемый способ сохранить валидность конструкции.

Смещение моно-метода

Эта угроза достоверности построения включает зависимую переменную и возникает, когда используется только один метод измерения.

Например, в эксперименте по измерению самооценки исследователь использует один метод для определения уровня этой конструкции, но затем обнаруживает, что она фактически измеряет уверенность в себе.

Использование различных методов, таких как анкеты, самооценка, физиологические тесты и наблюдение, сводит к минимуму вероятность того, что эта конкретная угроза повлияет на валидность конструкта.

Не паникуйте

Это лишь некоторые из угроз для конструирования достоверности, и большинство экспертов сходятся во мнении, что существует по крайней мере 24 различных типа. Это основные из них, и хороший экспериментальный план, а также поиск отзывов от экспертов на этапе планирования помогут вам избежать их.

Для «трудолюбивых» ученых, которые думают, что студенты, изучающие социальные и поведенческие науки, легко могут ошибаться!

Оценка валидности конструкции в организационных исследованиях в JSTOR

Абстрактный

Классические и современные методы анализа валидности конструктов сравниваются и противопоставляются посредством повторного анализа данных из исследовательской литературы организаций, чтобы установить основу для оценки валидности показателей, используемых в исследованиях организации.Критерии Кэмпбелла и Фиске (1959) оказались недостаточными, особенно в их предположениях, диагностической информации и силе. Подтверждающий факторный анализ (CFA) позволяет преодолеть большинство ограничений, присущих процедурам Кэмпбелла и Фиске. Тем не менее, у метода CFA выявлены два потенциальных недостатка: смешение случайной ошибки с дисперсией, зависящей от меры, и невозможность проверить взаимодействие между признаками и методами. Предлагаются три альтернативных метода решения первой проблемы, а модель прямого продукта описывается как решение второй.Рассмотренные здесь методы идут дальше, чем используемые в настоящее время процедуры, для повышения нашей способности определять достоверность переменных, обычно изучаемых в исследованиях организаций.

Информация о журнале

Основанный в 1956 году Джеймсом Томпсоном, ежеквартальный журнал «Административная наука» представляет собой рецензируемый междисциплинарный журнал, публикующий теоретические и эмпирические работы, продвигающие изучение организационного поведения и теории. ASQ публикует статьи, которые вносят вклад в теорию организации из ряда дисциплин, включая организационное поведение и теорию, социологию, психологию и социальную психологию, стратегическое управление, экономику, государственное управление и производственные отношения.ASQ публикует как качественные, так и количественные работы, а также чисто теоретические статьи. Теоретические перспективы и темы в ASQ варьируются от микро до макро, от лабораторных экспериментов по психологии до работы с национальными государствами. Время от времени появляется «Форум ASQ», эссе на специальную тему с приглашенными комментариями. Вдумчивые рецензии на книги, относящиеся к исследованиям организаций и теории менеджмента, являются регулярной функцией. Специальные выпуски посвящены качественным методам, организационной культуре, использованию организационных исследований, распределению вознаграждений в организациях и критическим взглядам на организационный контроль.

Информация об издателе

Сара Миллер МакКьюн основала SAGE Publishing в 1965 году для поддержки распространения полезных знаний и просвещения мирового сообщества. SAGE — ведущий международный поставщик инновационного высококачественного контента, ежегодно публикующий более 900 журналов и более 800 новых книг по широкому кругу предметных областей. Растущий выбор библиотечных продуктов включает архивы, данные, тематические исследования и видео. Контрольный пакет акций SAGE по-прежнему принадлежит нашему основателю, и после ее жизни она перейдет в собственность благотворительного фонда, который обеспечит дальнейшую независимость компании.Основные офисы расположены в Лос-Анджелесе, Лондоне, Нью-Дели, Сингапуре, Вашингтоне и Мельбурне. www.sagepublishing.com

Перейти к основному содержанию Поиск