Валидность тестов
Для того чтобы инструменты оценки считались соответствующими требованиям к психометрическим характеристикам, у них должны быть достаточные показатели надежности и валидности. В этой статье мы опишем валидность батарей наших тестов.
Валидность – это способность методики измерять именно то, для оценки чего она была создана. Чтобы не запутаться в терминах, возьмем в качестве аналогии стрельбу. Надежность методики можно сравнить с кучностью результатов, а валидность — с точностью попадания. Как и в случае с надежностью, оценка валидности теста не исчерпывается каким-либо одним способом. Существует несколько аспектов валидности и, соответственно, способов ее измерения: от субъективных до точных, математически обоснованных.
Конструктная валидность
Конструктная валидность — это ответ на вопрос, действительно ли наш тест измеряет именно то, что заявлено, и то, что мы от него ожидаем. Например, используя тест интеллекта, мы задаем себе вопрос: действительно ли этот тест меряет интеллект? Или, может быть, он измеряет эрудицию? А может быть, только один из аспектов интеллекта – способность к выполнению математических операций? Применимо к личностным опросникам этот вопрос звучит так: действительно ли мы измеряем именно те факторы, которые хотим измерить? Для ответа на этот вопрос прибегают к использованию некоторых процедур, позволяющих получить ответ об уровне конструктной валидности.
Наиболее часто используют независимо созданные тесты, которые измеряют те же характеристики, что и Ваш тест. Ваши респонденты заполняют два теста, после чего остается только посчитать корреляцию между показателями Вашего теста и контрольного.
Другой способ — это проведение тестирования в группе, которая заранее выделяется среди остальных по необходимому вам параметру. Например, бухгалтеры хорошо считают, у архитекторов хорошо развито абстрактное мышление и т.д. Если ваш тест покажет значимое различие между этой группой и остальными, значит, он действительно измеряет данную черту.
Еще один способ – это оценить выраженность измеряемого качества у определенной группы людей с помощью экспертной оценки, а потом дать оцениваемым людям заполнить ваш опросник. Если мнения экспертов совпали с результатами вашего теста, то вы можете утверждать о наличии у него высокой конструктной валидности.
Критериальная валидность
Это, пожалуй, самый важный показатель эффективности теста при его использовании в бизнес-среде. Измерение критериальной валидности позволяет ответить на вопрос, насколько результаты тестирования коррелируют с успешностью работы.
Заметим, что при использовании тестов низкие показатели критериальной валидности могут говорить как о низком качестве методик, так и о том, что измеряемые ими способности не связаны с успешностью работы. Для получения достоверной информации о показателях критериальной валидности проводится корреляционное исследование. В качестве объекта исследования могут быть выбраны сотрудники фирмы; в этом случае сравниваются результаты, которые они показали в тестах, и показатели эффективности их работы. Такой вид валидности называется конкурентной валидностью.
Конструктная валидность батареи GREEN «Интерпретация информации»
Для проверки конструктной (теоретической) валидности компанией ONTARGET было проведено исследование по сравнению результатов выполнения тестов батареи «Интерпретация информации» и тестов британской компании Psytech, адаптированных для русскоязычных респондентов. Исследование проводилось в 2013 году.
Таблица 1. Корреляции тестов батареи «Интерпретация информации» с тестами британской компании Psytech
Валидность измерения исследования в клинической психологии
Валидность измерения (measurement validity) является ответом на вопрос, «измеряет ли измерение то, что оно должно измерить» (Barker C. [et al.], 2002). Например, измеряет ли шкала для оценки симптомов депрессии выраженность депрессии или же она измеряет что-то другое (самооценку, желание признать наличие проблемной ситуации и т. п.)? Сам по себе концепт «валидность измерения» более сложен для понимания и оценки, чем надежность. В настоящем разделе обсуждается именно валидность измерения, хотя постановка вопроса о валидности распространяется и на дизайн исследования, о чем говорилось в главе 2. Изучение качества методики измерения того или иного показателя предполагает, что на первом этапе требуется оценка надежности, а затем валидности. С одной стороны, надежность является необходимым, но не достаточным условием валидности. Для того чтобы быть валидным, измерение должно быть надежным, в противном случае оно будет преимущественно отражать влияние ошибки. Так, если два исследователя не могут прийти к единому суждению по поводу того, содержатся ли в тексте беседы пациента и психотерапевта признаки отказа пациента от лечения, нет возможности делать какие-то выводы о валидности категории отказа от лечения. С другой стороны, методика может быть очень надежной, но не валидной: например, измерение окружности головы для определения интеллекта. Оцениваются различные аспекты валидности методики, на которые нужно ориентироваться исследователю. К основным видам валидности следует отнести содержательную, внешнюю, критериальную и конструктную.
Содержательная валидность (content validity) — показатель того, насколько методика (а также каждый ее компонент или шкала) охватывает все аспекты того конструкта, который методика призвана измерить. Например, присутствуют ли в опроснике с целью выявить симптомы депрессии у пациента вопросы, затрагивающие сниженное настроение, снижение мотивации, нарушения сна и т.
- анализ общепринятых подходов к изучению рассматриваемой проблемы на основании литературных данных;
- экспертная оценка содержания опросника специалистами;
- оценка содержания опросника самими больными.
Внешняя валидность (face validity) весьма близка к содержательной валидности. Оценка внешней валидности предполагает ответ на вопрос: лежит ли на поверхности то, что призвана измерить данная методика? Так, в опроснике, цель которого выявить симптомы депрессии, должны присутствовать вопросы, затрагивающие снижение настроения у пациента, а не его отношение к начальнику на работе. Внешняя валидность позволяет определить, охватывают ли вопросы опросника круг проблем, беспокоящих пациента. Внешняя валидность желательна, но не всегда обязательна. Так, в опроснике могут присутствовать «мелкие» на первый взгляд, не относящиеся к изучаемому конструкту вопросы, которые на самом деле позволяют снизить вероятность фальсификации данных.
- Конкурентная валидность: диагностика осуществляется на основе принятого критерия одновременно с анализируемой методикой. Результаты использования анализируемой методики сопоставляются с существующими критериями. Например, оценки по шкале симптомов депрессии могут быть сопоставлены с результатами обследования пациента врачом-психиатром.
- Предсказательная валидность: диагностика осуществляется в дальнейшем, когда оценивается реализация прогноза, предсказания, основанного на анализируемом методе. Оценка по шкале депрессии может быть рассмотрена в качестве прогностического фактора последующих суицидальных попыток.
В отличие от других видов валидности, критериальная имеет ряд количественных характеристик. Критериальная валидность диагностической методики прежде всего определяется тем, насколько эффективно она способна констатировать позитивные результаты теста у тех обследуемых, которые в действительности имеют распознаваемое заболевание или высокий риск его развития, и негативные — у лиц, не имеющих данного заболевания или характеризуемых низким риском его развития. В табл. 14 представлено возможное соотношение результатов диагностического теста и истинного наличия или отсутствия распознаваемого заболевания (состояния), верифицированного «золотым стандартом» диагностики. В этой таблице величине a соответствует число обследуемых, имеющих положительные результаты диагностического теста при истинном наличии заболевания (
Двумя принципиальными операционными характеристиками теста, отражающими его критериальную валидность, являются чувствительность (sensitivity, Se) и специфичность (specificity, Sp) (Кельмансон И. А., 2002; Власов В. В., 2004; Кельмансон И. А., 2004; Покровский В. П., Брико Н. И., 2012; Barker C. [et al.], 2002; Rothman K. J. [et al.], 2008).
Чувствительность — вероятность того, что результаты диагностического теста окажутся положительными при истинном наличии заболевания. Показатель вычисляется следующим образом:
По мере увеличения чувствительности теста снижается число испытуемых, фактически имеющих заболевание и неверно классифицируемых как здоровые в результате диагностического теста (снижается число ложноотрицательных результатов). Иначе говоря, если тест имеет высокую чувствительность, его негативные результаты позволяют эффективно исключить наличие диагноза.
Для правильной интерпретации смысла показателя чувствительности предлагается мнемоническое правило: SnNout (если тест имеет высокую чувствительность (Sensitivity), его отрицательные (Negative) результаты позволяют отвергнуть (rule out) диагноз) (Кельмансон И. А., 2002, 2004; Straus S. E., 2011).
Специфичность — вероятность того, что результаты теста окажутся отрицательными при истинном отсутствии заболевания у обследуемого. Специфичность рассчитывается следующим образом:
Высокая специфичность теста означает низкую вероятность его положительных результатов у лиц с отсутствием заболевания (низкую вероятность ложноположительных результатов). Иначе говоря, если тест имеет высокую специфичность, его позитивный результат позволяет эффективно распознать диагностируемое заболевание. Правильно интерпретировать смысл показателя специфичности помогает мнемоническое правило: SpPin (если тест характеризуется высокой специфичностью (Specificity), его позитивные (Positive) результаты подтверждают (rule in) диагноз) (Кельмансон И. А., 2002, 2004; Straus S. E., 2011).
Пример
Рассмотрим данные валидизации Эдинбургской шкалы постнатальной депрессии (Choi S. K. [et al.], 2012). Было обследовано 250 женщин; в качестве порогового уровня диагностики высокого уровня депрессивной симптоматики авторы выбрали значение > 3 баллов по шкале (табл.15).
Расчет показателей чувствительности и специфичности дает следующие результаты:
Sc = a/(a + с) = 35/38 = 0,92 (92 %),
Sp = d/(b + d) = 186/212 = 0,88 (88 %).
При выбранном пороговом уровне тест имеет высокую чувствительность, равную 92 %. Следовательно, лишь в 8 % случаев существует вероятность того, что женщины, фактически имеющие проявления депрессивной симптоматики, будут неверно классифицироваться как здоровые. Тест имеет и достаточно высокую специфичность: в 88 % случаев положительные результаты теста позволяют правильно диагностировать наличие депрессивной симптоматики.
Очевидно, было бы весьма желательно, чтобы тест одновременно характеризовался высокой чувствительностью и специфичностью, как в приведенном примере. Однако на практике такая ситуация встречается редко, и можно говорить о существовании конкурентных отношений: по мере увеличения чувствительности наблюдается снижение специфичности теста и наоборот. Такая взаимоисключающая связь показателей чувствительности и специфичности отчасти связана с тем, что диагностика заболевания предполагает наличие лиц с доказанным отсутствием этого заболевания, доказанным наличием, а также существование некой «серой зоны», в пределах которой констатация наличия или отсутствия заболевания зависит от строгости используемых критериев. В подобных случаях снижение порогового уровня (выбран для констатации заболевания), направленное на снижение риска просмотра заболевания (а значит, на повышение чувствительности теста), должно неизбежно приводить к увеличению доли тех лиц, у которых будет ошибочно диагностироваться заболевание, т. е. к снижению специфичности.
Пример
Предположим, имеется гипотетическая методика, направленная на выявление определенного диагноза. Получены результаты обследования 30 испытуемых по данной методике, выявлено наличие у них распознаваемого диагноза (табл. 16). Очевидно, на операционные характеристики данного диагностического теста будет влиять выбор того порогового уровня, после достижения которого можно констатировать наличие заболевания. Зависимость чувствительности и специфичности теста от порогового уровня суммы баллов представлена в табл. 17. Снижение порогового уровня диагностики приводит к возрастанию чувствительности теста, но создает высокую вероятность ложноположительных результатов за счет неизбежного снижения специфичности. Напротив, завышение порога суммы баллов, необходимой для констатации диагноза, приводит к возрастанию вероятности пропуска тех лиц, которые в действительности имеют диагноз; в то же время доля ложноположительных результатов снижается.
Решение о выборе порогового уровня показателей теста, необходимого для принятия решения, во многом зависит от конкретной ситуации, прежде всего от значимости риска недооценки, пропуска распознаваемого состояния. Так, вполне обоснованным можно считать повышение чувствительности теста за счет снижения его специфичности, если речь идет о диагностике тяжелого заболевания, которое нельзя просмотреть, а также в тех случаях, когда проведение теста не требует больших материальных затрат и технически легко реализуемо (например, измерение артериального давления). Увеличение специфичности обосновано в случаях дорогостоящих и труднореализуемых тестов. Таким образом, чувствительности и специфичности может придаваться разный вес в зависимости от конкретной задачи исследования. Если вес, придаваемый чувствительности методики , обозначить как w, то вес, придаваемый специфичности, составит 1 -w. В этом случае оптимальный пороговый уровень, когда характеристики теста будут максимально удовлетворять требованиям исследователя, определяется максимальным значением М (Woodward M., 2014):
Если цель состоит в том, чтобы добиться оптимальной классификации при равной весовой значимости чувствительности и специфичности , то w = 0,5. В этом случае уравнение имеет вид:
Для выявления оптимального порогового уровня диагностики можно использовать индекс Юдена (Youden’d index, J), который рассчитывается следующим образом (Власов В. В., 2004; Szklo M., Nieto F. J., 2007):
В рассматриваемом примере максимальные величины показателя М и индекса Юдена наблюдаются при диагностическом пороге 31 балл, который можно признать оптимальным для разделения испытуемых в зависимости от наличия/отсутствия распознаваемого заболевания, если предъявляются равные требования к специфичности и чувствительности теста (см. табл. 17).
Компромиссным решением может быть батарея тестов, когда на первом этапе применяются относительно доступные и достаточно чувствительные методики предварительной оценки вероятного риска распознаваемого состояния, а затем у лиц, характеризуемых повышенным риском, осуществляют более детальную диагностику, уже используя высокоспецифичные тесты. Иными словами, высокая чувствительность — это принцип скрининг-методик, а высокая специфичность — специальных диагностических методик.
Для интегральной оценки соотношения чувствительности и специфичности методики при различных пороговых уровнях диагностики часто используют так называемую характеристическую кривую (receiver operating characteristic curve, ROC-curve) (Armitage P. [et al.], 2001; Peat J. K., Barton B., 2014; Woodward M., 2014). Эта кривая отражает связь вероятностей ложноположительных (1-специфичность) и истинно положительных (чувствительность) результатов. На рис. 43 представлена кривая, основанная на операционных характеристиках рассматриваемого примера гипотетического диагностического теста. Чем меньше изгиб кривой, чем ближе она расположена к биссектрисе, проходящей через начало координат под углом 45°, тем менее эффективно диагностическое исследование, так как точки на такой диагонали соответствуют отсутствию диагностической валидности теста (перемещение диагностического порога не приводит к изменению пропорции ложноположительных и истинно положительных результатов ).
Площадь под кривой (area under the curve, AUC), ограниченная характеристической кривой и осью абсцисс, является хорошей интегральной характеристикой эффективности теста. Теоретически эта площадь может принимать значения от 0 до 1,0. Поскольку в валидных тестах характеристическая кривая проходит выше биссектрисы, то обычно заслуживает обсуждения лишь изменение площади в диапазоне от 0,5 до 1,0 (площадь под биссектрисой изначально равна 0,5 и свидетельствует об отсутствии валидности методики). Чем ближе значение площади к 1,0, тем более эффективен диагностический тест. Статистические расчеты направлены на выявление достоверности различий вычисленной площади и площади, равной 0,5, свидетельствующей об отсутствии эффективности методики . В рассматриваемом примере площадь под кривой равна 0,864; данное значение с 99,9 % вероятностью (Р = 0,001) отличается от неэффективного показателя, равного 0,5. Приведенные оценки свидетельствуют об эффективности методики . Отметим, что большинство прикладных статистических программ (SPSS, SAS, STATA) позволяют построить такие характеристические кривые и изучить их параметры.
Отношение правдоподобия при положительном результате теста говорит о том, во сколько раз вероятность положительного результата теста выше у пациента с действительным наличием заболевания по сравнению с пациентом, у которого заболевание отсутствует (Кельмансон И. А., 2002; Власов В. В., 2004; Armitage P. [et al.], 2001; Woodward M., 2014). Рассчитывается данный показатель следующим образом:
Отношение правдоподобия при отрицательном результате свидетельствует о том, во сколько раз вероятность отрицательного результата теста выше у пациента с наличием заболевания по сравнению с пациентом, у которого в действительности отсутствует заболевание (Кельмансон И. А., 2002; Власов В. В., 2004; Armitage P. [et al.], 2001; Woodward M., 2014). Данный показатель вычисляется следующим образом:
В приведенном примере диагностики симптомов постнатальной депрессии на основе показателей Эдинбургской шкалы (см. табл. 15) отношение правдоподобия составит:
Полученные цифры свидетельствуют о том, что при позитивных результатах теста вероятность наличия депрессии у женщины возрастает в 7,67 раза, при отрицательных результатах она возрастает в 0,09 раза (или уменьшается примерно в 11 раз).
Прогностичность (predictive value). Суждение о критериальной валидности диагностической методики во многом основывается на вероятности совпадения выявленных положительных результатов с истинным наличием заболевания и отрицательных результатов с его отсутствием. Для этих целей широко используются показатели про-гностичности (Кельмансон И. А., 2002; Власов В. В., 2004; Rothman K. J. [et al.], 2008; Woodward M. , 2014).
Прогностигность положительного результата (predictive value positive, PV+) отражает вероятность того, что пациент, имеющий положительные результаты теста, в действительности страдает заболеванием. Расчет осуществляется по формуле:
Прогностигность отрицательного результата (predictive value negative, PV-) отражает вероятность того, что у обследуемого с отрицательными результатами диагностического метода в действительности заболевание отсутствует. Расчет осуществляется по формуле:
Высокие показатели прогностичности отрицательного результата являются непременным условием любого диагностического метода, направленного на выявление редкого заболевания (состояния), так как, по условию, большая часть обследуемых лиц не страдает данным заболеванием.
Показатели прогностичности теста отчасти зависят от его чувствительности и специфичности. Действительно, чем чувствительнее тест, тем меньше вероятность того, что пациент, имеющий отрицательные диагностические результаты, страдает заболеванием и, следовательно, тем выше прогностичность отрицательного результата. Аналогично, чем выше специфичность теста, тем меньше вероятность того, что у пациента с положительными диагностическими результатами отсутствует заболевание, т. е. тем выше прогностичность положительного результата. Однако нужно отметить, что при прочих равных условиях прогностичность диагностического исследования существенным образом зависит от преваленса (распространенности в популяции) распознаваемого заболевания (патологического состояния), что не учитывается при расчете показателей чувствительности и специфичности. Это положение особенно актуально в случаях диагностики относительно редких заболеваний, с чем сталкиваются исследователи при проведении скрининга. Преваленс заболевания (патологического состояния) в обследуемой популяции и операционные характеристики теста, взаимодействуя между собой, определяют, какова вероятность идентификации заболевания среди обследуемых лиц. Лучше всего указанная взаимосвязь выявляется, если вместо пре-валенса использовать производную от него величину — претестовые шансы заболевания (pretest odds) (Кельмансон И. А., 2002; Straus S. E., 2011). Эти показатели соотносятся следующим образом:
Претестовые шансы заболевания = преваленс / (1 — преваленс).
Тогда послетестовые шансы заболевания (post-test odds) будут вычисляться как произведение претестовых шансов и отношения правдоподобия при положительных результатах теста:
Послетестовые шансы = претестовые шансы х LR+.
Конструктная валидность (construct validity) оценивается с целью определить, насколько структура опросника позволяет достоверно измерить то, что он должен измерить. Строятся определенные гипотезы, в основе которых лежат различные факторы (например, психологические, социальные или клинические показатели). В процессе исследования эти теоретические предположения подтверждают или опровергают. Различают виды конструктной валидности:
- конвергентная (convergent validity). результаты двух способов измерения одной характеристики должны коррелировать между собой;
- дискриминантная (discriminant validity): результаты измерения различных характеристик не связаны между собой (Barker C. [et al.], 2002).
В обоих случаях конструктная валидность предполагает оценку взаимосвязи изучаемой шкалы с определенными характеристиками.
Факторный анализ по методу главных компонент (Howell D. C., 2013) — статистический прием, который обеспечивает проверку предполагаемой структуры опросника и призван выявить отдельные компоненты в пределах структуры опросника. Относится к общепринятым подходам к оценке конструктной валидности. В процессе проведения факторного анализа определяют то, как пункты опросника распределяются по отношению к своим шкалам. Кроме того, факторный анализ должен показывать, что пункты шкалы относятся к своему фактору и тесно с ним коррелируют, слабо коррелируя с другими факторами.
Пример
Опросник SF-36, предназначенный для оценки качества жизни, связанного со здоровьем, принципиально предполагает наличие двухкомпонентной структуры (физического и психологического компонентов здоровья). Пункты таких шкал «Физическое функционирование» и «Боль» имеют высокую «факторную нагрузку» на физический компонент здоровья и низкую — на психологический компонент (Новик А. А., Ионова Т. И., 2007).
Метод известных групп. Респондентов распределяют на группы в зависимости от наличия или отсутствия у них какого-либо фактора. Высказывается наиболее вероятное предположение в отношении распределения у них данного фактора, и проводится анализ взаимосвязей показателей в зависимости от изучаемого фактора.
Пример
Изучаются показатели качества жизни, связанного со здоровьем, в зависимости от возраста пациентов: высказывались предположения о различиях показателей физического здоровья в различных возрастных группах. Эти предположения были подтверждены: респонденты старших возрастных групп имели показатели качества жизни хуже, чем респонденты молодого возраста (Новик А. А., Ионова Т. И., 2007).
Еще одним способом оценки конструктной валидности является оценка корреляций с внешними критериями (шкалами другого опросника, симптомами, клиническими или лабораторными показателями и т. д.). В таком случае целесообразно использовать многочертную-многометодную матрицу (multitrait-multimethod matrix) (Barker C. [et al.], 2002). Данная методика была предложена исследователями Д. Кэмпблом и Д. Фиске (D. Campbell, D. Fiske). Матрица представляет собой таблицу, отражающую корреляции между различными методиками, измеряющими различные конструкты. Важно одновременно анализировать и соотносить друг с другом не только измеряемые черты (т. е. что измеряется), но и измерительные методы (т. е. как измеряется).
Пример
Исследуется конструкт «высокий уровень тревоги во время публичных выступлений». Можно изучить показатели тревоги при помощи, скажем, двух различных опросников, а также исследовать частоту сердечных сокращений, кожный гальванический рефлекс у испытуемых во время публичных выступлений. Кроме того, у испытуемых можно исследовать коэффициент интеллекта, выраженность экстраверсии, уровень самооценки.
Многочертно-многометодная матрица будет отражать взаимную корреляцию всех изученных показателей. В частности, матрица будет показывать выраженность положительных корреляций измерений, относящихся к изучаемому конструкту, с измерениями, относящимися к другим близким конструктам. Это будет конвергентная валидность. С другой стороны, матрица будет показывать слабость или отсутствие корреляций измерений, относящихся к изучаемому конструкту, с измерениями, относящимися к конструктам, которые не связанны с данным конструктом (дискриминантная валидность) . В приведенном примере все измерения, направленные на изучение тревоги во время публичных выступлений, должны хотя бы умеренно коррелировать друг с другом. Предположительно, они не должны достоверно коррелировать с возрастом и коэффициентом интеллекта испытуемых. Кроме того, они должны лишь незначительно коррелировать с показателем самооценки, однако гораздо сильнее коррелировать с выраженностью экстраверсии. Матрица также позволяет выявить степень вариабельности отдельных методик, тенденцию, с которой коррелируют между собой близкие методики. Например, различные опросники, основанные на самоотчетах, часто взаимно коррелируют, хотя и призваны оценивать различные конструкты. Вот почему важно использовать в ходе исследования различные методики, а не целиком полагаться на какой-то один тип измерения.
Типы валидности. Управление персоналом для менеджеров: учебное пособие
Типы валидности
Еще раз обратив внимание на то, что измерительная методика должна быть валидной, или точной, рассмотрим суть трех типов валидности10.
Прежде всего метод должен фактически оценивать то, что и предполагалось оценивать. Например, если метод подсчета очков во время интервью предполагает оценку коммуникабельности кандидата, то высокий балл должен означать, что кандидат действительно имеет очень развитые коммуникативные навыки. Это называется конструктивной валидностью.
Второй тип называют критериальной валидностью, и он определяет, будет ли методика отбора точно прогнозировать результаты деятельности по выбранным значимым критериям. Примером высокой критериальной валидности может служить тест когнитивных способностей (способностей к познанию), разработанный так, что набранные в тесте баллы математически коррелируют с результатами трудовой деятельности людей. Коэффициент корреляции валидности (достоверности) может колебаться в пределах от -1,00 до +1,00. Чем ближе коэффициент корреляции к единице, тем методика отбора более валидна. В качестве примера валидной методики отбора назовем тест «бумага – карандаш» (для тестирования нужен только лист бумаги и карандаш), который оценивает способности к восприятию; доказано, что этот тест дает валидный прогноз для таких видов деятельности, как инспектор по контролю качества, электротехник и редактор.
Третий тип – содержательная валидность. При большом сходстве с критериальной валидностью она, в свою очередь, основывается на утверждении, что прогнозирующие показатели связаны скорее с факторами выполнения норм выработки, чем с фактическими оценками и расчетами взаимоотношений. Этот вид информации должен оцениваться с помощью надежных и валидных методик отбора.
Многие популярные тесты, простые по содержанию и обработке результатов, не проходят проверку на валидность и надежность и не могут использоваться в качестве серьезного инструментария.
Коэффициент валидности определяется через корреляцию диагностических оценок и значений какого-либо критерия профессиональной успешности (продуктивность, доход, темпы продвижения и т. п.). В табл. 6.3 показано сравнение валидности различных диагностических методов, практикуемых российскими индустриальными психологами11.
Достоверность методик отбора персонала, установленная исследованиями американских ученых, показана в табл. 6.412.
В книге английского ученого Дж. Стредвика также приводятся результаты интересных исследований, показывающие, что в прогнозировании успешности претендента одни методы предпочтительнее других13 (табл. 6.5).
Таблица 6.3
Валидность различных диагностических методов
Таблица 6.4
Применение и достоверность распространенных методик отбора
Общий вывод относительно надежности результатов, получаемых при использовании тестов – личностных опросников: вероятность наличия качества, выявленного с помощью таких тестов, не превышает 40 %.
Таблица 6.5
Сравнение эффективности методов прогнозирования результатов деятельности
Данный текст является ознакомительным фрагментом.
Продолжение на ЛитРес«Принципы объективной оценки»
Принципы объективной и эффективной оценки
1. Используемые для оценки инструменты должны соответствовать глобальным целям и задачам организации
Инструменты оценки, как и любые другие инструменты, полезны только тогда, когда они применяются по назначению, если же их использовать неправильно, можно наделать ошибок и даже навредить бизнесу. Очень часто поводом неверного использования инструментов служит непонимание целей и процессов оценки. Как работодатель Вы должны понимать основные цели оценки для того, чтобы выбрать правильные инструменты для достижения этих целей. Ваша оценочная стратегия должна опираться на понимании того, кого именно Вы должны оценить, какие решения будут приняты на основе полученных результатов. Если цели определены правильно, то подобрать и эффективно применить подходящие инструменты становиться значительно легче. Используйте только те инструменты, которые позволяют удовлетворить специфические потребности Вашей организации.
2. Проводите полную оценку личности
Оценочная методика может предоставить Вам важную информацию о человеке. Все же ни один инструмент не дает гарантию стопроцентной надежности; погрешности существуют как при измерении уровня развития важных для должности компетенций, так и при составлении прогнозов относительно профессиональной успешности сотрудника. Более того, один единственный метод оценки дает ограниченное количество необходимой информации. Использование нескольких инструментов оценки значительно увеличивает количество полезной, необходимой для принятия решения информации, одновременно снижая риск принятия неверного решения и те негативные последствия, которые ошибка может повлечь за собой.
3. Используйте объективные и корректные инструменты оценки
Использование объективных и корректных методик поможет отобрать многосторонне квалифицированный персонал. Решения о найме, принятые на основе субъективной оценки, ведут к дискриминации, ущемлению прав некоторых социально-профессиональных групп. Внимательно проверяйте объективность и корректность используемых методик, изучая технические пособия и независимые рецензии о данном инструменте.
4. Используйте надежные методики
Если кандидат заполнит тест повторно, получите ли Вы одинаковые результаты? Психологи называют надежным такой тест, который дает устойчивые стабильные результаты. Для принятия решения о найме или карьерному продвижению, для верной интерпретации полученных результатов используйте только те методики, которые обладают высокой надежностью. Чем выше коэффициент надежности, тем увереннее Вы можете быть в том, что полученные результаты действительны.
5. Используйте валидные инструменты оценки, действительные для тех целей, для которых они предназначены
Валидность — один из самых важных критериев выбора оценочной методики. Валидность показывает: (1) способность теста измерять психологическую характеристику, (2) действительность измерения той характеристики, для диагностики которой он заявлен. Валидность как таковая не является одной из характеристик теста; она связана с непосредственным использованием данного теста. Валидность теста рассчитывается в строгой зависимости от других критериев; по некоторым критериям тест может не обладать валидностью. Убедитесь что тест валиден именно для той цели, для которой он используется. Технические пособия и аннотации к тесту обычно содержат статистические данные об изучении валидности, эта информация поможет вам понять, с какой целью и в каких ситуациях можно использовать данный тест.
6. Используйте подходящие для данной категории респондентов инструменты
Обычно определенный тест строится для определенной группы респондентов; вполне возможно, что этот тест не будет валиден для других групп. Например, тест, построенный для прогноза результативности менеджеров, может «не работать», если при его помощи тестировать младших сотрудников исполнительного аппарата. Во-первых, навыки и умения, необходимые для данных должностных позиций, сильно отличаются, во-вторых, уровень понимания теста у младшего персонала и у менеджерского состава различен. Используемые методики должны подходить для тех людей, которых Вы хотите оценить, то есть для целевой популяции.
Аннотации к тестам должны содержать описание групп, для которых был построен тест. Ваша целевая популяция должна совпадать с группой, для которой была создана или адаптирована методика. Для того, чтобы понять на сколько данный тест подходит той или иной группе, также внимательно оцените уровень понимания, культурные особенности, присутствие языковых сложностей.
7. Используйте инструменты, которые обладают технической и научной документацией
Насколько доступны и понятны методические рекомендации и аннотации тех методик, которыми Вы пользуетесь? Предложена ли Вам полная информация, на основе которой Вы могли бы оценить, соответствует ли данный инструмент потребностям организации? Внимательно оцените информационный пакет, предлагаемый поставщиками тестовых методик, убедитесь в том, что Вам предоставлена полная информация, что предлагаемая методика соответствует потребностям Вашей организации. К сожалению, если документация выборочна или представлена в непонятной для Вас форме, Вы рискуете ошибиться в выборе. Аннотация должна содержать информацию о построении теста, основные психометрические свойства теста. Также, должны быть даны рекомендации по работе с данной методикой, по регистрации, интерпретации и использованию результатов, должны быть даны описания шкал, пороговые значения, популяция. В аннотации также должны быть кратко описаны процедуры изучения валидности, надежности и корректности.
8. Удостоверьтесь в том, что администраторы оценки профессионально подготовлены для проведения ассессмента
Для получения валидных результатов необходимо правильно использовать оценочные инструменты. Проконсультируйтесь с разработчиками теста, внимательно прочитайте аннотацию к методике, обязательно ищите в ней информацию о том, какими навыками и опытом должен обладать администратор тестирования. Требования к профессиональной подготовке администратора зависят от специфики теста. Выбирайте подходящих специалистов! Персонал, ответственный за проведение тестирования, должен внимательно ознакомиться с методикой, подготовить все необходимое для ассессмента. Многие поставщики тест-систем проводят тренинги, в ходе которых учат работе по данной методике и интерпретации результатов. Администраторы тестирования должны быть подготовлены к тому, что в ходе тестирования могут возникнуть особые ситуации (например, могут встретиться кандидаты с определенными физическими недостатками).
9. Удостоверьтесь в том, что созданы благоприятные условия проведения тестирования
Существует много различных внешних факторов, которые могут повредить валидности оценочного процесса. Например, сильный шум в помещении где проходит тестирование, слабое освещение, неисправный компьютер могут отрицательно повлиять на настрой кандидата. Персонал, ответственный за проведение оценки, должен создать оптимальные условия проведения тестирования, а также обеспечить стандартность процедур тестирования.
10. Создайте благоприятные условия для проведения тестирования лиц с ограниченными возможностями
Для того, чтобы гарантировать всем кандидатам равенство шансов, дать возможность людям с ограниченными возможностями продемонстрировать свою компетентность, может потребоваться дополнительная адаптация оценочного процесса. Согласно международному законодательству в сфере защиты прав людей, обладающих особыми потребностями, оптимальные условия проведения тестирования данной категории лиц заключаются в обеспечении доступа к месту проведения оценки, в дополнительной адаптации инструментов и процесса оценки, в предоставлении тестируемому квалифицированной помощи. Например, можно предложить тестируемому вопросник, переведенный в систему Брайля, можно продлить время заполнения теста, можно попросить персонал зачитать тестируемому вопросы анкеты. Очень важно, чтобы Вы знали какие виды адаптации процесса оценки могут повредить валидности оценочного процесса. Если обеспечить оптимальные условия проведения оценки нельзя, оцените возможность использования альтернативных методов тестирования.
11. Позаботьтесь об информационной безопасности
Материалы, используемые при тестировании, проведенном как на компьютере, так и на бумажных носителях, должны храниться в безопасном месте. Если информация не защищена, тестируемые могут ознакомиться с вопросами теста задолго до начала тестирования, что ведет к недействительности полученных результатов. Во избежании таких проблем, рекомендуется хранить материалы в закрытых помещениях, а доступ к материалам предоставить ограниченному числу людей, обеспечивающим процесс проведения оценки. За защиту информации ответственны также и разработчики тестов. Информационная безопасность теста со временем падает; поэтому, разработчики теста должны периодически обновлять вопросники.
12. Сохраняйте конфиденциальность информации
Результаты оценки строго конфиденциальны. Работодатели должны уважать право тестируемого на конфиденциальность. С результатами оценки должны быть ознакомлены только уполномоченные лица: ответственные за проведение тестирования и те, кто принимает решения на основе полученных результатов. Результаты оценки не могут быть переданы другим организациями или частным лицам, без согласия тестируемого.
13. Удостоверьтесь в том, что результаты оценки верно интерпретируются
Тестирование используется для того, чтобы определить уровень компетенции и навыков, предсказать дальнейшую успешность тестируемого. Составление прогнозов должно быть объективно и документировано. Очень важна верная интерпретация результатов, ошибка в интерпретации может привести к серьезным последствиям. Удостоверьтесь в том, что существует реальная документальная основа для интерпретации результатов и принятия кадровых решений. Аннотация к тесту должна содержать рекомендации по интерпретации результатов.
Доказательство надежности и валидности при использовании новой методики
1. Доказательство надежности и валидности при использовании новой методики
Выполнила: аспирантка СПбГУ Рашитова Л.С.Научный руководитель: доктор психологических наук,
профессор Посохова С. Т.
2. Надежность теста
Надёжностью называется один из критериев качества теста, егоустойчивость по отношению к погрешностям измерения. Различают два вида
надёжности — надёжность как устойчивость и надёжность как внутреннюю
согласованность.
Устойчивость результатов теста или ретестовая надежность (англ —
test-retest reliability) — возможность получения одинаковых результатов у
испытуемых в различных случаях.
Внутренняя согласованность(англ. — internal consistency) определяется
связью каждого конкретного элемента теста с общим результатом, тем,
насколько каждый элемент входит в противоречие с остальными, насколько
каждый отдельный вопрос измеряет признак, на который направлен весь тест.
3. Способы выявления надежности методики
• Метод расщепления (Split-half reliability)Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и
нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если
корреляция высокая, тест можно считать надежным.
• Метод альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим
разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого
отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и
того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если
такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест
не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот
же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
4. Альфа Кронбаха в SPSS
1. Анализ2. Шкалы
3. Анализ надежности
• отметить нужные переменные;
• выбрать «Альфа».
4. Ок
5. Валидность
Валидность— мера соответствия методик и результатов исследованияпоставленным задачам.
1. Содержательная валидность — степень соответствия содержания
заданий методики той реальной деятельности, в которой
проявляется измеряемое в методике свойство.
2. Конструктная валидность — это степень обоснованности того, что
методика действительно измеряет заданные и при этом научно
обоснованные конструкты.
3. Критериальная валидность — это определенная статистическими
методами степень соответствия результатов методики и
определенных заранее внешних критериев.
6. Конструктная валидность
• «Конвергентная валидизация» — это проверка ожидаемой связирезультатов конкретной методики с показателями других методик,
измеряющих сходные характеристики, с помощью корреляционного
анализа.
• «Дискриминантная валидизация» — проверка валидности здесь
заключается в том, что тест не должен измерять никакой черты, с
которой он теоретически и не должен быть связан.
7. Факторный анализ
Факторный анализ используется:• для замены множества коррелирующих переменных меньшим
их числом – факторов;
• для выявления скрытой, недоступной для измерения
переменной;
• для измерения структуры измеряемых показателей методики.
8. Факторный анализ в SPSS
1. Анализ2. Снижение размерности
3. Факторный анализ: добавляем переменные
4. Извлечение: метод главных компонент; график собственных
значений.
9. Определение числа факторов
Количество факторов определяетисследователь:
— «по изгибу графика»;
— число факторов равно числу
компонент собственное значение
которых больше 1.
10. Факторизация
1. Анализ2. Снижение размерности
3. Факторный анализ: добавляем переменные
4. Извлечение:
-пишем число факторов;
— метод максимального правдободобия.
5. Вращение : варимакс.
11. Результаты факторного анализа
• Критерий согласия должен быть больше 0,05;• Повернутая факторная матрица отражает долю выраженности
показателя в факторе;
• Матрица коэффициентов факторных значений отражает данные
для дальнейшего использования в исследовании.
12. Нестандартизированная анкета для педагогов
ПОКАЗАТЕЛИКурение
Прогулы учебных
Проблемы с
занятий
успеваемостью
Употреблениеспиртных Агрессивность ко взрослым Семейная ситуация
напитков
Воровство
Агрессивность к
Учет в комиссии по
сверстникам
делам
несовершеннолетних
Драки
Причастность к
неформальным группам
Использование
Самовольные уходы из
ненормативной
дома
лексики
14.
Определение надежности Альфа Кронбаха:• в экспериментальной группе α= 0,813;
• в контрольной группе α=0,78.
Конструктная валидность
1
I
rs =
0.106
II
rs =
0.47*
III
rs =
0.253
IV
rs =
0.48*
V
rs =
0.189
VI
rs =
0.577*
*
VII rs =
0.337
VIIIII rs =
0.57*
IX
rs =
0.392
X
rs =
0.497*
2
rs =
0.079
rs =
0.383
rs =
0.479*
rs =
0.101
rs =
0.512*
rs =
0.437
3
rs =
0.092
rs =
0.483*
rs =
0.631**
rs =
0.276
rs =
0.652**
rs =
0.299
4
rs =
0.242
rs =
0.507*
rs =
0.571*
rs =
0.191
rs =
0.599**
rs =
0.447
5
6
rs =
rs =
0.471* 0.095
rs =
0.383
rs =
rs =
0.237 0.582**
rs =
rs =
0.604** 0. 198
rs =
0.344**
rs =
rs =
0.664** 0.144
7
rs = 0.202
rs =
0.27
rs = 0.041
rs =
0.342
rs = 0.135
rs =
0.458*
8
rs = 0.174
rs =
0.5*
rs = 0.3
rs =
0.407
rs =
0.226
rs =
0.146
9
rs = 0.086
rs =
0.386
rs =
0.409
rs =
0.435
rs =
0.376
rs =
0.478*
rs =
0.418
rs =
0.427
rs =
0.376
rs =
0.447
rs =
0.334
rs =
0.603**
s=
0.306
rs =
0.41
rs =
0.583**
rs =
0.661**
rs =
0.259
rs =
0.35
rs =
0.578**
rs =
0.634**
rs =
0.462*
rs =
0.528*
rs =
0.074
rs =
0.416
rs =
0.434
rs =
0.274
rs = 0.188
rs =
0.444
rs =
0.465*
rs =
0.242
rs =
0.316
rs =
0.349
rs =
0.443
rs =
0. 407
rs =
0.298
rs =
0.398
rs =
0.33
rs =
0.496*
Взаимосвязь показателей
нестандартизированной беседы
и карты наблюдений Л.Сттта.
Примечание: * — p≤0,05; ** — p
3- драки; 4- использование ненормативной
лексики; 5- агрессивность ко взрослым; 6 –
агрессивность к сверстникам; 7 — самовольные
уходы; 8 — семейная ситуация; 9 – КДН; I –
депрессия; II — враждебность ко взрослым; III тревога к детям; IV — асоциальность; V враждебность к детям; VI – неугомонность; VII –
умственная отсталость; VIII сексуальное
развитие, IX — болезни органические нарушения;
X физические дефекты
16. Факторный анализ
ФакторПоказатели
«социальная дезадаптация»
«употребление спиртных напитков», «прогулы
учебных занятий», «курение», «проблемы с
успеваемостью», «использование ненормативной
лексики»
«агрессивность»
«агрессивность по отношение к сверстникам»,
«драки», «агрессивность по отношению к
взрослым»
«асоциальная самоидентификация»
«причастность к неформальным группам»,
«самовольные уходы»
«правонарушения»
«воровство», «постановку на учет в комиссии по
делам несовершеннолетних»
Повернутая факторная матрицаa
1
Факторный анализ
2
3
,008
,301
,185
,362
4
КДН
Семейная ситуация
Проблемы с успеваемостью
,337
,049
,537
,150
-,020
,269
Самовольные уходы
Неформальные группы
,139
,102
,666
,317
,126
,190
,733
,126
,199
,871
,087
,113
,236
,528
,390
,043
,628
,072
,079
,160
,513
,484
,140
-,014
,088
,086
,779
,616
,751
,382
,220
,038
,346
,285
,160
,453
,248
,655
-,017
,122
Агрессивность к сверстникам
Агрессивность ко взрослым
Прогулы учебного заведения
Использование ненормативной лексики
Драки
Воровство
Употребление спиртных напитков
Курение
,649
,070
18.
БЛАГОДАРЮ ЗА ВНИМАНИЕ!★ Валидность, психология — Вики .. | Информация
1. Способы установления валидности методики.
(Methods for establishing the validity of the methodology)Чаще всего, термин «валидность» рассматривается в контексте конкретных методов или эксперименты. это может быть поставлен вопрос об обоснованности того или иного метода в целом, например, методом тестирования или оценки Центра. такие исследования проводятся с использованием мета-анализа.
Существует три основных способа установления валидности методики.
I. оценка обоснованности содержания.
Основной валидность — степень соответствия содержания заданий методики, которые реальной деятельности, которая измеряется в методе собственность. особый случай содержательная валидность-это так называемая очевидная лица или лица валидность — степень соответствия методики оценки ожиданий. для большинства методик является члена оценка была очевидная связь между содержанием процедуры оценки и реальной деятельности, которая является предметом оценки.
II. Оценка конструктной валидности.Конструктная валидность-это степень обоснованности того, что техника действительно меры определены и научно обоснованы конструкции. есть как минимум две стратегии установления конструктной валидности.
Первый подход — «конвергентная валидизация» для проверки ожидаемых результатов при конкретной методологии с другими методиками, которые измеряют сходные характеристики. например, если измерение каких-либо характеристик, существует несколько методов, которые целесообразно проводить эксперименты, по крайней мере, два, а потом, когда он обнаруживает высокую положительную корреляцию их результатов между собой мы можем говорить о справедливости. основной целью конвергентной проверки является определение, могут ли оценки теста варьироваться в соответствии с ожиданиями.
Второй подход — «дискриминантная валидизация» здесь. проверка действительности заключается в том, что тест не должен измерять никакой черты, с которой она теоретически не должно быть связано.
III. Оценка критериальной валидности.Критериальная валидность определяется статистическими методами, в какой степени результаты методологии и предварительно определенными внешними критериями. В качестве таких критериев могут быть:
- Независимо от результатов методов прямого действия исследуемого качества.
- Показатели социально — и организационно-значимых результатов ключевые показатели эффективности или КПЭ KPI, достижения стабильности семейных отношений и т. стр).
Один из видов валидности критерий т. н. «прогностическая» действия такого рода действия используется, когда метод разработан, чтобы дать определенный прогноз поведения человека. соответственно, если прогноз оправдается со временем, это свидетельствует о том, что метод является прогностически силу.
Профессиональные разработчики методик должны оправдать все эти действия, и продолжить сбор свидетельств в пользу обоснованности своих инструментов.
Качество информации
Вышла книга автора сайта!
Теоретическая валидизация в социологическом исследовании: Методология и методы
Качество получаемой информации: валидность и надежность
Построение выборки >> Качество информацииДля ученого-практика рассуждать о проблемах качества информации — высший пилотаж. Тебе тоже не помешает кое-что знать об этом.
0 Нажми, если пригодилось =ъ
Ссылка на эту страницу для научных и учебных работДембицкий С. Качество получаемой информации: валидность и надежность [Электронный ресурс]. — Режим доступа: http://soc-research.info/principles/7.html
Традиционно «валидность» является одной из ключевых категорий в анализе эмпирических данных как психологических, так и социологических исследований. В дальнейшем под валидностью будет пониматься степень соответствия результатов исследовательского процесса действительности [Johnston, 1980: р.190-191].
В рамках количественных исследований принято выделять конструктную, внешнюю и внутреннюю валидность. Первая связана с обеспечением правильности измерения, вторая и третья – с выявлением причинно следственных связей в рамках экспериментальных исследований [Lahm, 2007: р. 5173-5175]. Несмотря на то, что Дональд Кэмпбелл в свое время уделил немало внимания всем трем типам валидности [Кэмпбелл, 1996; Campbell and Fiske, 1959], сегодня все еще часто встречаются случаи «межурментизации» понятия валидность, во время которых в ранг ключевой возводится конструктная валидность, интегрирующая в себе очевидную, содержательную, внешнюю и другие виды валидности валидности [Messick, 1995: р. 745]. С точки зрения разработки тестов и других измерительных методик это может звучать логично. Однако в более широком контексте эмпирических исследований «межурментизация» является классическим примером косности, догматизма и нежелания признать очевидное. Такая позиция «оставляет за бортом» даже количественную экспериментальную традицию, не говоря уже о широком спектре подходов качественного толка.
Что касается качественных исследований, то проблема валидности не получила здесь однозначного решения. Вместе с тем, ее состояние полностью отвечает принципу пролиферации, предложенному в ранних работах Феерабента – каждый сможет найти то, что будет отвечать его личной методологической позиции.
Наибольшей известностью пользуется концепция Губы и Линкольн, впервые представленная еще в 1985 году [Miles and Hernandez Jozefowicz-Simbeni, 2010: p. 421-422]. В своей работе они говорят даже не о валидности, а о критериях оценки качества или строгости (rigor) качественных исследований. По мнению Губы и Линкольн, в качественных исследованиях необходимо говорить не о внутренней валидности, а о достоверности (credibility), не о внешней валидности, а о переносимости (transferability), не о надежности, а о функциональной надежности (dependability), наконец не об объективности, а о подтверждаемости (confirmability). Все они характеризуют достоверность (trustworthiness) исследования. Правдоподобие основывается на согласии участников исследования с формулировками, интерпретацией и вообще результатами анализа исследователя. Переносимость относится к способности концептов или конструктов, полученных в ходе исследования, быть применимыми к более широкому социальному контексту. Функциональная надежность имеет отношение к тому насколько правильно выбран тип данных и соответствующие методы их сбора в рамках того или иного качественного проекта. Подтверждаемость переносит «бремя» объективности с исследования на данные. Поэтому исследователь должен сделать все возможное для подтверждения полученных данных.
В еще одной известной работе [Patton, 2002: p. 552] интегральной характеристикой является уже достоверность (credibility), основывающаяся на строгости использования методов (rigorous methods), достоверности самого исследователя (credibility of the researcher) и его философских взглядах относительно особенностей качественного исследования (philosophical belief in the value of qualitative inquiry). Строгость использования методов необходима для получения высококачественных данных, открывающих возможность проведения систематического анализа. Достоверность исследователя основывается на его тренировках, опыте, достижениях и самопрезентации. А его философские взгляды должны включать признание натуралистичного исследования, качественных методов, индуктивного анализа, целенаправленной выборки и целостного мышления.
И даже в таких подходах, где одной из центральных категорией остается валидность, она сопоставляется с другими, центральными с точки зрения качественных исследований, понятиями. Так, в своей работе Максвелл [Maxwell, 1992: p. 285-293] указывает на то, что понимание является более важным понятием, чем валидность. Поэтому типы последней выводятся именно из специфики понимания, присущего качественным исследованиям (типы валидности характеризуют типы понимания). При этом он не считает, что качественный и количественный подходы к валидности являются несопоставимыми. Главное же условие соответствующей интеграции – их правильное понимание в их собственных терминах.
Максвелл выделяет три типа валидности – описательную, интерпретативную и теоретическую. Описательная валидность связана с тем правильно ли исследователь излагает в своей работе то, что он увидел и услышал во время исследования. Это первый и важнейший аспект валидности – неправильное описание поступков и слов людей перечеркнет дальнейшие попытки в достижении понимания изучаемого феномена. Вместе с тем, исследователь не только описывает слова и поступки людей, но объясняет их значение – интерпретирует данные. Отсюда понимание исследователем того, что принято называть перспективой участников исследования (особенности их интенции, восприятия, чувств, убеждений, оценок и т.д.), напрямую связано с интерпретативной валидностью. После того как исследователь достиг понимания на описательном и интерпретативном уровне, он готов перейти к построению теории, позволяющей подняться на более высокий уровень абстракции как в смысле выводов, так и в смысле терминологии. Если на предыдущих этапах исследователь фокусируется на понимании, то здесь он переходит к объяснению, являющемуся его завершающей фазой. Теоретическая валидность, имеющая решающее значение на этом этапе, должна давать оценку двум главным составляющим любой теории – используемым понятиям и взаимоотношениям, существующим между ними. В соответствии с этими двумя аспектами теории можно выделить и два аспекта теоретической валидности – валидность используемых понятий и валидность постулируемых взаимосвязей между ними.
Подход Максвелла представляется наиболее приемлемым в решении проблемы совместной валидизации в рамках качественных и количественных исследований. В этом случае в состав валидности входят такие ее типы: теоретическая, конструктная, внешняя, внутренняя и предсказательная. Теоретическая валидность указывает насколько теоретический конструкт, положенный в основу исследования, соответствует реальному социальному феномену. Конструктная валидность демонстрирует насколько измерительная методика и полученные на ее основе результаты соответствуют теоретическому конструкту. Внешняя валидность связана с тем насколько выборочная совокупность может выступать основой для обобщений в отношении других людей, контекстов и периодов. Внутренняя валидность показывает насколько измерения исследования подтверждают существование связей между переменными, а также насколько такие связи могут быть подтверждением причинно-следственной зависимости между ними. Предсказательная валидность связана с тем насколько теоретическая, внешняя и внутренняя валидности обеспечивают предсказательный потенциал исследования [Дембицкий, 2010].
По большей части достижение теоретической валидности является прерогативой качественного исследования, так как теория, построенная на основе тщательного изучения эмпирического мира, будет гораздо обоснованней, чем теория, основывающаяся на изучении литературы и, тем более, на здравом смысле исследователя. После достижения теоретической валидности можно переходить к решению других задач валидизации в рамках количественной парадигмы.
Категория «надежность» имеет отношение к устойчивости и согласованности полученных результатов. Остановимся на трех основных видах надежности:
А. Ретестовая надежность является характеристикой, показывающей, насколько результаты опроса с помощью конкретной методики меняются с течением времени. Определение ретестовой надежности приемлемо в случаях измерения устойчивых свойст, слабо подверженных изменениям в долгосрочной перспективе. Если соответствующая методика является надежной, то результаты первого и второго опросов должны показать устойчивые результаты. Если же первый и второй опрос согласованы слабо, то методика является ненадежной и не может использоваться в исследованиях. Величина ретестовой надежности определяется с помощью коэффициентов корреляции.
Важно помнить, что использование ретестовой надежности не подходит для тех методик, которые предназначены для измерения характеристик, находящихся в постоянном изменении. В данном случае низкая устойчивость укажет не на недостатки опросного инструмента, а на изменение социальной/психологической ситуации.
Б. Внутренняя надежность показывает, насколько согласованны результаты, полученные с помощью разных индикаторов, измеряющих один признак. Таким образом, этот вид надежности подходит для сложных составных шкал, опирающихся на группу показателей. Высокая внутренняя надежность будет продемонстрирована в том случае, когда результаты показателей изменяются в одном направлении. Одним из главных способов определения внутренней надежности является использование коэффициента Альфа Кронбаха.
Проверка внутренней согласованности необходима, прежде всего, для того, чтобы удостовериться измеряют ли индикаторы методики одно и то же свойство.
В. Надежность кодировки определяется в исследованиях с применением контент-анализа или же в других исследованиях, требующих кодировки текстового материала. Этот вид надежности показывает качество инструкций, служащих руководством при кодировке различных частей текста. Высокая согласованность работы различных кодировщиков говорит о том, что соответствующая инструкция составлена правильно.
Коэффициенты, используемые для определения надежности кодировки, зависят от характера свойств, подлежащих кодировки. Если свойство является количественным, можно использовать один из коэффициентов корреляции. Если же свойство является качественным, то подойдет, например, коэффициент Каппа Кохена.
В зависимости от особенностей исследования необходима проверка тех или иных видов валидности и надежности. В противном случае исследователь рискует получить результаты-артефакты, то есть результаты, порожденные особенностями проведения исследования, а не свойствами изучаемых объектов.
- default_titleJohnston J., Pennypacker H. Strategies and tactics of human behavioral research. – New Jersey: Erlbaum, 1980. – 210 p.
- default_titleLahm K. Quantitative validity // The Blackwell Encyclopedia of Sociology / ed. by George Ritzer. — Malden, Oxford, Carlton: Blackwell Publishing, 2007. — P. 5173-5175.
- default_titleКэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях. – М.: Социально-психологический центр, 1996. – 392 с.
- default_titleCampbell D., Fiske D. Convergent and Diskriminant Validation by the Multitrait-multimethod Matrix // Psychological Bulletin. – 1959. – № 2. – Р. 81–105.
- default_titleMessick S. Validity of Psychological Assessment // American Psychologist. — 1995. — №9. — P. 741-749.
- default_titleMiles B., Hernandez Jozefowicz-Simbeni D. Naturalistic Inuiry // The Handbook of Social Work Research Methods / ed. by B. Thyer. – Los Angeles; London; New Delhi; Singapore; Washington DC: Sage, 2010. — P. 415-424.
- default_titlePatton M. Qualitative evaluation and research methods. – Thousand Oaks: Sage, 2002.
- default_titleMaxwell J. Understanding and Validity in Qualitative Research // Harvard Educational Review. — 1992. — №3. — P. 279-300.
- default_titleДембицкий С. Теоретическая валидность и смещение данных в социологическом исследовании [Электронный ресурс]. – Режим доступа: http://www.ecsocman.edu.ru/soc-ua/msg/337817.html (обновленный вариант статьи)
- Show More
Обеспечение достоверности — Курс по методологии исследования
Смешивающие переменные
Смешивающая переменная — это посторонняя переменная, которая статистически связана (или коррелирована) с независимой переменной. Это означает, что при изменении независимой переменной вместе с ней изменяется и мешающая переменная. Отказ принять во внимание смешивающую переменную может привести к ложному выводу о том, что зависимые переменные находятся в причинно-следственной связи с независимой переменной.Возьмем, к примеру, гипотетическое исследование, которое показало, что люди, которые носят зажигалку в кармане, чаще страдают раком. Было бы неправильно делать вывод, что между этими двумя переменными существует прямая связь или что ношение зажигалки в кармане вызывает рак. Вместо этого есть смешивающая переменная — курение; люди, которые носят в кармане зажигалку, с большей вероятностью будут курильщиками, а у тех, кто курит, с большей вероятностью будет диагностирован рак. Исследователи должны проявлять осторожность при выявлении и контроле потенциальных мешающих переменных, чтобы можно было точно идентифицировать и измерять связи между зависимой переменной и независимой переменной.
Срок действия
В оставшейся части этого краткого курса методов исследования будут рассмотрены различные угрозы достоверности, существующие на каждом этапе исследовательского процесса. Валидность относится к тому, хорошо ли спланировано исследование и дает ли он результаты, подходящие для обобщения на интересующую группу населения. «База знаний о методах исследования» Trochim предоставляет краткое и полезное резюме каждого типа достоверности; В этом модуле обсуждаются три основных типа достоверности, которыми должен интересоваться исследователь.(1)Внутренняя валидность
Внутренняя валидность применяется в исследованиях, которые стремятся установить причинно-следственную связь между двумя переменными, и относится к степени, в которой исследование может сделать хорошие выводы об этой причинной связи. Внутренняя достоверность достигается, когда исследователь может окончательно заявить, что наблюдаемые в исследовании эффекты были вызваны манипуляциями с независимой переменной, а не каким-либо другим фактором. Переменные, находящиеся вне контроля или рассмотрения исследователем, могут повлиять на результат исследования и, следовательно, могут помешать внутренней валидности.(2)
Construct Validity
Construct validity (Действительность конструкции) тесно связана с процессом реализации , который мы обсуждали в Модуле 1. Это относится к степени, в которой исследователь может утверждать, что точные выводы могут быть сделаны на основе введенных в действие мер в исследование теоретических построений, на которых они были основаны. Конструктивная валидность связана с обобщением специфики исследования к более широкой концепции, которую исследование пытается измерить или сделать выводы.Считается, что исследование имеет конструктивную валидность, если исследователь может продемонстрировать, что интересующие переменные были должным образом введены в действие. (3) Например, если в примере модуля 1 близорукие люди, получающие корректирующие линзы, исследователь решил ввести в действие «Экономически продуктивный» как «сумма денег, которую человек имеет в своих сбережениях», исследователь получил бы совершенно другие результаты. Люди могут иметь другие источники дохода (подарки, доход супруга, наследство и т. Д.)) кроме личной еженедельной заработной платы, которая может влиять на эту переменную, то есть сумма сбережений составляет , а не , что является хорошим показателем экономической производительности; поэтому это влияет на конструктивную валидность исследования.
Внешняя действительность
Исследователь часто не может работать со всей представляющей интерес совокупностью, а вместо этого должен изучить меньшую выборку этой совокупности, чтобы сделать выводы о большей группе, из которой взята выборка. Внешняя валидность включает в себя степень, в которой выводы могут быть обобщены на более широкую популяцию.Исследование считается внешне достоверным, если выводы исследователя могут быть точно обобщены на популяцию в целом. (4) Выборочная группа должна быть репрезентативной для целевой группы, чтобы гарантировать внешнюю достоверность.Как исследователь, при разработке исследования важно всегда помнить о концепции валидности. Хороший исследователь обсудит дизайн проекта с консультантом или группой коллег, чтобы убедиться, что его обоснованность сохраняется на всех этапах процесса.Недостаточный исследовательский проект может сделать выводы, которые неуместны или даже опасны в применении к целевой группе населения.
Обеспечение достоверности
Дополнительную информацию о том, как обеспечить достоверность исследования, см. В разделе «Срок действия исследования».
Перейти к Модулю 4: Меры по разработке исследования >>
Сноски
(1) Трохим, В. М. К. «Дизайн» База знаний по методам исследования, 2-е издание.
(4) Pelham, B. W.; Blanton, H. Проведение исследований в области психологии: измерение веса дыма, 3-е издание. Wadsworth Publishing (27 февраля 2006 г.).
Достоверность в дизайне исследования
Выводы, которые вы делаете в результате своего исследования (будь то анализ опроса, фокус-группы, экспериментальный план или другие методы исследования), полезны только в том случае, если они верны.
Насколько «верны» эти результаты? Насколько хорошо они представляют то, что вы на самом деле пытаетесь изучить? Валидность используется, чтобы определить, измеряет ли исследование то, что оно намеревалось измерить, и приблизить достоверность результатов.
К сожалению, исследователи иногда создают свои собственные определения того, что считается достоверным.
- В количественных исследованиях проверка достоверности и надежности является данностью.
- Однако некоторые качественные исследователи зашли так далеко, что предположили, что достоверность не применима к их исследованиям, даже если они признают необходимость некоторых квалификационных проверок или мер в своей работе.
Это неверно. Валидность всегда важна, даже если ее сложнее определить при качественном исследовании.
Игнорирование действительности — значит поставить под сомнение надежность вашей работы и поставить под сомнение уверенность других в ее результатах. Даже когда в исследованиях используются качественные показатели, их необходимо рассматривать с использованием показателей надежности и валидности, чтобы поддерживать достоверность результатов.
Что такое обоснованность в исследовании?
Достоверность — это то, как исследователи говорят о степени соответствия результатов действительности. Методы исследования, количественные или качественные, представляют собой методы изучения реального явления — валидность означает, какую часть этого явления они измеряют по сравнению ссколько «шума» или несвязанной информации зафиксировано в результатах.
Валидность и надежность определяют разницу между «хорошими» и «плохими» исследовательскими отчетами. Качественное исследование зависит от приверженности тестированию и повышению достоверности, а также надежности результатов ваших исследований.
Любое ценное исследование связано с тем, является ли то, что измеряется, тем, что должно быть измерено, и рассматривает способы, которыми на наблюдения влияют обстоятельства, в которых они проводятся.
Основа того, как делаются наши выводы, играет важную роль в рассмотрении более широких вопросов существа любого данного исследования.
По этой причине мы собираемся рассмотреть различные типы валидности, которые были сформулированы как часть законной методологии исследования.
Вот 7 основных типов валидности в исследованиях:
- Срок действия
- Срок действия
- Срок действия конструкции
- Внутренний срок действия
- Внешнее действие
- Срок действия статистического заключения
- Срок действия, связанный с критерием
1.Срок действия
Фактическая валидность — это насколько достоверными кажутся ваши результаты в зависимости от того, как они выглядят. Это наименее научный метод достоверности, поскольку он не оценивается количественно с помощью статистических методов.
Действительность лица не является действительностью в техническом смысле этого слова. Его интересует, кажется ли, что мы измеряем то, что заявляем.
Здесь мы смотрим, насколько достоверная мера кажется на первый взгляд, и на основании этого делаем субъективные суждения.
Например,
- Представьте, что вы проводите опрос, который кажется действительным для респондента, и вопросы выбираются, потому что они выглядят действительными для администратора.
- Администратор спрашивает группу случайных людей, неподготовленных наблюдателей, кажутся ли им эти вопросы верными
В исследованиях никогда не бывает достаточно полагаться только на суждения о лицах — и необходимы более поддающиеся количественной оценке методы проверки достоверности, чтобы сделать приемлемые выводы. Существует множество инструментов измерения, которые следует учитывать, поэтому фактическая достоверность полезна в случаях, когда вам нужно отличать один подход от другого.
Лицо достоверности никогда не следует доверять по существу.
2. Срок действия
Достоверность содержания — это то, охватывает ли мера, используемая в исследовании, все содержание базовой конструкции (то, что вы пытаетесь измерить).
Это тоже субъективная мера, но в отличие от фактической достоверности мы спрашиваем, охватывает ли содержание меры всю область содержания. Если исследователь хотел бы измерить интроверсию, он должен был бы сначала решить, что составляет релевантную область контента для этой черты.
Достоверность содержания считается субъективной формой измерения, поскольку она по-прежнему полагается на восприятие людей для измерения конструкций, которые в противном случае было бы трудно измерить.
Где достоверность контента отличается (и становится полезной), так это благодаря привлечению экспертов в данной области или лиц, принадлежащих к целевой группе. Это исследование можно сделать более объективным с помощью строгих статистических тестов.
Например, у вас может быть исследование валидности контента, которое информирует исследователей о том, как элементы, используемые в опросе, представляют их предметную область, насколько они ясны и в какой степени они поддерживают теоретическую факторную структуру, оцененную с помощью факторного анализа.
3. Срок действия конструкции
Конструкция представляет собой набор моделей поведения, которые связаны значимым образом для создания образа или идеи, придуманной для исследовательских целей. Валидность конструкции — это степень, в которой ваше исследование измеряет конструкт (по сравнению с вещами вне конструкции).
Депрессия — это конструкция, которая представляет собой черту личности, которая проявляется в таком поведении, как чрезмерный сон, потеря аппетита, трудности с концентрацией внимания и т. Д.
Существование конструкции подтверждается наблюдением за набором связанных показателей. Любой один знак может быть связан с несколькими конструкциями. У человека с затруднением концентрации внимания может быть A.D.D. но не депрессия.
Конструктивная валидность — это степень, в которой могут быть сделаны выводы из операционализаций (соединения концепций с наблюдениями) в вашем исследовании к конструкциям, на которых эти операционализации основаны. Чтобы установить достоверность конструкции, вы должны сначала предоставить доказательства того, что ваши данные поддерживают теоретическую структуру.
Вы также должны показать, что управляете операционализацией конструкции, другими словами, показать, что ваша теория имеет некоторое соответствие с реальностью.
- Конвергентная достоверность — степень, в которой операция похожа на другие операции, на которые она теоретически должна быть похожа.
- Дискриминационная валидность -– если шкала адекватно дифференцирует себя или не различает группы, которые должны различаться или не отличаться на основании теоретических соображений или предыдущих исследований.
- Номологическая сеть — представление конструктов, представляющих интерес в исследовании, их наблюдаемых проявлений и взаимосвязей между ними. Согласно Кронбаху и Милу, номологическая сеть должна быть разработана для меры, чтобы она имела конструктивную валидность .
- Multitrait-Multimethod Matrix — шесть основных соображений при проверке достоверности конструкции в соответствии с Кэмпбеллом и Фиске. Это включает в себя оценки конвергентной достоверности и дискриминационной достоверности.Остальные — это блок метода признака, несколько методов / признака, действительно другая методология и характеристики признаков.
4. Внутренняя действительность
Внутренняя достоверность относится к степени, в которой независимая переменная может быть точно указана для получения наблюдаемого эффекта.
Если влияние зависимой переменной обусловлено только независимой (ыми) переменной (ами), то внутренняя достоверность достигается. Это степень, в которой можно манипулировать результатом.
Другими словами, внутренняя валидность — это то, как вы можете сказать, что ваше исследование «работает» в исследовательской среде.Влияет ли изменяемая вами переменная на изучаемую вами в рамках данного исследования?
Никогда не пропустите запись в блоге
Подпишитесь на блог ActiveCampaign, чтобы получать последние новости о продуктах.
5. Внешнее действие
Внешняя валидность означает степень, в которой результаты исследования могут быть обобщены за пределами выборки. То есть вы можете применить свои выводы к другим людям и окружающим условиям.
Думайте об этом как о степени, в которой результат может быть обобщен.Насколько хорошо результаты исследования применимы к остальному миру?
Лаборатория (или другое место исследования) — это контролируемая среда с меньшим количеством переменных. Внешняя валидность относится к тому, насколько хорошо результаты сохраняются, даже при наличии всех этих других переменных.
6. Срок действия статистического заключения
Достоверность статистического заключения — это определение наличия взаимосвязи или совместной вариации между причинно-следственными переменными.
Этот тип действительности требует:
- Обеспечение надлежащих процедур отбора проб
- Соответствующие статистические тесты
- Надежные процедуры измерения
Это степень достоверности вывода.
7. Срок действия по критерию
Критериальная валидность (также называемая инструментальной валидностью) — это мера качества ваших методов измерения. Точность меры демонстрируется путем сравнения ее с показателем, который уже известен как действительный.
Другими словами — если ваша мера имеет высокую корреляцию с другими мерами, которые, как известно, действительны из-за предыдущих исследований.
Для того, чтобы это сработало, вы должны знать, что критерий был хорошо измерен.И знайте, что соответствующие критерии существуют не всегда.
Что вы делаете, так это проверяете эффективность вашего ввода в эксплуатацию по критериям.
Критерии, которые вы используете в качестве стандарта суждения, учитывают различные подходы, которые вы бы использовали:
- Predictive Validity — способность операционализации предсказать то, что она теоретически способна предсказать. Степень, в которой мера предсказывает ожидаемые результаты.
- Concurrent Validity — способность операционализации различать группы, которые она теоретически должна уметь.Здесь тест хорошо коррелирует с показателем, который был ранее проверен.
Когда мы смотрим на достоверность данных опроса, мы спрашиваем, представляют ли данные то, что, по нашему мнению, они должны представлять.
Мы полагаемся на образ мыслей и отношение респондента, чтобы предоставить нам достоверные данные.
Другими словами, мы зависим от них, чтобы они ответили на все вопросы честно и добросовестно. Мы также зависим от того, смогут ли они ответить на вопросы, которые мы задаем.Когда задаются вопросы, которые респондент не может понять или понять, тогда данные не говорят нам, что, по нашему мнению, они делают.
МЕТОДЫ ИССЛЕДОВАНИЙ: ПЛАНИРОВАНИЕ: ДЕЙСТВИТЕЛЬНОСТЬ
МЕТОДЫ ИССЛЕДОВАНИЙ: ПЛАНИРОВАНИЕ: ДЕЙСТВИТЕЛЬНОСТЬДЕЙСТВИТЕЛЬНОСТЬ |
В целом VAL является показателем вашего исследования. В частности, валидность относится как к дизайну, так и к методам вашего исследования.Достоверность сбора данных означает, что ваши выводы действительно отражают явление, которое вы претендуете измерить. Действительные претензии являются твердыми претензиями.
Достоверность — одна из основных проблем исследования. «На любое исследование могут влиять различные факторы, которые, хотя и не имеют отношения к интересам исследования, могут сделать выводы недействительными» (Селигер и Шохами 1989, 95). Контроль всех возможных факторов, угрожающих достоверности исследования, является основной обязанностью каждого хорошего исследователя. |
ВНУТРЕННЯЯ ДЕЙСТВИТЕЛЬНОСТЬ На влияют недостатки в самом исследовании, такие как отсутствие контроля некоторых основных переменных (проблема дизайна) или проблемы с исследовательским инструментом (проблема сбора данных).
«Результаты могут считаться внутренне недействительными, потому что на них могли повлиять факторы, отличные от тех, которые, как считается, стали их причиной, или потому, что интерпретация данных исследователем явно не подтверждается» (Селигер и Шохами 1989, 95 ).
Вот некоторые факторы, которые влияют на внутреннюю валидность:
- Вариабельность субъектов
- Размер исследуемой популяции
- Время, отведенное на сбор данных или экспериментальную обработку
- История
- Истощение
- Созревание
- Чувствительность инструмента / задачи
ВНЕШНЯЯ ДЕЙСТВИТЕЛЬНОСТЬ — это степень, в которой вы можете обобщить свои выводы на большую группу или в других контекстах. Если вашему исследованию не хватает внешней достоверности, его результаты нельзя будет применить к контексту, отличному от того, в котором вы проводили свое исследование.Например, если все испытуемые — мужчины одной этнической группы, ваши выводы могут не применяться к женщинам или другим этническим группам. Или, если вы проводили исследование в строго контролируемой лабораторной среде, ваши результаты могут не точно отражать то, что может происходить в реальном мире.
«Результаты можно назвать внешне недействительными, потому что [они] не могут быть расширены или применены к контекстам, выходящим за рамки тех, в которых проводилось исследование» (Селигер и Шохами 1989, 95).
Вот семь важных факторов, влияющих на внешнюю валидность:
- Характеристики популяции (субъекты)
- Взаимодействие выбора субъекта и исследования
- Описательная явность независимой переменной
- Влияние среды исследования
- Исследователь или экспериментатор эффекты
- Методология сбора данных
- Влияние времени
Обоснованность в качественных исследованиях — статистические решения
Как мы оцениваем и гарантируем достоверность качественных исследований? Это может быть немного сложной темой, поскольку качественное исследование предполагает, что люди понимают людей, что неизбежно является субъективной практикой с самого начала.Тем не менее есть некоторые вопросы, которые исследователь может задать, и некоторые методы, которые он или она может использовать для установления разумного уровня достоверности.
Во время этих занятий студенты могут получить ответы на вопросы о дизайне и обосновании исследования, роли исследователя, выборе участников, инструментах, процедуре, плане анализа данных, вопросах надежности, анализе данных и результатах.
Используется ли он в бизнесе или в социальных науках, он часто используется для обоснования решений, которые имеют важные последствия, поэтому важно обеспечить высокий уровень обоснованности.Хотя результаты никогда не следует экстраполировать на более широкую совокупность (поскольку они никогда не исходят из достаточно большой выборки, чтобы быть статистически значимыми), достоверность может быть установлена так, чтобы ее можно было использовать для обоснования значимых решений.
Одним из критериев достоверности качественных исследований является постановка таких вопросов, как: «Имеет ли это смысл?» и «Могу ли я этому доверять?» Это может показаться нечетким критерием достоверности для человека, дисциплинированного, например, в количественных исследованиях, но в науке, которая имеет дело с темами и контекстом, эти вопросы важны.
Шаги по обеспечению действительности
Первым шагом в обеспечении действительности является выбор хорошо обученного и опытного модератора (или фасилитатора). Хороший модератор проверит личные пристрастия и ожидания у дверей. Он или она заинтересован в получении как можно большего количества откровенной информации от участников исследования, и уважительный нейтралитет является обязательным условием, если целью является достоверное качественное исследование. По этой причине организации часто нанимают модераторов, не входящих в группу или организацию, чтобы гарантировать, что ответы являются искренними и не зависят от того, «что мы хотим услышать».«Для некоторых академических приложений модератор раскрывает свои взгляды и предубеждения при представлении данных в порядке полного раскрытия информации.
Хотя хороший модератор является ключевым, хорошая выборочная группа также важна. Действительно ли участники являются членами того сегмента, из которого они набраны? Этический набор персонала — важный вопрос в качественных исследованиях, поскольку данные, собранные от лиц, которые не являются действительно репрезентативными для своего сегмента, не приведут к достоверным результатам.
Другой способ повысить достоверность — использовать стратегию, известную как триангуляция. Для этого исследование проводится с разных точек зрения. Это может быть использование нескольких модераторов, разных мест, нескольких лиц, анализирующих одни и те же данные. . . по сути, любой метод, который будет информировать результаты с разных сторон. Для некоторых приложений, например, организация может выбрать параллельное проведение фокус-групп с участием двух совершенно разных исследователей, а затем сравнить результаты.
Валидность качественного исследования также можно проверить с помощью метода, известного как проверка респондентов. Этот метод включает тестирование первоначальных результатов с участниками, чтобы убедиться, что они по-прежнему соответствуют действительности. Несмотря на то, что исследование было интерпретировано и сжато, участники все же должны признать результаты достоверными и на этом этапе могут даже уточнить понимание исследователя.
Если исследование позволяет, глубокое насыщение исследования также будет способствовать его достоверности.Если ответы становятся более последовательными по большему количеству выборок, данные становятся более надежными.
Еще один способ установить достоверность — активно искать альтернативные объяснения тому, что кажется результатами исследования. Если исследователь может исключить другие сценарии, он или она может усилить достоверность результатов. С этой техникой связано задание вопросов в обратном формате.
Хотя методы установления достоверности в качественных исследованиях могут показаться менее конкретными и определенными, чем в некоторых других научных дисциплинах, сильные исследовательские методы действительно обеспечат соответствующий уровень достоверности качественных исследований.
Дополнительные веб-страницы, связанные с достоверностью качественных исследований
4.2 Надежность и достоверность измерения — методы исследования в психологии
Цели обучения
- Определите надежность, включая различные типы и способы их оценки.
- Определите срок действия, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности конкретной меры.
Опять же, измерение включает в себя присвоение баллов людям, чтобы они отражали некоторые характеристики людей. Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследования, используя эту меру, чтобы подтвердить, что оценки имеют смысл на основе их понимания измеряемой конструкции. Это чрезвычайно важный момент.Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировали , что они работают. Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если на этом этапе ваши весы для ванной показывают, что вы сбросили 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами.Но если бы он указывал, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломан, и либо почините его, либо избавьтесь от него. Оценивая метод измерения, психологи учитывают два основных аспекта: надежность и валидность.
НадежностьНадежность относится к последовательности меры. Психологи рассматривают три типа согласованности: с течением времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).
Тестирование-повторное тестированиеКогда исследователи измеряют конструкт, который, по их мнению, является согласованным во времени, полученные ими оценки также должны быть согласованными во времени. Надежность повторного тестирования — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же баллы на следующей неделе, что и сегодня.Ясно, что показатель, который дает очень непоследовательные оценки с течением времени, не может быть очень хорошим показателем конструкции, которая должна быть последовательной.
Для оценки надежности повторного тестирования необходимо использовать этот показатель для группы людей за один раз, использовать его снова на той же группе людей позже, а затем посмотреть на корреляцию повторного тестирования между двумя наборами оценки. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления коэффициента корреляции.На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю. Коэффициент корреляции для этих данных равен +,95. Обычно считается, что корреляция между тестами и повторными тестами +80 или выше указывает на хорошую надежность.
Рис. 4.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с разницей
Опять же, высокая корреляция между тестами и ретестами имеет смысл, когда предполагается, что измеряемый конструкт будет постоянным во времени, что имеет место в случае интеллекта, самооценки и измерений личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и ретестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованностьДругой вид надежности — это внутренняя согласованность , которая представляет собой согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые считают себя достойными людьми, должны соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным, если ставки отдельных участников будут постоянно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов состоит в том, чтобы взглянуть на корреляцию и половину . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номером. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 4.3 показана корреляция между двумя частицами между результатами нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных равен +,88. Корреляция разделенных половин +80 или выше обычно считается хорошей внутренней согласованностью.
Рисунок 4.3 Распределенная корреляция между результатами нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга
Возможно, наиболее распространенным показателем внутренней согласованности, используемым исследователями в области психологии, является статистика, называемая α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.
Надежность InterraterМногие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика. Надежность между экспертами — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Срок действияДействительность — это степень, в которой оценки из меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам человека.Хотя эта мера имела бы чрезвычайно высокую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец у одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них более высокая самооценка.
Обсуждения действительности обычно делят его на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств — помимо надежности — которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность по лицу, валидность содержания и валидность критерия.
Лицевая достоверностьЛицевая достоверность — это степень, в которой метод измерения проявляется «на поверхности» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что он должен.Одна из причин заключается в том, что оно основано на интуиции людей относительно человеческого поведения, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, заставляя людей решать, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови меня не пугает и не вызывает тошноту», для измерения подавления агрессии. В данном случае интерес представляют не дословные ответы участников на эти вопросы, а, скорее, то, соответствует ли характер ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимогоДостоверность содержания — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать как нервные переживания, так и негативные мысли. Или подумайте, что отношение обычно определяется как отношение к чему-то мыслям, чувствам и действиям. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той степени, в которой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность контента, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерияДостоверность критерия — это степень, в которой оценки людей по показателю коррелируют с другими переменными (известными как критерии ), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общим беспокойством и с артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» занятиях, таких как сноубординг и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как предсказательная достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими установленными показателями тех же конструктов.Это известно как конвергентная достоверность .
Для оценки конвергентной достоверности требуется сбор данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свой самоотчет «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в размышления (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с множеством других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидностьДискриминантная валидность , с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
Основные выводы
- Исследователи-психологи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
- Есть два разных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами).Валидность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
- Действительность — это судебное решение, основанное на различных типах доказательств. Соответствующее свидетельство включает надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
- Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
Упражнения
- Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вычислите также коэффициент корреляции , если знаете как.
- Обсуждение: Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере.Как вы думаете, для измерения какой конструкции он предназначен? Прокомментируйте его лицо и достоверность содержания. Какие данные вы могли бы собрать для оценки их надежности и критериальной валидности?
Глава 7 Надежность и валидность весов
В предыдущей главе были рассмотрены некоторые трудности с измерением конструктов в социальных исследованиях. Например, как мы узнаем, измеряем ли мы «сострадание», а не «сочувствие», поскольку оба конструкта в некоторой степени похожи по значению? Или сострадание — это то же самое, что сочувствие? Его усложняет то, что иногда эти конструкции являются воображаемыми концепциями (т.е., их не существует в действительности), и многомерными (в этом случае возникает дополнительная проблема с идентификацией составляющих их измерений). Следовательно, недостаточно просто измерять построения социальных наук с использованием любой шкалы, которую мы предпочитаем. Мы также должны протестировать эти шкалы, чтобы убедиться, что: (1) эти шкалы действительно измеряют ненаблюдаемую конструкцию, которую мы хотели измерить (т. Е. Шкалы «действительны»), и (2) они измеряли предполагаемую конструкцию последовательно и точно (т. Е. , весы «надежные»).Надежность и достоверность, вместе называемые «психометрическими свойствами» шкал измерений, являются критериями, по которым в научных исследованиях оценивается адекватность и точность наших процедур измерения.
Мера может быть надежной, но недействительной, если она измеряет что-то очень последовательно, но последовательно измеряет неправильную конструкцию. Точно так же мера может быть действительной, но ненадежной, если она измеряет правильную конструкцию, но не делает это последовательным образом.Используя аналогию со стрельбой по мишени, как показано на рис. 7.1, многопозиционная мера конструкции, которая является как надежной, так и действительной, состоит из выстрелов, сгруппированных в узком диапазоне около центра мишени. Действительный, но ненадежный показатель будет состоять из выстрелов, сосредоточенных в центре цели, но не сгруппированных в узком диапазоне, а скорее разбросанных по цели. Наконец, надежная, но недействительная мера будет состоять из выстрелов, сгруппированных в узком диапазоне, но не от цели.Следовательно, надежность и валидность необходимы для обеспечения адекватного измерения интересующих конструкций.
Рисунок 7.1. Сравнение надежности и достоверности
Надежность
Надежность — это степень, в которой мера конструкции является последовательной или надежной. Другими словами, если мы используем эту шкалу для многократного измерения одной и той же конструкции, получим ли мы практически одинаковый результат каждый раз, если исходное явление не меняется? Пример ненадежного измерения — люди угадывают ваш вес.Вполне вероятно, что люди будут догадываться по-разному, разные меры будут несовместимы, и, следовательно, метод измерения «наугад» ненадежен. Более надежным измерением может быть использование весов, на которых вы, вероятно, будете получать одно и то же значение каждый раз, когда встанете на весы, если только ваш вес действительно не изменился между измерениями.
Обратите внимание, что надежность подразумевает последовательность, но не точность. В предыдущем примере весов, если весы откалиброваны неправильно (скажем, чтобы сбросить десять фунтов от вашего истинного веса, просто чтобы вы почувствовали себя лучше!), Они не будут измерять ваш истинный вес и, следовательно, не будут действительная мера.Тем не менее, неправильно откалиброванные весы будут каждый раз давать вам один и тот же вес (что на десять фунтов меньше вашего истинного веса), и, следовательно, весы надежны.
Каковы источники ненадежных наблюдений в измерениях социальных наук? Одним из основных источников является субъективность наблюдателя (или исследователя). Если моральный дух сотрудников в фирме измеряется путем наблюдения за тем, улыбаются ли сотрудники друг другу, шутят ли они и т. Д., То разные наблюдатели могут сделать вывод о разных показателях морального духа, наблюдая за сотрудниками в очень напряженный день (когда они некогда шутить или болтать) или светлый день (когда они более веселые или болтливые).Два наблюдателя могут также сделать вывод о разном уровне морального духа в один и тот же день, в зависимости от того, что они считают шуткой, а что нет. «Наблюдение» — это качественный метод измерения. Иногда надежность можно повысить, используя количественные показатели, например, подсчитав количество жалоб, поданных за один месяц, как показатель морального духа (обратный). Конечно, обиды могут быть, а могут и не быть действительной мерой морального духа, но они менее подвержены человеческой субъективности и, следовательно, более надежны.Второй источник ненадежных наблюдений — это неточные или двусмысленные вопросы. Например, если вы спросите людей, какова их зарплата, разные респонденты могут интерпретировать этот вопрос по-разному, как месячную зарплату, годовую зарплату или почасовую заработную плату, и, следовательно, полученные в результате наблюдения, вероятно, будут сильно расходящимися и ненадежными. Третий источник ненадежности — это вопросы о проблемах, которые респонденты не очень хорошо знают или не волнуют, например, спрашивать выпускника американского колледжа, удовлетворен ли он / она отношениями Канады со Словенией, или просить главного исполнительного директора оценить эффективность технологической стратегии его компании — то, что он, вероятно, делегировал руководителю отдела технологий.
Так как же создать надежные меры? Если ваше измерение включает сбор информации у других, как это имеет место в большинстве исследований в области социальных наук, то вы можете начать с замены методов сбора данных, которые больше зависят от субъективности исследователя (например, наблюдений), на методы, которые в меньшей степени зависят от субъективности (например, как анкета), задавая только те вопросы, ответы на которые респонденты могут знать, или проблемы, которые их волнуют, избегая двусмысленных пунктов в ваших измерениях (например,g., четко указав, ищете ли вы годовую зарплату) и упростив формулировку показателей, чтобы они не были неверно истолкованы некоторыми респондентами (например, избегая сложных слов, значения которых они могут не знать). Эти стратегии могут повысить надежность наших измерений, даже если они не обязательно сделают измерения полностью надежными. Измерительные приборы все же необходимо проверять на надежность. Есть много способов оценки надежности, которые обсуждаются далее.
Надежность между экспертами. Надежность между экспертами, также называемая надежностью между экспертами, является мерой согласованности между двумя или более независимыми экспертами (наблюдателями) одной и той же конструкции. Обычно это оценивается в пилотном исследовании и может быть выполнено двумя способами, в зависимости от уровня измерения конструкции. Если мера является категориальной, определяется набор всех категорий, оценщики отмечают, к какой категории попадает каждое наблюдение, а процент согласия между оценщиками является оценкой надежности между оценщиками.Например, если два эксперта оценивают 100 наблюдений в одну из трех возможных категорий, и их рейтинги соответствуют 75% наблюдений, то надежность между экспертами составляет 0,75. Если мера имеет интервальную или пропорциональную шкалу (например, активность в классе измеряется каждые 5 минут двумя оценщиками по шкале ответов от 1 до 7), то простая корреляция между мерами, полученными двумя оценщиками, также может служить оценкой меж- надежность оценщика.
Тест-ретест надежности.Надежность повторного тестирования — это мера согласованности между двумя измерениями (тестами) одной и той же конструкции, примененными к одному и тому же образцу в два разных момента времени. Если между двумя тестами наблюдения существенно не изменились, то измерение является надежным. Корреляция в наблюдениях между двумя тестами является оценкой надежности повторного тестирования. Обратите внимание, что временной интервал между двумя тестами имеет решающее значение. Как правило, чем больше временной интервал, тем больше вероятность того, что два наблюдения могут измениться в течение этого времени (из-за случайной ошибки), и тем ниже будет надежность повторного тестирования.
Половинная надежность. Надежность с разделением половин — это мера согласованности между двумя половинами меры построения. Например, если у вас есть мера из десяти элементов данной конструкции, случайным образом разделите эти десять элементов на два набора по пять (допускаются неравные половины, если общее количество элементов нечетное) и примените весь инструмент к выборке из респонденты. Затем рассчитайте общий балл для каждой половины для каждого респондента, и корреляция между общими баллами в каждой половине является мерой надежности разделенной половины.Чем длиннее инструмент, тем больше вероятность того, что две половины меры будут похожи (поскольку случайные ошибки минимизируются по мере добавления дополнительных элементов), и, следовательно, этот метод имеет тенденцию систематически переоценивать надежность более длинных инструментов.
Надежность внутренней согласованности. Надежность внутренней согласованности — это мера согласованности между различными элементами одной конструкции. Если респондентам вводится мера построения, состоящая из нескольких пунктов, то степень, в которой респонденты оценивают эти пункты одинаковым образом, является отражением внутренней согласованности.Эту надежность можно оценить с точки зрения средней корреляции между элементами, средней корреляции между элементами или, как правило,
.Альфа Кронбаха. Например, если у вас есть шкала с шестью элементами, у вас будет пятнадцать различных пар элементов и пятнадцать корреляций между этими шестью элементами. Средняя корреляция между элементами — это среднее значение этих пятнадцати корреляций. Чтобы рассчитать среднюю корреляцию между элементами и общим количеством элементов, вам необходимо сначала создать «общий» элемент, добавив значения всех шести элементов, вычислить корреляции между этим общим элементом и каждым из шести отдельных элементов и, наконец, усреднить шесть элементов. корреляции.Ни одна из двух вышеперечисленных мер не учитывает количество элементов в мере (в этом примере шесть элементов). Альфа Кронбаха, показатель надежности, разработанный
Ли Кронбах в 1951 году, фактор размера шкалы при оценке надежности, рассчитанный по следующей формуле:
, где K — количество элементов в измерении, — дисперсия (квадрат стандартного отклонения) наблюдаемых общих баллов и — наблюдаемая дисперсия для элемента i. Стандартизированная альфа Кронбаха может быть вычислена с помощью более простой формулы:
, где K — количество элементов, — средняя корреляция между элементами, т.е.е., среднее значение коэффициентов K (K -1) / 2 в верхней треугольной (или нижней треугольной) корреляционной матрице.
Срок действия
Валидность, часто называемая достоверностью конструкции, относится к степени, в которой мера адекватно представляет лежащую в основе конструкцию, которую она должна измерять. Например, действительно ли мера сострадания измеряет сострадание, а не другое понятие, такое как сочувствие? Валидность может быть оценена с использованием теоретических или эмпирических подходов, а в идеале должна измеряться с использованием обоих подходов.Теоретическая оценка достоверности сосредотачивается на том, насколько хорошо идея теоретической конструкции транслируется или представлена в операционном измерении. Этот тип валидности называется трансляционной валидностью (или репрезентативной валидностью) и состоит из двух подтипов: валидность лица и валидность содержания. Трансляционная валидность обычно оценивается с помощью группы экспертов-судей, которые оценивают каждый элемент (индикатор) на предмет того, насколько хорошо они соответствуют концептуальному определению этой конструкции, и качественного метода, называемого Q-сортировкой.
Эмпирическая оценка достоверности исследует, насколько хорошо данная мера соотносится с одним или несколькими внешними критериями на основе эмпирических наблюдений. Этот тип валидности называется валидностью, связанной с критериями, и включает четыре подтипа: конвергентная, дискриминантная, одновременная и прогностическая валидность. В то время как валидность перевода проверяет, является ли мера хорошим отражением лежащей в основе конструкции, валидность, связанная с критериями, исследует, ведет ли данная мера должным образом с учетом теории этой конструкции.Эта оценка основана на количественном анализе наблюдаемых данных с использованием статистических методов, таких как корреляционный анализ, факторный анализ и т. Д. Различие между теоретической и эмпирической оценкой достоверности показано на рисунке 7.2. Однако оба подхода необходимы для адекватного обеспечения достоверности показателей в социальных исследованиях.
Обратите внимание, что различные типы валидности, обсуждаемые здесь, относятся к валидности процедур измерения, которая отличается от валидности процедур проверки гипотез, такой как внутренняя валидность (причинность), внешняя валидность (обобщаемость) или валидность статистических выводов.Последние типы действительности обсуждаются в следующей главе.
Фактическая годность. Внешняя валидность относится к тому, кажется ли индикатор разумной мерой лежащей в его основе конструкции «на первый взгляд». Например, частота посещения религиозных служб кажется разумным показателем религиозности человека без особых объяснений. Следовательно, этот индикатор имеет фактическую ценность. Однако, если бы мы предположили, сколько книг было извлечено из офисной библиотеки в качестве меры морального духа сотрудников, тогда такая мера, вероятно, не имела бы фактической достоверности, потому что она, похоже, не имеет большого смысла.Интересно, что некоторые из популярных мер, используемых в исследованиях организаций, не имеют фактической достоверности. Например, абсорбционная способность организации (сколько новых знаний она может усвоить для улучшения организационных процессов) часто измеряется как интенсивность исследований и разработок (т. Е. Расходы на НИОКР, деленные на валовую выручку)! Если ваше исследование включает в себя весьма абстрактные конструкции или конструкции, которые сложно концептуально отделить друг от друга (например, сострадание и сочувствие), возможно, стоит рассмотреть возможность использования группы экспертов для оценки фактической достоверности ваших показателей построения.
Рисунок 7.2. Два подхода к оценке достоверности
Срок действия. Достоверность контента — это оценка того, насколько хорошо набор элементов шкалы совпадает с релевантной предметной областью конструкции, которую он пытается измерить. Например, если вы хотите измерить конструкт «удовлетворенность ресторанным обслуживанием» и определяете предметную область ресторанного обслуживания как включающую качество еды, вежливость обслуживающего персонала, продолжительность ожидания и общую атмосферу в ресторане ( я.е., является ли он шумным, задымленным и т. д.), то для адекватной достоверности содержания этот конструкт должен быть измерен с помощью показателей, которые исследуют степень, в которой посетитель ресторана удовлетворен качеством еды, любезностью обслуживающего персонала, длительность ожидания и атмосфера в ресторане. Конечно, этот подход требует подробного описания всей области содержания конструкции, что может быть затруднительно для сложных конструкций, таких как самооценка или интеллект. Следовательно, не всегда возможно адекватно оценить достоверность содержания.Как и в случае с номинальной достоверностью, для проверки достоверности содержания конструкций может использоваться экспертная группа судей.
Конвергентная валидность относится к степени, с которой мера соотносится (или сходится) с конструкцией, для измерения которой она предназначена, а дискриминантная валидность относится к степени, в которой мера не измеряет (или не отличает) другие конструкции, которые она не предполагается измерять. Обычно конвергентная валидность и дискриминантная валидность оцениваются совместно для набора связанных конструкций.Например, если вы ожидаете, что знания организации связаны с ее производительностью, как вы можете гарантировать, что ваша мера организационных знаний действительно измеряет организационные знания (для конвергентной достоверности), а не организационные показатели (для дискриминантной достоверности)? Конвергентная достоверность может быть установлена путем сравнения наблюдаемых значений одного индикатора одного конструкта со значениями других индикаторов того же конструкта и демонстрации сходства (или высокой корреляции) между значениями этих индикаторов.Дискриминантная валидность устанавливается путем демонстрации того, что индикаторы одной конструкции не похожи (т.е. имеют низкую корреляцию) с другими конструкциями. В приведенном выше примере, если у нас есть трехэлементная мера организационных знаний и еще три элемента для организационной эффективности, на основе наблюдаемых выборочных данных, мы можем вычислить двумерные корреляции между каждой парой знаний и элементов производительности. Если эта корреляционная матрица показывает высокие корреляции внутри элементов организационных знаний и конструкций организационной эффективности, но низкие корреляции между элементами этих конструкций, то мы одновременно продемонстрировали конвергентную и дискриминантную валидность (см. Таблицу 7.1).
Таблица 7.1. Двумерный корреляционный анализ для конвергентной и дискриминантной достоверности
Альтернативный и более распространенный статистический метод, используемый для демонстрации конвергентной и дискриминантной достоверности, — это исследовательский факторный анализ. Это метод сокращения данных, который объединяет заданный набор элементов в меньший набор факторов на основе двумерной корреляционной структуры, описанной выше, с использованием статистического метода, называемого анализом главных компонентов. Эти факторы должны идеально соответствовать лежащим в основе теоретическим построениям, которые мы пытаемся измерить.Общая норма для извлечения факторов состоит в том, что каждый извлеченный фактор должен иметь собственное значение больше 1,0. Затем извлеченные факторы можно вращать с использованием методов ортогонального или наклонного вращения, в зависимости от того, будут ли лежащие в основе конструкции относительно некоррелированными или коррелированными, для генерации весовых коэффициентов, которые можно использовать для агрегирования отдельных элементов каждой конструкции в составную меру. Для адекватной конвергентной достоверности ожидается, что элементы, принадлежащие к общей конструкции, должны иметь факторные нагрузки, равные 0.60 или выше для одного фактора (так называемые нагрузки одного фактора), в то время как для дискриминантной валидности эти элементы должны иметь факторные нагрузки 0,30 или меньше по всем другим факторам (кросс-факторные нагрузки), как показано в примере повернутой матрицы факторов в таблице 7.2. Более сложным методом оценки конвергентной и дискриминантной валидности является подход с множеством признаков и множеством методов (MTMM). Этот метод требует измерения каждой конструкции (характеристики) с использованием двух или более разных методов (например, опрос и личное наблюдение или, возможно, опрос двух разных групп респондентов, таких как учителя и родители, для оценки академического качества).Это обременительный и относительно менее популярный подход, поэтому здесь не обсуждается.
Критериальная валидность также может быть оценена на основе того, хорошо ли соотносится данная мера с текущим или будущим критерием, которые соответственно называются одновременной и прогностической валидностью. Прогностическая достоверность — это степень, в которой мера успешно предсказывает будущий результат, который теоретически ожидается. Например, могут ли стандартизированные результаты тестов (например, результаты тестов на академические способности) правильно предсказать академический успех в колледже (например,g., измеряется средним баллом колледжа)? Оценка такой достоверности требует создания «номологической сети», показывающей, как конструкции теоретически связаны друг с другом.
Параллельная валидность проверяет, насколько хорошо одна мера соотносится с другим конкретным критерием, который предположительно встречается одновременно. Например, хорошо ли соотносятся оценки учащихся на уроке математики с их оценками на уроке линейной алгебры? Эти оценки должны быть связаны одновременно, потому что они оба являются тестами по математике.В отличие от конвергентной и дискриминантной валидности, параллельная и прогностическая валидность часто игнорируется в эмпирических исследованиях в области социальных наук.
Таблица 7.2. Исследовательский факторный анализ конвергентной и дискриминантной достоверности
Теория измерений
Теперь, когда мы знаем различные виды надежности и валидности, давайте попробуем синтезировать наше понимание надежности и валидности математическим способом, используя классическую теорию тестирования, также называемую теорией истинных оценок.Это психометрическая теория, которая исследует, как работает измерение, что оно измеряет, а что не измеряет. Эта теория постулирует, что каждое наблюдение имеет истинную оценку T, которую можно точно наблюдать, если бы в измерениях не было ошибок. Однако наличие ошибок измерения E приводит к отклонению наблюдаемой оценки X от истинной оценки следующим образом:
Х | = | т | + | E |
Наблюдаемый балл | Истинный результат | Ошибка |
Для набора наблюдаемых оценок дисперсия наблюдаемых и истинных оценок может быть связана с помощью аналогичного уравнения:
var (X) = var (T) + var (E)
Целью психометрического анализа является оценка и, если возможно, минимизация дисперсии ошибки var (E), чтобы наблюдаемая оценка X была хорошей мерой истинной оценки T.
Ошибки измерения могут быть двух типов: случайная ошибка и систематическая ошибка. Случайная ошибка — это ошибка, которая может быть отнесена к набору неизвестных и неконтролируемых внешних факторов, которые случайным образом влияют на одни наблюдения, но не влияют на другие. Например, во время измерения некоторые респонденты могут находиться в более хорошем настроении, чем другие, что может повлиять на их реакцию на элементы измерения. Например, респонденты с более хорошим настроением могут более позитивно реагировать на такие конструкты, как самооценка, удовлетворение и счастье, чем те, кто находится в плохом настроении.Однако невозможно предугадать, какой из испытуемых находится в каком настроении, или контролировать влияние настроения в исследовательских исследованиях. Аналогичным образом, на организационном уровне, если мы измеряем результаты деятельности фирм, изменения в законодательстве или окружающей среде могут повлиять на результаты деятельности одних фирм в наблюдаемой выборке, но не других. Следовательно, случайная ошибка считается «шумом» при измерении и обычно игнорируется.
Систематическая ошибка — это ошибка, которая вносится факторами, которые систематически влияют на все наблюдения конструкции по всей выборке систематическим образом.В нашем предыдущем примере эффективности фирмы, поскольку недавний финансовый кризис повлиял на эффективность финансовых фирм в непропорционально большей степени, чем любой другой тип фирм, таких как производственные или обслуживающие фирмы, если наша выборка состояла только из финансовых фирм, мы можем ожидать систематического сокращения производительность всех фирм в нашей выборке из-за финансового кризиса. В отличие от случайной ошибки, которая может быть положительной отрицательной или нулевой при наблюдении в выборке, систематические ошибки имеют тенденцию быть постоянно положительными или отрицательными для всей выборки.Следовательно, систематическая ошибка иногда рассматривается как «систематическая ошибка» при измерении и должна быть исправлена.
Поскольку наблюдаемая оценка может включать как случайные, так и систематические ошибки, наше истинное уравнение оценки может быть изменено как:
X = T + E r + E s
, где E r и E s представляют собой случайные и систематические ошибки соответственно. Статистическое влияние этих ошибок состоит в том, что случайная ошибка добавляет изменчивость (например, стандартное отклонение) к распределению наблюдаемой меры, но не влияет на ее центральную тенденцию (например, стандартное отклонение).g., среднее), тогда как систематическая ошибка влияет на центральную тенденцию, но не на изменчивость, как показано на рисунке 7.3.
Рисунок 7.3. Влияние случайных и систематических ошибок
Что означает случайная и систематическая ошибка для процедур измерения? Увеличивая вариабельность наблюдений, случайная ошибка снижает надежность измерения. Напротив, при смещении центральной меры тенденции систематическая ошибка снижает достоверность измерения. Проблемы валидности представляют собой гораздо более серьезные проблемы при измерении, чем проблемы надежности, потому что неверный показатель, вероятно, измеряет конструкцию, отличную от того, что мы планировали, и, следовательно, проблемы валидности вызывают серьезные сомнения в выводах, полученных в результате статистического анализа.
Обратите внимание, что надежность — это отношение или доля, которая отражает, насколько близка истинная оценка к наблюдаемой. Следовательно, надежность можно выразить как:
var (T) / var (X) = var (T) / [var (T) + var (E)]
Если var (T) = var (X), то истинная оценка имеет ту же изменчивость, что и наблюдаемая оценка, а надежность составляет 1,0.
Комплексный подход к валидации измерений
Полная и адекватная оценка достоверности должна включать как теоретический, так и эмпирический подходы.Как показано на рис. 7.4, это сложный многоэтапный процесс, который должен учитывать различные типы надежности и достоверности шкалы.
Рисунок 7.4. Комплексный подход к валидации измерений
Комплексный подход начинается с теоретической области. Первый шаг — концептуализация интересующих конструкций. Это включает определение каждой конструкции и идентификацию составляющих их доменов и / или размеров. Затем мы выбираем (или создаем) элементы или индикаторы для каждой конструкции на основе нашего концептуального представления об этой конструкции, как описано в процедуре масштабирования в главе 5.Обзор литературы также может быть полезен при выборе индикатора. Каждый элемент переформулирован единообразно с использованием простого и понятного текста. После этого шага группа экспертов-судей (ученые, имеющие опыт в методах исследования и / или репрезентативная группа целевых респондентов) может быть привлечена для изучения каждого индикатора и проведения анализа Q-сортировки. В этом анализе каждому судье дается список всех конструкций с их концептуальными определениями и стопка учетных карточек, в которых перечислены все индикаторы для каждой из мер построения (один индикатор на учетную карточку).Затем судей просят независимо прочитать каждую учетную карточку, изучить ясность, удобочитаемость и семантическое значение этого элемента и отсортировать его по конструкции там, где она кажется наиболее целесообразной, на основе предоставленных определений конструкции. Межэкспертная надежность оценивается для проверки того, насколько судьи согласны со своей классификацией. Неоднозначные вопросы, которые часто пропускались многими судьями, могут быть пересмотрены, переформулированы или исключены. Для дальнейшего анализа отбираются лучшие элементы (скажем, 10-15) для каждой конструкции.Каждый из выбранных пунктов повторно исследуется судьями на предмет достоверности и достоверности содержания. Если на этом этапе не достигается адекватный набор элементов, может потребоваться создание новых элементов на основе концептуального определения предполагаемой конструкции. Два или три раунда Q-сортировки могут потребоваться для достижения разумного согласия между судьями по набору пунктов, который лучше всего представляет интересующие конструкции.
Затем процедура проверки переходит в эмпирическую область. Создается инструмент исследования, включающий все уточненные элементы конструкции, который вводится в пилотную тестовую группу репрезентативных респондентов из целевой группы.Собранные данные табулируются и подвергаются корреляционному анализу или исследовательскому факторному анализу с использованием программного обеспечения, такого как SAS или SPSS, для оценки конвергентной и дискриминантной достоверности. Пункты, которые не соответствуют ожидаемым нормам факторной нагрузки (однофакторные нагрузки выше 0,60 и кросс-факторные нагрузки меньше 0,30), должны быть исключены на этом этапе. Остальные шкалы оцениваются на надежность с использованием меры внутренней согласованности, такой как альфа Кронбаха. На этом этапе также можно проверить размерность шкалы, в зависимости от того, были ли заданные конструкции концептуализированы как одномерные или многомерные.Затем оцените прогностическую способность каждой конструкции в рамках теоретически определенной номологической сети конструкций с помощью регрессионного анализа или моделирования структурным уравнением. Если построенные меры удовлетворяют большинству или всем требованиям надежности и достоверности, описанным в этой главе, мы можем быть уверены, что наши операционализированные меры достаточно адекватны и точны.
Обсуждаемый здесь комплексный подход к проверке достоверности измерений весьма требует времени и усилий исследователя.Тем не менее, этот сложный многоступенчатый процесс необходим для того, чтобы шкалы измерений, используемые в наших исследованиях, соответствовали ожидаемым нормам научных исследований. Поскольку выводы, сделанные с использованием ошибочных или скомпрометированных шкал, бессмысленны, проверка и измерение шкалы остается одним из наиболее важных и сложных этапов эмпирического исследования.
Оценка качества исследования
Правосудие — требует, чтобы все формы дифференцированного отношения к объектам исследования были оправданы.Применение этих принципов приводит к следующим соображениям:
Информированное согласие
Перед участием в исследовании участники должны дать информированное согласие.Для того, чтобы участники дали информированное согласие.
- Исследователь должен проинформировать участников о цели, содержании, продолжительности и потенциальных рисках и преимуществах исследования.
- Исследователь должен сообщить участникам, что они могут прекратить участие в исследовании в любой момент.
- В случае проведения опроса исследователь должен проинформировать участников о том, что им не нужно отвечать на все вопросы опроса.
- Если участниками являются дети, не достигшие совершеннолетия, исследователь должен получить согласие их родителей или опекунов.
Конфиденциальность
Если не дано иное согласие, абсолютно необходимо, чтобы исследователи не разглашали личности участников. Конфиденциальность означает, что участников невозможно идентифицировать. При проведении опросов это включает, помимо прочего, обеспечение того, чтобы идентификаторы участников не были связаны с их ответами на опрос. Общие идентификаторы включают имена, номера социального страхования, адреса и номера телефонов.Такая личная идентификационная информация или PII должны быть защищены. При анализе данных, собранных из небольших групп или выборок с маленькими буквами «n», и при сообщении результатов этого анализа исследователи должны быть особенно внимательными, чтобы не раскрывать личности участников. Размеры ячеек с менее чем тремя случаями не следует сообщать, потому что информацию о лицах в этой группе можно получить путем вычитания.
Анонимность
Анонимность — еще более надежная гарантия конфиденциальности участников.Если исследователь гарантирует анонимность, это означает, что исследователь не может связать имена участников с информацией, которую они предоставляют.
В дополнение к вышеизложенным принципам часто требуется рассмотрение конкретных этических вопросов в зависимости от формы и контекста исследования. Например, при использовании административных данных исследователь должен иметь в виду, что существует множество правовых мер защиты, установленных федеральным правительством и правительством штата, которые требуют конфиденциальности информации о заявителях программы.Например, в 1977 году Комиссия по изучению защиты конфиденциальности определила, что записи или информация, используемые для статистических исследований, не могут использоваться в индивидуально идентифицируемой форме и что исследователи не могут предпринимать никаких действий, которые могли бы повлиять на человека, которому принадлежит эта информация.
Основной этической проблемой, с которой сталкиваются исследователи, участвующие в исследованиях с включенным наблюдением, является решение, когда и как информировать наблюдаемых о том, что они являются частью исследования.Теоретически исследователь должен идентифицировать себя как исследователь в начале включенного наблюдения. Однако на самом деле это может оказаться невозможным без существенного изменения взаимодействий с самого начала. Если исследователь так решит, достаточно общего, но четкого описания целей исследования. По мере углубления отношений с участниками следует раскрывать любые спорные аспекты исследования. Исследователь должен получить информированное согласие от любого члена, который соглашается на формальное подробное интервью.
Обзор институционального наблюдательного совета (IRB)
Чтобы гарантировать защиту прав и благосостояния субъектов и участников исследования, всем исследователям следует, чтобы их проект был рассмотрен IRB или аналогичные органы.