3.9. ВАЛИДНОСТЬ ТЕСТА
3.9. ВАЛИДНОСТЬ ТЕСТА3.9. ВАЛИДНОСТЬ ТЕСТА
Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Валидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом.
Анализируя сложную ситуацию с валидностью педагогических тестов, Е.Михайлычев16 отмечает, что педагогу, заинтересовавшемуся валидностью, трудно будет разобраться в том, что же это такое.
Ниже мы приведем несколько определений валидности теста.
ВАЛИДНОСТЬ означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование (В.Аванесов)17.
ВАЛИДНОСТЬ — это характеристика способности теста служить поставленной цели измерения (М.Челышкова)7.
ВАЛИДНОСТЬ - определяет, насколько тест отражает то, что он должен оценивать (А.Майоров)18.
Приведенные определения в целом перекликаются и являются практически равноценными. Мы несколько уточним определение, сделав акцент на цель тестирования. Тестирование как измерительная процедура, дает информацию, на основе которой в дальнейшем должно быть принято то или иное управленческое решение. Обоснованность этих решений, зачастую сильно влияющих на судьбу испытуемых, определяется надежностью и валидностью теста.
ВАЛИДНОСТЬ – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений.
После создания теста начинается процесс его валидизации. Приведем определение:
ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста19.
По нашему мнению ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.
Выделяют три вида валидности – содержательную, критериальную и конструктную20. А.Майоров приводит следующую диаграмму видов валидности18:
Рис.3.9.1. Виды валидности.
КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.
КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.
Имеется два вида критериальной валидности – текущая и прогностическая.
Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.
Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.
СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.
Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений20.
Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.
Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется
Согласно П.Клайну содержательная валидность определяется следующим образом:
1) указать категорию лиц, для которой предназначен
тест;
2) составить список знаний, умений, навыков,
подлежащих тестированию;
3) выполнить внешнюю экспертизу полученного списка на
предмет его полноты и обоснованности;
4) на основе списка составить перечень заданий;
5) выполнить внешнюю экспертизу полученных заданий;
6) после проверки
преобразовать их в задания в
Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инструмента.
Операциональная валидность. Операционализация переменных, операциональная и конструктная валидность
Валидность — соответствие конкретного исследования принятым стандартам (безупречному эксперименту).
Валидность внешняя — соответствие конкретного исследования природной реальности и/или другим подобным исследованиям. Определяет возможность переноса и / или обобщения результатов на другие объекты и условия исследования. Зависит от репрезентативности выборки и соответствия контролируемых в исследовании дополнительных переменных, их вариативности в других условиях. Частной формой внешней валидности является экологическая валидность, определяющая возможность распространить выводы конкретного исследования на реальные условия, а не на иные лабораторные условия.
Валидность внутренняя — соответствие конкретного исследования идеальному; оценивает изменение зависимой переменной, определяется влиянием независимой переменной, а не другими причинами. Внутренняя валидность зависит от систематического изменения влияния независимой и других переменных от неэквивалентности и изменения сравниваемых групп в ходе эксперимента.
Валидность конструктная — характеризует точность реализации теоретической гипотезы в процедуре эксперимента. Является одним из проявлений внутренней валидности. Определяет область явлений, исследуемых в эксперименте. В психологической диагностике конструктная валидность характеризует степень измеряемого свойства в результатах тестирования.
Валидность критериальная — отражает соответствие диагноза и прогноза, полученного на основе данных тестирования, деятельностным и жизненным показателям; включает в себя текущую и прогностическую валидность.
Валидность операциональная — соответствие операций экспериментатора теоретическому описанию переменных, контролируемых в исследовании. Варьируемые экспериментатором условия должны соответствовать независимой переменной. Операциональная валидность является одним из проявлений внутренней валидности.
35. Привести классификацию экспериментальных планов: доэкспериментальные планы, планы истинных экспериментов и квазиэкспериментальные планы.
Доэксперементальные планы
Квазиэкспериментального планы строятся, исходя из такого определения понятия квазиэксперимента: квазиэкспериментом является исследование, направленное на установление причинно-послед- ного связи между двумя переменными, в котором, однако, отсутствует процедура предварительного выравнивания групп, то есть параллельный контроль с участием контрольной группы заменяется сравнением результатов тестирования группы до и после измерений. Существует несколько видов квазиэкспериментальных планов, например: план для двух неэквивалентных групп с тестированием до и после испытания; план по предыдущим и итоговым тестированием двух рандомизированных групп; планы дискретных временных серий для одной группы или для двух неэквивалентных групп.
36. Объяснить факторный эксперимент. Переменные, гипотезы и схемы в факторном эксперименте.
Доэкспериментальные планы, точнее — исследования, которые проводились и проводятся до сих пор по определенным схемам, не учитывают требований, предъявляемых к плану классического экспериментального исследования. Причина — незнание этих требований или невозможность их учета при проведении реального исследования в конкретных условиях. Исследования по схеме доэкспериментальных планов проводились еще до возникновения теории планирования эксперимента. Доэкспериментальные планы служат, скорее, в качестве иллюстрации. В практике научных исследований по возможности их следует избегать. Квазиэкспериментальные планы являются попыткой учета реалий жизни при проведении эмпирических исследований. Квазиэкспериментальные планы создаются специально с отступлением от схемы «истинного эксперимента». Исследователь осознает те источники артефактов — внешние переменные, которые он не может контролировать. Для частичной компенсации и контроля эффектов, возникающих при нарушении планов «истинных экспериментов», исследователи используют искусственные схемы, которые и называются квазиэкспериментальными планами. Квазиэксперимент является своеобразным компромиссом между реальностью и «строгостью» методологических предписаний. Однако квазиэксперимент используется не только для решения прикладных проблем, но и для проведения научных исследований. Квазиэкспериментальный план используется тогда, когда применение лучшего плана невозможно. |
Понятие валидности эксперимента включает в себя по меньшей мере три основных понятия: операциональной валидности, внешней валидности и внутренней валидности. Рассмотрим эти понятия и реальности, обозначаемые ими, более подробно.
Операциональная валидность
Понятие операциональной валидности тесно связано с определенной проблемой, которая объективно существует не только в экспериментальном, но и в любом другом эмпирическом исследовании. В частности, в экспериментальном исследовании эта проблема состоит в том, что исследуемая реальность представлена в нем двояким образом. Во-первых, в гипотезе исследования она представлена в форме ее словесного описания, а во-вторых, в методике исследования она представлена в форме конкретных явлений, которым свойственны определенные характеристики. Очевидно, что с точки зрения идеальных требований к проведению экспериментального исследования оно должно быть организовано так, чтобы между этими двумя формами представления исследуемой реальности было полное соответствие . Если же это соответствие не достигнуто, то экспериментальное исследование является неадекватным в том смысле, что его результаты нельзя использовать ни для подтверждения, ни для опровержения гипотезы.
В связи с указанной проблемой, понятие операциональная валидность можно определить как правомерность вывода о полноте соответствия исследуемой реальности, представленной в гипотезе исследования в словесной форме, той реальности, которая представлена в методике исследования в форме конкретных явлений.
В зависимости от степени полноты этого соответствия экспериментальное исследование может обладать операциональной валидностью в разной степени, т.е. быть более или менее операционально валидным.
На практике для того, чтобы оценить операциональную валидность экспериментального исследования, необходимо решить вопрос о правомерности соответствия между содержаниями основных терминов, которые используются для описания исследуемой реальности в гипотезе исследования, и тем, как эти содержания представлены в методике исследования.
Для иллюстрации проблемы операциональной валидности можно воспользоваться следующим примером. Допустим, в гипотезе исследования фигурирует термин «объем внимания», означающий количество элементов, которые человек может воспринять одновременно ясно и отчетливо, а в методике исследования для измерения объема внимания используется тахистоскоп, позволяющий зрительно предъявлять одновременно на короткое время набор элементов, и в качестве конкретного явления, характеризующего объем внимания, выступает количество элементов, которые испытуемые могут воспроизвести. В этом случае перед экспериментатором, проводящим это исследование, неизбежнодолжен возникнуть следующий вопрос, непосредственно имеющий отношение к проблеме операциональной валидности, а именно: соответствует ли количество воспроизводимых испытуемыми элементов количеству элементов, воспринимаемых ими ясно и отчетливо. Как известно из истории экспериментальной психологии, В. Вундт допускал существование такого соответствия. Однако в экспериментах Дж. Сперлинга с использованием методики частичного отчета было показано, что количество воспроизводимых испытуемыми элементов может быть меньше количества элементов, воспринимаемых ими ясно и отчетливо. Из приведенного примера следует, что автору этого гипотетического исследования необходимо более тщательно обосновать, почему он считает возможным использовать для измерения объема внимания показатель продуктивности воспроизведения, иначе его исследование может оказаться операционально невалидным.
В любом случае, конструктная валидность обусловливает теоретическую точность экспериментального исследования, т. е. насколько соотносится причинно-следственное отношение, сформулированное в теории, и причинно-следственная связь независимой и зависимой переменных, обнаруженная в результате исследования: « … конструктная валидность имеет отношение к теоретической точности: правильно ли мы объясняем причинно-следственные связи, которые были обнаружены в исследовании? … ».
Другими словами, конструктная валидность выражает точность экспериментальной реализации гипотезы в исследовательской процедуре: « … валидность конструктная – характеризует точность реализации теоретической гипотезы в процедуре эксперимента. Является одним из проявлений внутренней валидности. Определяет область явлений, исследуемых в эксперименте … »
Конструктная валидность контролируется содержательным планированием. Она определяет теоретическую точность конструирования идеального эксперимента. Уверенность в конструктной валидности приходит по мере получения всё большего количества подтверждающих результатов: « … конструктная валидность – особенно подходит для экспериментальных исследований. Она имеет отношение сразу к двум вопросам: является ли оцениваемый конструкт валидным, а инструмент, с помощью которого производится оценка, — наилучшим. Конструктная валиднось тесно связана с сущностью теории, построением гипотеза на основании теории и оценкой теорий, выведенных из результатов исследования. Конструктная валидность как таковая никогда не подтверждается и не разрушается одним исследованием, а также её невозможно доказать по тем же причинам, по каким невозможно доказать теорию. Уверенность в конструктной валидности растёт постепенно по мере получения исследователями подтверждающих результатов … »
Залогом высокой конструктной валидности нашего экспериментального исследования является исторический (креативный) метод обоснования конструекции идеального эксперимента, а практическим подтверждением высокой конструктной валидности исследования является реальный рост учебной мотивации. Как известно, в условиях современного образовательного процесса динамика учебной мотивации имеет противоположный знак.
Операциональная валидность
Ещё один вид внутренней валидности – операциональная валидность. Операциональная валидность обусловливает адекватность методики и плана экспериментального исследования проверяемой гипотезе. Операциональная валидность обусловливает соответствие реального эксперимента теоретической гипотезе, поскольку именно в гипотезе фиксируется характер связи независимой и зависимой переменных: « … валидность операциональная – соответствие операций экспериментатора теоретическому описанию переменных, контролируемых в исследовании. Варьируемые экспериментатором условия должны соответствовать независимой переменной. Операциональная валидность является одним из проявлений внутренней валидности … » .
Другими словами, операциональная ваалидность отвечает за то, что установленная в реальном исследовании связь представляет собой именно ту связь, которая сформулирована в гипотезе: « … решение вопроса о том, что установлена именно представленная в гипотезе связь, а не какая-то другая, зависит от оценки внутренней и операциональной валидности эксперимента … »
Способом контроля операциональной валидности, так же как и конструктной, является содержательное планирование. В данном случае с помощью содержательного планирования была операционализирована «независимая переменная» («схема» организации онтологического общения), «зависимая переменная» (психологическая сложность предметных задач), оценено влияние дополнительной переменной («разный психический возраст учащихся») и найдено решение за счёт дифференциации требований к учащимся различный психических возрастов: « … содержательное планирование включает решение (разрешение) всех вопросов конструктной и операциональной валидности, заключающихся в конкретизации и операционализации НЗП (независимой переменной), ЗП (зависимой переменной) и выбора уровней ДП (дополнительной переменной). Оно предполагает развёртывание содержательных доводов как с точки зрения обоснования экспериментальных гипотез, так и с точки зрения соотнесения используемых психологических конструктов и методических процедур измерения переменных … ».
Внешняя валидность
Внешняя валидность – является мерой соответствия экспериментальной процедуры исследуемому реальному объекту.
На внешнюю валидность влияют дополнительные переменные. Внешняя валидность контролируется путём контроля дополнительных переменных: « … соответствие реального исследования изучаемой объективной реальности назовём внешней валидностью … ».
Внешняя валидность зависит от репрезентативности выборки и сопоставимости контролируемых дополнительных переменных дополнительным переменным в других условиях: « … валидность внешняя – соответствие конкретного исследования природной реальности и/или другим подобным исследованиям. Определяет возможность переноса и/или обобщения результатов на другие объекты и условия исследования. Зависит от репрезентативности выборки и соответствия контролируемых в исследовании дополнительных переменных, их вариативности в других условиях. Частной формой внешней валидности является экологическая валидность, определяющая возможность распространить выводы конкретного исследования на реальные условия, а не на иные лабораторные условия … »
От внешней валидности зависит перенос результатов из лабораторных условий в реальность и обобщение результатов (выводов): « … внешняя валидность … — возможность переноса результатов эксперимента на определённую реально существующую совокупность, ситуацию или условия, отличающиеся от условий эксперимента … »
Поскольку наше исследование во многом организовывалось как полевое (естественное), особые проблемы с внешней валидностью не стояли. В результате экспериментальное обучение было проведено в условиях большого количества дополнительных переменных (наполняемость классов; возраст учащихся; тип образовательных учреждений; степень урбанизированности культурной и социальной среды; культура; этнопсихологические особенности; степень периферийности учебного заведения; стиль преподавания; социально-психологический климат в учебном заведении; социальное происхождение учащихся и пр. и пр.).
Полученные в результате данные свидетельствуют о их высокой внешней (экологической) валидности.
Критериальная валидность
В проведённом исследовании особое значение имел ещё один вид валидности – критериальная валидность. Необходимость её рассмотрения связана с тем, что в условиях экспериментального обучения получаемые результаты всегда соотносятся с критериями, на основании которых производится оценка эффективности и успешности экспериментального обучения: « … валидность названа «критериальной», потому что результаты рассматриваемых измерений соотносятся с некоторым значением или критерием … ».
Важность критериальной валидности заключается в том, что позволяет оценить эффективность экспериментального обучения с возможной эффективностью реальной жизнедеятельности: « … валидность критериальная – отражает соответствие диагноза и прогноза, полученного на основе данных тестирования, деятельностным и жизненным показателям, включает в себя текущую и прогностическую валидность … »
С этой точки зрения критериальная валидность представляет большую важность как мера прогностичности идеального исследования: « … отношение идеального исследования к реальности можно охарактеризовать как теоретическую, или прогностическую, валидность … ».
Пока отдельно были представлены некоторые типы психологических данных — как фиксируемых показателей и в контексте проблемы статистических решений. Теперь следует сделать следующий шаг — раскрыть проблему выбора психологических методик как средств операционализации переменных. По отношению к выборочным значениям ЗП принимаются статистические решения, по значения переменных выступают результатами использования определенных психологических методик.
Чтобы получить данные, психолог фиксирует как психофизиологические показатели, если гипотеза предполагает рассмотрение их связи с изучаемым процессом, так и самоотчеты испытуемых. Он может наблюдать за поведением, а может специально выделять лишь некоторые, методически специально выделенные аспекты активности испытуемого — время реакции, число предложенных решений, особенности ответа в неопределенной ситуации. Он применяет стандартизованные и не стандартизированные методики, с помощью которых фиксируются показатели когнитивной сферы человека (восприятия, внимания, памяти, мышления), а также его эмоционально-личностной сферы (мотивы, характерологические свойства и т.д.).
Из характеристик используемых методик не следует, каким методом проводилось исследование. Внешней характеристикой экспериментального исследования может служить указание на то, что в нем должны присутствовать как минимум две методики: для задания НП и измерения ЗП. И обе они оцениваются в аспектах репрезентативности — конструктов НП и ЗП или соответствия тем реальным условиям, аспекты которых моделируются.
Операциональная наличность — оценка эксперимента с точки зрения степени соответствия эмпирически нагруженным понятиям НП, ЗП и ДП тех методик задания и измерения переменных, которые используются в исследовании.
Наиболее простым путем было бы определение психологической переменной путем связывания ее с методикой получения тех или иных данных. Действительно, если определять различия между понятиями «метод» и «методика», то такой путь покажется логичным. Метод — это наиболее крупная единица анализа типа исследования. Методика — более мелкая единица. Методики могут кочевать из одного исследования в другое и использоваться при разных способах организации исследования.
Психологическая методика — это способы фиксации психологических данных, «техники» построения психологических показателей. С многообразием психологических методик студенты обычно знакомятся в предметном и исследовательском практикумах.
В то же время методика может не выглядеть психологической, но использоваться для задания, скажем, уровней независимой переменной или для измерения зависимой. Например, в оценке разного рода рекламы — как организуемого психологического воздействия — ее эффективность представлена в количестве единиц проданного продукта. Это экономический показатель. Он становится психологической переменной только в одном случае — когда связывается в психологической гипотезе с опосредствующим процессом психологического воздействия. Тогда разные виды рекламы одного и того же товара предстают разными уровнями НП (например, реклама постоянная или нет, в печатных или электронных СМИ и т.д.).
Выделение уровней НП также может осуществляться, казалось бы, безотносительно к арсеналу психологических методик. В приведенном в разделе 5.3.3 примере искусственной среды «Пятое измерение» ее можно трактовать в качестве единого (активного) уровня НП. Тогда контрольным (неактивным) уровнем будут обычные условия обучения и проведения ребенком своего досуга. В многочисленных исследованиях по инженерной психологии сравниваются разные условия выполнения человеком профессиональной деятельности, при том что разница условий задана особенностями используемых приборов, их расположением и т. д. Не продолжая примеров, можно сказать, что психологическими эти уровни экспериментальных факторов становятся именно благодаря тому, что в звене экспериментальной гипотезы они связываются с ожидаемыми изменениями изучаемого базисного процесса.
В самом общем виде под базисным процессом можно понимать центральное звено регуляции изменений, отражаемых в индексах, или показателях, 311. Показатель, фиксируемый методикой как отклик влияния НП, не сводится сам по себе к изучаемому базисному процессу.
В психологическом эксперименте это также входит в этап содержательного планирования исследования — обосновать, что подразумевается под изменениями индекса. Например, за показателем времени реакции можно предполагать совершенно разные процессы (обозначающие, что именно происходит в фиксируемые отрезки времени перед ответом испытуемого).
Если же речь пойдет о более сложных методиках, которые включают существенный пласт толкований психологом того или иного ее индекса, то интерпретационный процесс прямо будет задавать способ конструирования переменной. Например, применительно к проективной методике тематического апперцептивного теста (TAT) Е. Т. Соколовой прослежено изменение способов толкования того, как в рассказах по неопределенным картинкам (фотографиям) можно устанавливать проявление механизмов проекции, психологической защиты и т.д. От конца 30-х к концу 60-х гг. XX в. толкования существенно изменялись в зависимости от включения предположений о проявлении в рассказах испытуемых их рационального «Я» [Соколова, 1980].
Те же виды глубинной мотивации (социогенные потребности в классификации Г. Мюррея) могут диагностироваться с помощью опросника, который был предложен Л. Эдвардсом [Корнилова, 1997]. Проективный тест и вербальный, построенный в опроснике Эдвардса па основе приема вынужденного выбора предпочтений, могут давать разные местоположения испытуемого по отношению к конкретной мотивационной шкале, поскольку подразумевают проявление разных базисных процессов, стоящих за используемыми индексами двух процедурно разных методик.
Таким образом, одни и те же психологические конструкты (мотивация достижения, агрессия, аффилиация и т.д.) операционализируются по-разному. Их различие связано именно с подразумеваемыми механизмами осознанной оценки предпочтения или неосознаваемого проявления в рассказе субъекта той или иной глубинной мотивации (при инструкции «исследуется воображение»).
Итак, наиболее простой путь связывания сути психологической переменной с той или иной методикой может вводить в заблуждение относительно того, что репрезентирует фиксируемый показатель. Более адекватным является иной путь — косвенной реконструкции того, что репрезентируется показателем. Два условия должны выполняться.
Первое . Представленные в гипотезе как эмпирически нагруженные понятия — независимой и зависимой переменных — должны быть операционализированы, т.е. должен быть конкретизирован путь их методического представления в исследовании.
Второе . Эта операционализация должна быть такой, чтобы управление экспериментальным фактором или изменения базисного процесса могли быть представлены в виде той или иной шкалы, т. е. измерены.
Совсем не все методики позволяют выделять переменные. Например, методики наблюдения, предполагающие фиксацию данных в единицах естественного языка или в условных обозначениях, еще не выступают способами выделения переменных. Наблюдать изменения — это еще не значит их измерять. Современные исследования, выполняемые методом наблюдения, включают огромный арсенал стандартизованных методик. По для перехода к процедурам измерения должны выполняться дополнительные условия, в результате чего и достигается возможность выделения правил приписывания чисел психологическим объектам.
Именно измерение переменных выступает условием проведения психологического эксперимента, а также реализации ряда других методов — корреляционного, квазиэксперимента, лонгитюда.
Перечисление событий, установление их частоты — еще не измерение, но процедура, позволяющая строить ЗП. Приведем пример того, как происходит конструирование такой ЗП, когда ее индекс является производным, а не отражает фиксацию какого-либо методически заданного показателя.
В примере с искусственным экспериментальным условием «Пятое измерение» М. Коула, который будет представлен в главе 5 (экскурс 5.8), можно выделять множество переменных. В реальных условиях на пляже психологами была создана особая ситуация отдыха для детей, которые при этом — в игровой ситуации — овладевали рядом средств (в частности, компьютером) своей деятельности. 311 было несколько. Одна из них — упоминания в дневниковых записях студентов, которые работали с детьми, тех или иных «артефактов» в их инструментальном значении или в виде упоминания как ориентиров для опосредствования действий ребенка. Число упоминаний одних и тех же объектов среды в двух контекстах -ориентация на возможность их использования или опосредствование действий их использованием — дало автору возможность проследить временную динамику процесса «культурации» в косвенном (отражаемом помощником психолога) виде.
Рис. 3.1. Динамика переменных, отражающих инструментальное и ориентационное отношение к «артефактам» в созданном игровом контексте
На диаграмме, представленной на рис. 3.1, видно, как растет со временем пребывания в искусственной среде «Пятого измерения» количественный показатель инструментального отношения к ее элементам по сравнению с иной тенденцией — снижением индексов общей ориентировки на элементы среды. Таким образом, в естественных условиях проведения этого исследования выделялись те показатели, динамика которых служила верификации (эмпирической проверке) теоретической гипотезы о роли «артефактов» как задаваемых ребенку средств преобразования его игровой деятельности и тем самым — его развития.
Страница не найдена |
Страница не найдена |404. Страница не найдена
Архив за месяц
ПнВтСрЧтПтСбВс
25262728293031
12
12
1
3031
12
15161718192021
25262728293031
123
45678910
12
17181920212223
31
2728293031
1
1234
567891011
12
891011121314
11121314151617
28293031
1234
12
12345
6789101112
567891011
12131415161718
19202122232425
3456789
17181920212223
24252627282930
12345
13141516171819
20212223242526
2728293031
15161718192021
22232425262728
2930
Архивы
Метки
Настройки
для слабовидящих
Виды действия
Пояснения > Социальные исследования> Дизайн> Типы действия
Construct | Содержание | Внутренний | Заключение | Внешний | Критерий | Лицо | Угрозы | Также
В исследовательском проекте можно искать несколько типов достоверности. Итого:
- Конструкция: Конструкции точно отражают реальность.
- Конвергенция: одновременные измерения одного и того же конструкта коррелируют.
- Дискриминант: не измеряет то, чего не должен.
- Внутренний: Причинно-следственные связи могут быть определены.
- Вывод: Любые отношения можно найти.
- Внешний: выводы можно обобщить.
- Критерий: Соответствие стандартам.
- Прогнозный: прогнозирует будущие значения критерия.
- Параллельно: коррелирует с другими тестами.
- Лицо: Похоже, сработает.
Срок действия конструкции
Конструктивная валидность возникает, когда теоретическая причинно-следственные конструкции точно представляют реальные ситуации они предназначены для моделирования. Это связано с тем, насколько хорошо проведен эксперимент. Хороший эксперимент превращает теорию (конструкции) в реальные вещи, которые вы можете измерить. Иногда просто узнать больше о конструкции (которая должна быть действительной) может быть полезный.
Construct validity, таким образом, представляет собой оценку качества инструмента или Экспериментальная дизайн. Он говорит: «Измеряет ли он конструкцию, которую должен мера’. Если у вас нет допустимости конструкции, вы, скорее всего, нарисуете неверный выводы из эксперимента (мусор на входе, мусор на выходе).
Сходимость действия
Конвергентная достоверность возникает там, где меры конструктов, которые, как ожидается, будут коррелировать делать так. Это похоже на одновременную валидность (которая ищет корреляцию с другие тесты).
Дискриминантная валидность
Дискриминантная валидность возникает там, где конструкции, которые, как ожидается, не связаны не делают, так что можно различать эти конструкции.
Сходимость и различение часто демонстрируется корреляцией меры, используемые в конструкциях.
Конвергентная валидность и Дискриминантная валидность вместе демонстрируют конструкцию срок действия.
Номинальная сеть
По определению Кронбаха и Миля, это набор отношений между конструкции и между последующими мерами.Отношения между конструкциями должны быть отражены в отношениях между измерениями или наблюдениями.
Матрица мультитрейт-мультиметод (MTMM)
Определено Кэмпбеллом и Фиске, это демонстрирует валидность конструкции с помощью несколько методов (например, опрос, наблюдение, тест) для измерения одного и того же набора ‘черты’ и отображение корреляций в матрице, где блоки и диагонали имеют особое значение.
Срок действия
Достоверность содержания возникает, когда эксперимент обеспечивает адекватный охват изучаемый предмет.Это включает в себя оценку правильных вещей, а также имея адекватный образец. Образцы должны быть достаточно большими и отбираться на соответствующие целевые группы.
Идеальный вопрос дает полное представление обо всех аспектах происходящего. исследованы. Однако на практике это маловероятно, например, простой сложение не проверяет все математические способности.
Достоверность содержимого очень тесно связана с хорошим экспериментальным дизайном.Высота Вопрос о достоверности контента охватывает больше того, что требуется. Уловка со всеми вопросы состоит в том, чтобы убедиться, что весь целевой контент охвачен (желательно равномерно).
Внутренний срок действия
Внутренняя валидность возникает, когда можно сделать вывод о наличии причинно-следственной связи. взаимосвязь между изучаемыми переменными. Опасность в том, что изменения могут быть вызвано другими факторами.
Это связано с планом эксперимента, например, с использованием случайных назначение процедур.
Срок действия заключения
Заключение имеет силу, когда можно сделать вывод, что существует связь какой-то между двумя переменными исследуется.
Это может быть положительная или отрицательная корреляция.
Внешнее действие
Внешняя достоверность возникает, когда обнаруженная причинная связь может быть обобщены на других людей, времена и контексты.
Правильная выборка сделает возможным обобщение и, следовательно, придаст внешнюю достоверность.
Срок действия по критерию
Это исследует способность меры предсказать переменную, которая обозначен как критерий. Критерием вполне может быть определенное извне «золото». стандарт ». Таким образом, достижение такого уровня достоверности делает результаты более достоверными.
Действительность, связанная с критерием, связана с внешней достоверностью.
Прогностическая достоверность
Это измеряет степень, в которой будущий уровень переменной может быть прогнозируется на основе текущего измерения.Это включает корреляцию с измерения, сделанные разными приборами.
Например, политический опрос предназначен для измерения будущих намерений при голосовании.
Тесты при поступлении в колледж должны иметь высокую прогностическую валидность в отношении итоговые результаты экзаменов.
Одновременное действие
Измеряет взаимосвязь между измерениями, выполненными с помощью существующих тестов. В существующие тесты, таким образом, являются критерием.
Например, мера творчества должна коррелировать с существующими мерами. творчества.
Срок действия
Действительность лица возникает там, где что-то оказывается действительным . Это из Конечно, во многом зависит от суждения наблюдателя. В любом случае это никогда не бывает достаточным и требует более твердой валидности для обеспечения приемлемого выводы, которые предстоит сделать.
Меры часто начинаются с фактической достоверности, поскольку исследователь выбирает те которые, похоже, подтверждают эту точку зрения.
Угрозы
Срок действия в заключении не всегда принимается другими и, возможно, справедливо так.Типичные причины, по которым он может быть не принят, включают:
- Неправильный выбор конструкций или мер.
- Собрано недостаточно данных для обоснованных выводов.
- Измерение выполнено в слишком небольшом количестве контекстов.
- Измерение выполнено с использованием слишком небольшого количества переменных.
- Слишком большой разброс данных (за деревьями не видно леса).
- Неадекватный выбор целевых предметов.
- Сложное взаимодействие между конструкциями.
- Субъекты, дающие предвзятые ответы или пытающиеся угадать, что они должны сказать.
- Экспериментальный метод недействителен.
- Проведение эксперимента не строгое.
См. Также
Срок действия, Три исследования
Обеспечение достоверности — Курс по методологии исследования
Смешивающие переменные
Смешивающая переменная — это посторонняя переменная, которая статистически связана (или коррелирована) с независимой переменной.Это означает, что при изменении независимой переменной вместе с ней изменяется и смешивающая переменная. Неспособность принять во внимание смешивающую переменную может привести к ложному выводу о том, что зависимые переменные находятся в причинно-следственной связи с независимой переменной. Возьмем, к примеру, гипотетическое исследование, которое показало, что люди, которые носят в кармане зажигалку, чаще страдают раком. Было бы неправильно делать вывод, что существует прямая связь между этими двумя переменными или что ношение зажигалки в кармане вызывает рак.Вместо этого есть смешивающая переменная — курение; люди, которые носят в кармане зажигалку, с большей вероятностью будут курильщиками, а у тех, кто курит, с большей вероятностью будет диагностирован рак. Исследователи должны быть осторожны при выявлении и контроле потенциальных мешающих переменных, чтобы можно было точно идентифицировать и измерять связи между зависимой переменной и независимой переменной.
Срок действия
В оставшейся части этого краткого курса методов исследования будут рассмотрены различные угрозы достоверности, существующие на каждом этапе исследовательского процесса.Валидность относится к тому, хорошо ли спланировано исследование и дает ли он результаты, подходящие для обобщения на интересующую группу населения. «База знаний о методах исследования» Trochim предоставляет краткое и полезное изложение каждого типа достоверности; В этом модуле обсуждаются три основных типа валидности, которыми должен интересоваться исследователь. (1)Внутренняя валидность
Внутренняя валидность применяется в исследованиях, которые стремятся установить причинно-следственную связь между двумя переменными и относятся к степени, в которой исследование может сделать хорошие выводы об этой причинно-следственной связи.Внутренняя достоверность достигается, когда исследователь может окончательно заявить, что эффекты, наблюдаемые в исследовании, были вызваны манипуляциями с независимой переменной, а не каким-либо другим фактором. Переменные, находящиеся вне контроля или рассмотрения исследователем, могут повлиять на результат исследования и, следовательно, могут помешать внутренней валидности. (2)
Construct Validity
Construct Validity
Construct validity (Конструктивная валидность) тесно связана с процессом реализации , который мы обсуждали в Модуле 1.Это относится к степени, в которой исследователь может утверждать, что точные выводы могут быть сделаны на основе практических измерений в исследовании теоретических построений, на которых они были основаны. Конструктивная валидность связана с обобщением специфики исследования к более широкой концепции, которую исследование пытается измерить или сделать выводы. Считается, что исследование имеет конструктивную валидность, если исследователь может продемонстрировать, что интересующие переменные были должным образом операционализированы.(3) Например, если в примере модуля 1 близоруких людей, получающих корректирующие линзы, исследователь выбрал операционализировать «экономически продуктивным» как «сумму денег, которую человек имеет в своих сбережениях», исследователь получили бы совсем другие результаты. Люди могут иметь другие источники дохода (подарки, доход супруга, наследство и т. Д.), Кроме личной еженедельной заработной платы, которые могут повлиять на эту переменную, а это означает, что сумма сбережений составляет , а не , что является хорошим показателем экономической производительности. ; поэтому это влияет на конструктивную валидность исследования.
Внешнее действие
Исследователь часто не может работать со всей интересующей совокупностью, а вместо этого должен изучить меньшую выборку этой совокупности, чтобы сделать выводы о большей группе, из которой взята выборка. Внешняя валидность включает в себя степень, в которой выводы могут быть обобщены на более широкую популяцию. Исследование считается внешне достоверным, если выводы исследователя действительно могут быть точно обобщены на население в целом.(4) Выборочная группа должна быть репрезентативной для целевой совокупности, чтобы гарантировать внешнюю валидность.Как исследователь, при разработке исследования важно всегда помнить о концепции валидности. Хороший исследователь обсудит дизайн проекта с консультантом или группой коллег, чтобы убедиться, что его обоснованность сохраняется на каждом этапе процесса. Недостаточный исследовательский проект может сделать выводы, которые неуместны или даже опасны в применении к целевой группе населения.
Обеспечение достоверности
Для получения дополнительной информации о том, как обеспечить достоверность исследования, просмотрите раздел «Срок действия исследования».
Перейти к Модулю 4: Меры по разработке исследования >>
Сноски
(1) Трохим, В. М. К. «Дизайн» База знаний по методам исследования, 2-е издание.
(4) Pelham, B.W .; Блэнтон, Х. Проведение исследований в области психологии: измерение веса дыма, 3-е издание. Wadsworth Publishing (27 февраля 2006 г.).
Внутренняя, внешняя и экологическая обоснованность разработки, проведения и оценки исследований
Indian J Psychol Med. 2018 сентябрь-октябрь; 40 (5): 498–499.
Читтаранджан Андраде
Департамент психофармакологии, Национальный институт психического здоровья и неврологии, Бангалор, Карнатака, Индия
Департамент психофармакологии, Национальный институт психического здоровья и неврологии, Бангалор, Карнатака, Индия
203 Адрес для корреспонденции доктора .Читтаранджан Андраде Отделение психофармакологии, Национальный институт психического здоровья и неврологии, Бангалор — 560 029, Карнатака, Индия. Электронная почта: moc.liamg@cedardna Авторские права: © 2018 Индийское психиатрическое общество — Южное зональное отделениеЭто журнал с открытым доступом, и статьи распространяются в соответствии с условиями лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0, которая позволяет другим ремикшировать, настраивать и дополнять произведение в некоммерческих целях при условии, что предоставлен соответствующий кредит и новые разработки лицензируются на идентичных условиях.
Эта статья цитируется в других статьях в PMC.Abstract
Надежность и достоверность описывают желаемые психометрические характеристики исследовательских инструментов. Концепция достоверности также применяется к исследованиям и их результатам. Внутренняя валидность проверяет, отвечают ли план, проведение и анализ исследования на вопросы исследования беспристрастно. Внешняя валидность определяет, можно ли обобщить результаты исследования на другие контексты. Экологическая валидность исследует, в частности, можно ли обобщить результаты исследования на реальные условия; таким образом, экологическая значимость — это подтип внешней действительности.Эти концепции объясняются с помощью примеров, чтобы читатели могли понять, почему рассмотрение внутренней, внешней и экологической значимости важно для разработки и проведения исследований, а также для понимания достоинств опубликованных исследований.
Ключевые слова: CATIE , экологическая валидность , внешняя валидность , внутренняя валидность , надежность
ИМЕЛА ЛИ CATIE ВНЕШНЮЮ ДЕЙСТВИТЕЛЬНОСТЬ?
Ответ — и да, и нет.CATIE [1] был разработан как исследование эффективности; то есть исследование, имеющее отношение к условиям реального мира. Результаты CATIE актуальны для клинической практики в США, но имеют сомнительную актуальность в Индии. Одна из причин заключается в том, что в США, где проводилась CATIE, первичный результат — время до прекращения лечения по всем причинам — в значительной степени зависит от пациента, тогда как в Индии, где лечение контролируется семьями, он в значительной степени определяется лицом, осуществляющим уход. Другая и более важная причина заключается в том, что система оказания медицинской помощи в клинической практике в двух странах разительно отличается.Таким образом, CATIE имеет хорошую внешнюю валидность для клинической практики в США, но не в Индии.
НАДЕЖНОСТЬ И ДЕЙСТВИТЕЛЬНОСТЬ
Надежность и действительность — это концепции, которые применяются к таким инструментам, как рейтинговые шкалы и инструменты проверки. Валидность описывает, насколько хорошо инструмент выполняет то, что должен делать. Например, может ли прибор, который проверяет депрессию, делать это с высокой чувствительностью и специфичностью? Надежность описывает последовательность, с которой получены результаты.Например, если прибор, оценивающий тяжесть депрессии, вводят одному и тому же пациенту дважды в течение часа, близки ли полученные оценки? Различные типы надежности и валидности описывают желаемые психометрические свойства исследований и клинических инструментов. [2,3] Валидность также может применяться к лабораторным и клиническим исследованиям, а также к их результатам, как показано в разделах ниже.
ВНУТРЕННЯЯ ДЕЙСТВИТЕЛЬНОСТЬ
Внутренняя валидность определяет, позволяет ли способ, которым было спланировано, проведено и проанализировано исследование, получить достоверные ответы на вопросы исследования.Например, неправильная рандомизация, непреднамеренное раскрытие информации о пациентах или оценщиках, чрезмерное использование спасательных препаратов и недостающие данные могут подорвать достоверность результатов и выводов рандомизированного контролируемого исследования (РКИ). То есть внутренняя валидность RCT ставится под угрозу. Внутренняя достоверность основана на суждении и не является вычисленной статистикой.
Внутренняя достоверность определяет степень присутствия систематической ошибки (систематической ошибки). Такая систематическая ошибка может возникать из-за смещения отбора, смещения производительности, смещения обнаружения и смещения выбытия.[4] Если внутренняя валидность скомпрометирована, ее иногда можно улучшить, например, с помощью модифицированного плана анализа. Однако смещения часто могут быть фатальными, например, если двойные слепые оценки не были получены в рандомизированном контролируемом исследовании.
ВНЕШНЯЯ ДЕЙСТВИТЕЛЬНОСТЬ
Внешняя валидность определяет, можно ли обобщить результаты исследования на другие контексты. [4] Исследования проводятся на выборках, и если выборка была случайной, выборка является репрезентативной для генеральной совокупности, и поэтому результаты исследования могут быть обоснованно обобщены для генеральной совокупности, из которой была взята выборка.Но результаты не могут быть распространены на другие группы населения. Таким образом, внешняя валидность недостаточна для исследований с социально-демографическими ограничениями; исследования, исключающие тяжелобольных и суицидальных пациентов или пациентов с расстройствами личности, расстройствами, связанными с употреблением психоактивных веществ, и сопутствующими медицинскими заболеваниями; исследования, запрещающие одновременное лечение; и так далее. Внешняя валидность также ограничена в краткосрочных исследованиях пациентов, которым требуется лечение от месяцев до лет. Внешняя достоверность, как и внутренняя достоверность, основана на суждении и не является вычисляемой статистикой.
ЭКОЛОГИЧЕСКАЯ ДЕЙСТВИТЕЛЬНОСТЬ
Экологическая валидность определяет, можно ли обобщить результаты исследования в реальных условиях [5]. Чем это отличается от внешней действительности? Внешняя валидность спрашивает, можно ли обобщить результаты исследования на пациентов с характеристиками, которые отличаются от характеристик в исследовании, или пациентов, которых лечат другим способом, или пациентов, которые наблюдаются в течение более длительных периодов времени. В отличие от этого, экологическая обоснованность конкретно исследует, можно ли обобщить результаты исследования на естественные ситуации, такие как клиническая практика в повседневной жизни.Следовательно, экологическая значимость — это подтип внешней достоверности. Экологическая валидность инструмента может быть вычислена как корреляция между оценками, полученными с помощью этого инструмента, и соответствующей мерой в натуралистической практике или в повседневной жизни. Экологическая обоснованность исследования — это суждение, а не вычисленная статистика.
ОБСУЖДЕНИЕ
Экологическая обоснованность первоначально использовалась в контексте лабораторных исследований, которые требовалось обобщить на реальные жизненные ситуации.[5] Таким образом, лабораторные исследования нейропсихологических и психомоторных нарушений, вызванных психотропными препаратами, имеют низкую экологическую ценность, потому что то, что изучается на расслабленных, отдохнувших и здоровых субъектах, тестируется в контролируемой среде, сильно отличается от требований, с которыми пациенты, находящиеся в стрессовом состоянии, сталкиваются в повседневной жизни. . Фактически, эти когнитивные и психомоторные тесты, особенно когда они основаны на компьютерных задачах, не имеют аналогов в повседневной жизни. Насколько же меньшую экологическую значимость имели бы исследования на животных моделях различных психоневрологических состояний для пациентов в клинической практике? Это объясняет, почему лекарства, которые работают на животных моделях, часто не работают на людях.[6]
Напомним, что хорошее понимание концепций внутренней, внешней и экологической значимости необходимо для правильного планирования и проведения исследований, а также для оценки достоинств и применения опубликованных исследований.
Финансовая поддержка и спонсорство
Нет.
Конфликты интересов
Конфликты интересов отсутствуют.
СПИСОК ЛИТЕРАТУРЫ
1. Либерман Дж. А., Строуп Т. С.. Исследование шизофрении NIMH-CATIE: что мы узнали? Am J Psychiatry.2011; 168: 770–5. [PubMed] [Google Scholar] 2. Streiner DL. Серия комментариев к статистике: Комментарий №15-Надежность. J Clin Psychopharmacol. 2016; 36: 305–7. [PubMed] [Google Scholar] 3. Streiner DL. Статистические комментарии серии: Комментарий № 17-достоверность. J Clin Psychopharmacol. 2016; 36: 542–4. [PubMed] [Google Scholar] 4. Джуни П., Альтман Д.Г., Эггер М. Оценка качества рандомизированных контролируемых испытаний. В: Эггер М., Смит Г.Д., Альтман Д.Г., редакторы. Систематические обзоры в здравоохранении: метаанализ в контексте.Лондон: Издательская группа BMJ; 2001. С. 87–108. [Google Scholar] 5. Левкович DJ. Концепция экологической обоснованности: каковы ее ограничения и плохо ли быть недействительным. Младенчество. 2001; 2: 437–50. [Google Scholar] 6. Андраде С., Судха С., Венкатараман Б.В. Лечение травами для вызванного ECS дефицита памяти: обзор исследований и обсуждение моделей на животных. J ECT. 2000. 16: 144–56. [PubMed] [Google Scholar]Введение в валидность инструментов оценки
J Grad Med Educ. 2011 июн; 3 (2): 119–120.
Автор, ответственный за переписку: Гейл М. Салливан, доктор медицины, магистр здравоохранения, главный редактор, Journal of Graduate Medical Education , 515 N State St, Suite 2000, ude.chcu.1osn@navillusg Совет по аккредитации авторских прав для последипломного медицинского образования были процитированы другими статьями в PMC.1. Что такое надежность?
1Надежность означает, дает ли инструмент оценки одни и те же результаты каждый раз, когда он используется в одних и тех же условиях с одним и тем же типом субъектов.Надежность по существу означает согласованных или надежных результатов . Надежность — это часть оценки достоверности.
2. Что такое срок действия?
1Достоверность исследования означает, насколько точно исследование отвечает на вопрос исследования или насколько убедительны выводы исследования. Для показателей результатов, таких как опросы или тесты, валидность относится к точности измерения . Здесь валидность означает, насколько хорошо инструмент оценки фактически измеряет основной интересующий результат.Валидность — это не свойство самого инструмента, а скорее интерпретация или конкретная цель инструмента оценки с конкретными настройками и учащимися.
Инструменты оценки должны быть надежными и действительными, чтобы результаты исследования были достоверными. Таким образом, для каждого инструмента оценки, используемого для измерения результатов исследования, необходимо проверить надежность и валидность и указать в них или цитировать ссылки. Примеры оценок включают анкету с отзывами жителей, оценку курса, письменный тест, рейтинги наблюдателей в клинической симуляции, опрос для оценки потребностей и оценку учителей.Недостаточно использовать инструмент с высокой надежностью; другие критерии достоверности необходимы для подтверждения достоверности вашего исследования.
3. Как измеряется надежность?
2 — 4Надежность можно оценить несколькими способами; метод будет зависеть от типа инструмента оценки. Иногда надежность называют внутренней валидностью или внутренней структурой инструмента оценки.
Для внутренней согласованности Создаются от 2 до 3 вопросов или пунктов, которые измеряют одну и ту же концепцию, и вычисляется разница между ответами.То есть измеряется корреляция между ответами.
Альфа Кронбаха — это тест на внутреннюю согласованность, который часто используется для расчета значений корреляции между ответами на вашем инструменте оценки. 5 Альфа Кронбаха вычисляет корреляцию между всеми переменными в каждой комбинации; оценка высокой надежности должна быть как можно ближе к 1.
Для test / retest тест должен каждый раз давать одни и те же результаты, при условии, что нет интервальных изменений в том, что вы измеряете, и они часто измеряются как корреляция, с Pearson r.
Тест / повторный тест — это более консервативная оценка надежности, чем альфа Кронбаха, но для этого требуется как минимум 2 введения инструмента, тогда как альфа Кронбаха может быть рассчитана после одного введения. Для выполнения теста / повторного тестирования вы должны иметь возможность минимизировать или исключить любые изменения (т. Е. Обучение) в условиях, которые вы измеряете, между двумя измерениями. Используйте инструмент для оценки 2 раза для каждого предмета и вычислите корреляцию между 2 различными измерениями.
Межэкспертная надежность используется для изучения влияния разных оценщиков или наблюдателей, использующих один и тот же инструмент, и обычно оценивается по процентному соглашению, каппе (для бинарных результатов) или тау Кендалла.
Другой метод использует дисперсионный анализ (ANOVA) для генерации коэффициента обобщаемости , для количественной оценки того, какая ошибка измерения может быть отнесена к каждому потенциальному фактору, например, различным тестовым заданиям, предметам, оценщикам, датам введения и т. Д. .Эта модель смотрит на общую надежность результатов. 6
5. Как определяется срок действия инструмента оценки?
4 — 7 , 8Для валидности инструментов оценки требуется несколько источников доказательств, чтобы обосновать, что инструмент измеряет то, что он должен измерять. , 9,10 Определение достоверности можно рассматривать как построение аргументации, основанной на доказательствах, относительно того, насколько хорошо инструмент измеряет то, что он должен делать.Свидетельства могут быть собраны для поддержки или не поддержки конкретного использования инструмента оценки. Доказательства можно найти в содержании , процессе ответа, отношениях с другими переменными, последствиях и .
Содержимое включает описание шагов, используемых для разработки инструмента. Предоставьте информацию, например, кто создал инструмент (национальные эксперты придавали бы большую достоверность, чем местные эксперты, которые, в свою очередь, имели бы большую значимость, чем неспециалисты), и другие шаги, поддерживающие инструмент, имеют соответствующее содержание.
Процесс ответа включает информацию о том, действительно ли действия или мысли испытуемых соответствуют тесту, а также информацию об обучении оценщиков / наблюдателей, инструкции для испытуемых, инструкции по выставлению оценок и ясность этих материалов.
Связь с другими переменными включает корреляцию результатов нового инструмента оценки с другими результатами деятельности, которые, вероятно, будут такими же. Если существует ранее принятый «золотой стандарт» измерения, коррелируйте результаты прибора с показателями испытуемого по «золотому стандарту».Во многих случаях «золотого стандарта» не существует, и проводится сравнение с другими оценками, которые кажутся разумными (например, экзамены по переподготовке, объективные структурированные клинические экзамены, ротационные «оценки» и аналогичные опросы).
Последствия означает, что при наличии баллов по показателям «годен / не годен» или «отсечен» результаты, сгруппированные в каждую категорию, имеют тенденцию к аналогичным результатам в других параметрах настройки. Кроме того, если участники с более низкими показателями пройдут дополнительное обучение и их результаты улучшатся, это повысит надежность инструмента.
Различные типы инструментов требуют акцента на разных источниках достоверности доказательств. 7 Например, для оценки результатов работы жильцов наблюдателями согласие между экспертами может быть ключевым, тогда как для обследования, измеряющего уровень стресса жильцов, более важным может быть отношение к другим переменным. Для экзамена с множественным выбором содержание и последствия могут быть важными источниками доказательств действительности. Для оценок с высокими ставками (например, экзаменов комиссии) потребуются существенные доказательства, подтверждающие обоснованность. 9
Существуют также другие типы свидетельств действительности, которые здесь не обсуждаются.
6. Как исследователи могут повысить надежность своих инструментов оценки?
Во-первых, выполните поиск в литературе и используйте ранее разработанные критерии оценки результатов. Если инструмент необходимо модифицировать для использования с вашими предметами или обстановкой, измените и опишите, как это сделать, прозрачным образом. Включите достаточно деталей, чтобы читатели могли понять потенциальные ограничения этого подхода.
Если инструменты оценки недоступны, используйте экспертов по содержанию, чтобы создать свои собственные и опробовать инструмент, прежде чем использовать его в своем исследовании. Проверьте надежность и включите в свою статью как можно больше источников доказательств действительности. Обсудите ограничения этого подхода открыто.
7. Каковы ожидания редакторов
JGME в отношении инструментов оценки, используемых в исследованиях в области последипломного медицинского образования?Редакторы JGME ожидают, что обсуждение валидности ваших инструментов оценки будет прямо упомянуто в вашей рукописи, в разделе методов.Если вы используете ранее изученный инструмент в той же обстановке, с теми же предметами и для той же цели, достаточно цитировать ссылку (-ы). Дополнительное обсуждение вашей адаптации необходимо, если вы (1) модифицировали ранее изученные инструменты; (2) используют инструмент в разных условиях, предметах или целях; или (3) используют другую интерпретацию или пороговые значения. Обсудите, могут ли изменения повлиять на надежность или действительность инструмента.
Исследователям, создающим новые инструменты оценки, необходимо указать процесс разработки, меры надежности, результаты пилотных проектов и любую другую информацию, которая может придать достоверность использованию инструментов собственного производства.Прозрачность повышает доверие.
В общем, мало информации можно почерпнуть из исследований на одном участке с использованием непроверенных инструментов оценки; эти исследования вряд ли будут приняты к публикации.
8. Каковы полезные ресурсы для проверки надежности и достоверности инструментов оценки?
Ссылки на эту редакционную статью являются хорошей отправной точкой.
Сноски
Гейл М. Салливан, доктор медицины, магистр здравоохранения, — главный редактор журнала Journal of Graduate Medical Education .
Ссылки
1. Американская ассоциация исследований в области образования, Американская психологическая ассоциация, Национальный совет по измерениям в образовании. Стандарты педагогического и психологического тестирования. Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования; 1999. [Google Scholar] 2. Даунинг С.М. Надежность: о воспроизводимости данных оценки. Med Educ. 2004. 38 (9): 1006–1012. [PubMed] [Google Scholar] 3. Бекман Т.Дж., Гош А.К., Кук Д.А., Эрвин П.Дж., Мандеркар Дж. Насколько надежны оценки клинического обучения ?: обзор опубликованных инструментов.J Gen Intern Med. 2004. 19 (9): 971–977. [Бесплатная статья PMC] [PubMed] [Google Scholar] 4. Повар Д.А., Бекман Т.Дж. Современные концепции валидности и надежности психометрических инструментов. Am J Med. 2006. 119 (2): 166e7–166e16. [PubMed] [Google Scholar] 6. Бреннан Р.Л. Теория обобщаемости. Нью-Йорк, штат Нью-Йорк: Спрингер-Верлаг; 2001. [Google Scholar] 7. Даунинг С.М. Обоснованность: осмысленная интерпретация данных оценки. Med Educ. 2003. 37 (9): 830–837. [PubMed] [Google Scholar] 8. Даунинг С.М., Халдына TM. Угрозы действительности: преодоление помех предлагаемым интерпретациям данных оценки.Med Educ. 2004. 38 (3): 327–333. [PubMed] [Google Scholar] 9. Кейн М. Проверка программ тестирования с высокими ставками. Учебно-методические вопросы Прак. 2002; 1: 31–41. [Google Scholar] 10. Кейн М. Оценка профессиональной компетентности. Eval Health Prof. 1992; 15 (2): 163–182. [PubMed] [Google Scholar]Надежность и достоверность — Информационный центр WAC
Эти связанные вопросы исследования просят нас подумать, изучаем ли мы то, что, по нашему мнению, изучаем, и согласованы ли применяемые нами меры.
Надежность
Надежность — это степень, в которой эксперимент, испытание или любая процедура измерения дают одинаковый результат при повторных испытаниях. Без согласия независимых наблюдателей, способных воспроизводить исследовательские процедуры, или способности использовать исследовательские инструменты и процедуры, которые дают последовательные измерения, исследователи не смогут удовлетворительно делать выводы, формулировать теории или делать заявления об обобщаемости своих исследований. Помимо важной роли в исследованиях, надежность имеет решающее значение для многих сфер нашей жизни, включая производство, медицину и спорт.
Надежность — это настолько важное понятие, что оно было определено с точки зрения его применения в широком спектре деятельности. Для исследователей четыре ключевых типа надежности:
Надежность эквивалентности
Надежность эквивалентности — это степень, в которой два элемента измеряют идентичные концепции с одинаковым уровнем сложности. Надежность эквивалентности определяется путем соотнесения двух наборов результатов тестов друг с другом, чтобы подчеркнуть степень взаимосвязи или ассоциации.В количественных исследованиях, и особенно в экспериментальных исследованиях, коэффициент корреляции, статистически обозначаемый как r , используется, чтобы показать силу корреляции между зависимой переменной (исследуемым объектом) и одной или несколькими независимыми переменными, которые манипулируют, чтобы определить влияние на зависимую переменную. Важное соображение заключается в том, что надежность эквивалентности связана с корреляционными, а не причинными отношениями.
Например, исследователь, изучающий английских студентов университета, заметил, что, когда некоторые студенты готовились к выпускным экзаменам, их праздничные покупки начались.Заинтригованный этим, исследователь попытался наблюдать, как часто и в какой степени эти два поведения совпадали в течение учебного года. Исследователь использовал результаты наблюдений, чтобы оценить взаимосвязь между обучением в течение учебного года и покупкой подарков. Исследователь пришел к выводу, что между двумя действиями была низкая надежность эквивалентности. Другими словами, учеба не является надежным предиктором покупки подарков.
Устойчивость Надежность
Стабильность Надежность (иногда называемая проверкой, проверкой надежности) — это согласование средств измерений с течением времени.Чтобы определить стабильность, измерение или тест повторяют на тех же предметах в будущем. Результаты сравниваются и соотносятся с первоначальным тестом для определения стабильности.
Примером надежности стабильности может быть метод поддержания веса, используемый Бюро стандартов США. Платиновые предметы фиксированного веса (один килограмм, один фунт и т. Д.) Хранятся под замком. Один раз в год их вынимают и взвешивают, позволяя обнулять весы, чтобы они «взвешивали» точно.Отслеживание того, насколько отклоняются шкалы из года в год, обеспечивает стабильность и надежность этих инструментов. В этом случае предполагается, что сами платиновые гири имеют идеально фиксированную стабильность и надежность.
Внутренняя согласованность
Внутренняя согласованность — это степень, в которой тесты или процедуры оценивают одни и те же характеристики, навыки или качество. Это мера точности между наблюдателями или измерительными приборами, используемыми в исследовании.Этот тип надежности часто помогает исследователям интерпретировать данные и прогнозировать значение оценок и пределы взаимосвязи между переменными.
Например, исследователь составляет анкету, чтобы узнать о неудовлетворенности студентов тем или иным учебником. Анализ внутренней согласованности вопросов, касающихся неудовлетворенности, покажет, в какой степени вопросы анкеты фокусируются на понятии неудовлетворенности.
Надежность между экспертами
Надежность Interrater — это степень согласия двух или более лиц (кодировщиков или рейтеров).Надежность между экспертами связана с последовательностью внедрения рейтинговой системы.
Тест на надежность между экспертами может быть следующим сценарием: два или более исследователя наблюдают за классом средней школы. Класс обсуждает фильм, который они только что просмотрели всей группой. У исследователей есть скользящая шкала оценок (1 — самая положительная, 5 — самая отрицательная), по которой они оценивают устные ответы учеников. Надежность Interrater оценивает последовательность применения рейтинговой системы.Например, если один исследователь дает «1» ответ студента, в то время как другой исследователь дает «5», очевидно, что межэкспертная надежность будет непостоянной. Надежность между экспертами зависит от способности двух или более человек быть последовательными. Навыки обучения, образования и контроля могут повысить надежность межэкспертного эксперта.
Связанная информация: Пример надежности
Примером важности надежности является использование измерительных приборов на олимпийских соревнованиях по легкой атлетике.Для подавляющего большинства людей обычные измерительные линейки и степень их точности являются достаточно надежными. Однако для олимпийских соревнований, таких как метание диска, малейшее изменение измерительного устройства — будь то лента, часы или другое устройство — может означать разницу между золотой и серебряной медалями. Кроме того, это может означать разницу между новым мировым рекордом и полным отказом от квалификации на мероприятие. Таким образом, олимпийские измерительные приборы должны быть надежными при переходе от одного броска или гонки к другому и от одного соревнования к другому.Они также должны быть надежными при использовании в разных частях света, поскольку температура, давление воздуха, влажность, интерпретация или другие переменные могут повлиять на их показания.
Срок действия
Действительность относится к степени, в которой исследование точно отражает или оценивает конкретную концепцию, которую исследователь пытается измерить. В то время как надежность связана с точностью реального измерительного прибора или процедуры, достоверность связана с успехом исследования в измерении того, что исследователи намеревались измерить.
Исследователи должны быть обеспокоены как внешней , так и внутренней валидностью. Внешняя валидность относится к степени, в которой результаты исследования могут быть обобщены или перенесены. (Большинство дискуссий о внешней валидности сосредоточено исключительно на обобщаемости; см. Campbell and Stanley, 1966. Мы включаем сюда ссылку на переносимость, потому что многие качественные исследования не предназначены для обобщения.)
Внутренняя валидность относится к (1) строгости, с которой было проведено исследование (например,g., дизайн исследования, меры, принимаемые при проведении измерений, и решения относительно того, что измерялось, а что не измерялось) и (2) степень, в которой разработчики исследования приняли во внимание альтернативные объяснения любых причинно-следственных связей, которые они исследуют. (Huitt, 1998). В исследованиях, которые не исследуют причинно-следственные связи, при оценке внутренней валидности следует учитывать только первое из этих определений.
Ученые обсуждают несколько типов внутренней достоверности. Чтобы кратко обсудить несколько типов внутренней действительности, щелкните следующие элементы:
Лицевая достоверность
Правильность лица связана с тем, как появляется мера или процедура.Кажется ли это разумным способом получить информацию, которую пытаются получить исследователи? Кажется, хорошо продуманный? Вроде как надежно будет работать? В отличие от достоверности содержания, фактическая достоверность не зависит от устоявшихся теорий поддержки (Fink, 1995).
Срок действия, связанный с критерием
Валидность, связанная с критериями, также называемая инструментальной валидностью, используется для демонстрации точности меры или процедуры путем сравнения ее с другой мерой или процедурой, валидность которой подтверждена.
Например, представьте, что практический экзамен по вождению оказался точной проверкой навыков вождения. Сравнивая результаты письменного экзамена по вождению с результатами практического экзамена по вождению, письменный тест может быть подтвержден с использованием стратегии, связанной с критериями, в которой практический тест по вождению сравнивается с письменным тестом.
Срок действия конструкции
Construct validity требует согласия между теоретической концепцией и конкретным измерительным прибором или процедурой.Например, исследователь, изобретающий новый тест IQ, может потратить много времени, пытаясь «определить» интеллект, чтобы достичь приемлемого уровня валидности конструкции.
Конструктивная валидность можно разбить на две подкатегории: конвергентная валидность и дискриминирующая валидность. Конвергентная достоверность — это фактическое общее согласие между рейтингами, собранными независимо друг от друга, где меры должны быть теоретически связаны. Дискриминационная валидность — это отсутствие взаимосвязи между мерами, которые теоретически не должны быть связаны.
Чтобы понять, имеет ли часть исследования конструктную валидность, необходимо выполнить три шага. Во-первых, необходимо указать теоретические соотношения. Во-вторых, необходимо изучить эмпирические отношения между мерами понятий. В-третьих, эмпирические данные следует интерпретировать с точки зрения того, как они проясняют конструктивную валидность конкретной проверяемой меры (Carmines & Zeller, p. 23).
Срок действия содержимого
Достоверность контента основывается на степени, в которой измерение отражает конкретную предполагаемую область контента (Carmines & Zeller, 1991, стр.20).
Достоверность содержания проиллюстрирована на следующих примерах: Исследователи стремятся изучить математическое обучение и создают опрос для проверки математических навыков. Если бы эти исследователи только проверяли умножение, а затем делали выводы из этого опроса, их исследование не показало бы достоверность содержания, потому что оно исключает другие математические функции. Хотя определение валидности содержания для экзаменов размещения кажется относительно простым, процесс становится более сложным по мере того, как он переходит в более абстрактную область социокультурных исследований.Например, исследователь, которому нужно измерить такое отношение, как самооценка, должен решить, что составляет релевантную область контента для этого отношения. Что касается социокультурных исследований, валидность содержания заставляет исследователей определять те самые области, которые они пытаются изучить.
Связанная информация: Пример действия
Многие виды отдыха старшеклассников связаны с вождением автомобилей. Исследователь, желающий измерить, оказывают ли развлекательные мероприятия отрицательное влияние на средний балл старшеклассников, может провести опрос, чтобы спросить, сколько учеников ездят в школу, а затем попытаться найти корреляцию между этими двумя факторами.Поскольку многие учащиеся могут использовать свои автомобили для целей, отличных от отдыха или в дополнение к ним (например, ездить на работу после школы, ездить в школу, а не ходить пешком или ездить на автобусе), это исследование может оказаться недействительным. Даже если бы между вождением и средним баллом была обнаружена сильная корреляция, вождение в школу само по себе могло бы показаться неверным показателем рекреационной активности.
Комментарий
Задачи достижения надежности и достоверности являются одними из самых сложных, с которыми сталкиваются исследователи.В этом разделе мы предлагаем комментарии к этим проблемам.
Трудности достижения надежности
Важно понимать некоторые проблемы, связанные с надежностью, которые могут возникнуть. Было бы идеально каждый раз надежно измерять именно те вещи, которые мы собираемся измерять. Однако исследователи могут пойти на многое и сделать все возможное, чтобы обеспечить точность своих исследований, и при этом иметь дело с присущими им трудностями измерения конкретных событий или поведения.Иногда, особенно в естественных условиях, единственным доступным измерительным прибором являются собственные наблюдения исследователя за человеческим взаимодействием или реакцией человека на различные стимулы. Поскольку эти методы в конечном итоге являются субъективными по своей природе, результаты могут быть ненадежными и возможны множественные интерпретации. Три из этих неотъемлемых трудностей — это донкихотская надежность, диахроническая надежность и синхроническая надежность.
Донкихотская надежность относится к ситуации, когда один способ наблюдения последовательно, но ошибочно, дает один и тот же результат.Когда кажется, что исследования идут хорошо, это часто становится проблемой. Эта последовательность может показаться, что эксперимент демонстрирует абсолютную надежность стабильности. Однако это не так.
Например, если измерительный прибор, используемый на олимпийских соревнованиях, всегда показывает 100 метров для каждого метания диска, это будет примером прибора, который постоянно, но ошибочно, дает один и тот же результат. Однако донкихотская надежность часто бывает более тонкой в своих проявлениях, чем это.Например, предположим, что группа немецких исследователей, занимающихся этнографическим изучением отношения американцев, задает вопросы и записывает ответы. Части их исследования могут давать ответы, которые кажутся надежными, но, тем не менее, позволяют измерить удачные словесные украшения, необходимые для «правильного» социального поведения. Спрашивая американцев: «Как дела?» например, в большинстве случаев вызовет знак «Хорошо, спасибо». Однако этот ответ не будет точно отражать психическое или физическое состояние респондентов.
Диахроническая надежность относится к стабильности наблюдений во времени. Это похоже на надежность стабильности в том, что она имеет дело со временем. Хотя этот тип надежности подходит для оценки характеристик, которые остаются относительно неизменными с течением времени, например, эталонов ландшафта или зданий, такой же уровень надежности труднее достичь с социокультурными явлениями.
Например, в последующем исследовании понимания прочитанного через год в определенной группе школьников трудно будет достичь диахронической надежности.Если бы тест был проведен тем же испытуемым год спустя, многие искажающие переменные повлияли бы на способность исследователей воспроизвести те же обстоятельства, что и при первом тесте. Окончательные результаты почти наверняка не отразили бы степень стабильности, к которой стремились исследователи.
Синхронная надежность относится к схожести наблюдений в одном и том же временном интервале; дело не в сходстве наблюдаемых вещей. Синхронная надежность, в отличие от диахронической надежности, редко предполагает наблюдение идентичных вещей.Скорее, он касается особенностей, представляющих интерес для исследования.
Например, исследователь изучает действия крыла утки в полете и действия крыла колибри в полете. Несмотря на то, что исследователь изучает два совершенно разных типа крыльев, действие крыльев и возникающее явление одинаковы.
Аннотированная библиография
Американская психологическая ассоциация. (1985). Стандарты учебно-психологического тестирования. Вашингтон, округ Колумбия: Автор.
В этой работе основное внимание уделяется надежности, достоверности и стандартам, которые должны соблюдаться тестировщиками для обеспечения точности.
Babbie, E.R. & Huitt, R.E. (1979). Практика социальных исследований 2-е изд. . Бельмонт, Калифорния: Издательство Wadsworth.
Обзор социальных исследований и их приложений.
Beauchamp, T. L., Faden, R.R., Wallace, Jr., R.J. И Уолтерс, L . ( 1982). Этические вопросы в исследованиях в области социальных наук. Балтимор и Лондон: Издательство Университета Джона Хопкинса.
Систематический обзор этических проблем в социальных исследованиях, написанный исследователями, не понаслышке знакомыми с ситуациями и проблемами, с которыми исследователи сталкиваются в своей работе. В этой книге поднимается несколько вопросов о том, как этика может повлиять на надежность и обоснованность.
Борман, К. и другие. (1986). Этнографический и качественный дизайн исследования и почему он не работает. Американский бихевиорист 30 , 42-57.
Авторы ставят вопросы, касающиеся угроз качественному исследованию, и предлагают решения.
Боуэн, К. А. (1996, 12 октября). Грех упущения — наказание смертью для внутренней достоверности: аргумент в пользу интеграции количественных методов исследования для усиления внутренней достоверности. Доступно: http://trochim.human.cornell.edu/gallery/bowen/hss691.htm
Целый веб-сайт, посвященный достоинствам интеграции качественных и количественных методологий исследования посредством триангуляции.Автор утверждает, что результатом такого союза будет повышение внутренней валидности социальных наук.
Бринберг, Д. и МакГрат, Дж. Э. (1985). Срок действия и процесс исследования . Беверли-Хиллз: Sage Publications.
Авторы исследуют валидность как ценность и предлагают схему сети валидности — процесс, с помощью которого исследователи могут придать валидность своим исследованиям.
Bussières, J-F. (1996, 12 октября). Достоверность и достоверность информации, предоставляемой сайтами музеев.Доступно: http://www.oise.on.ca/~jfbussieres/issue.html
Эта веб-страница проверяет достоверность веб-сайтов музеев, что ставит под сомнение достоверность веб-ресурсов в целом. Решает проблему, заключающуюся в том, что все веб-сайты должны скептически относиться к достоверности содержащейся на них информации.
Кэмпбелл, Д. Т. и Стэнли, Дж. К. (1963). Экспериментальные и квазиэкспериментальные планы исследований. Бостон: Хоутон Миффлин.
Обзор экспериментальных исследований, который включает предэкспериментальные планы, средства контроля внутренней валидности и таблицы со списком источников недействительности квазиэкспериментальных дизайнов. Список литературы и примеры.
Carmines, E.G. & Zeller, R.A. (1991). Оценка надежности и достоверности . Парк Ньюбери: Публикации Сейджа.
Введение в методологию исследования, которая включает классическую теорию тестирования, валидность и методы оценки надежности.
Кэрролл, К. М. (1995). Методологические вопросы и проблемы оценки употребления психоактивных веществ. Psychological Assessment, 7 сентября n3 , 349-58.
Обсуждает методологические вопросы исследований, связанных с оценкой злоупотребления психоактивными веществами. Предлагает стратегии, позволяющие избежать проблем с надежностью и валидностью методов.
Коннелли, Ф. М. и Кландинин, Д. Дж. (1990). Истории опыта и повествовательные запросы. Исследователь в области образования 19: 5 , 2-12.
Обзор повествовательного запроса, в котором излагаются критерии, методы и формы письма. Он включает в себя обсуждение рисков и опасностей в нарративных исследованиях, а также программу исследований для учебных программ и занятий в классе.
De Witt, P.E. (1995, 3 июля). На экране рядом с вами: Cyberporn. Время, 38-45.
Это исчерпывающее исследование онлайн-порнографии в Карнеги-Меллон, проведенное Марти Риммом, студентом-электротехником.
Финк, А., изд. (1995). The Survey Handbook, v.1 .Thousand Oaks, CA: Sage.
Руководство по обследованию; это первая из серии, называемой «комплектом для обследования». Включает библиографические ссылки. Рассматривается дизайн опроса, анализ, отчетность по опросам и способы измерения достоверности и надежности опросов.
Финк А., изд. (1995). Как измерить надежность и достоверность опроса v. 7 . Таузенд-Оукс, Калифорния: Сейдж.
В этом томе делается попытка выбрать и применить критерии надежности, а также выбрать и применить критерии достоверности.Рассмотрены основные принципы масштабирования и скоринга.
Годвин, М. (1995, июль). JournoPorn, анализ статьи Time . Доступен: http://www.hotwired.com
Подробная критика Cyberporn журнала Time с указанием недостатков методологии, а также исследованием основных предположений статьи.
Hambleton, R.K. И Заал, Дж. Н., ред. (1991). Успехи в образовательном и психологическом тестировании .Бостон: Kluwer Academic.
Информация о концепциях надежности и обоснованности в психологии и образовании.
Harnish, D.L. (1992). Человеческое суждение и логика доказательств: критический анализ методов исследования в специальной литературе перехода образования . В D.L. Харниш и др. ред., Избранные чтения в переходный период.
В данной статье исследуются угрозы достоверности исследований в области специального образования.
Хейнс, Н.М. (1995). Насколько перекошена «колоколообразная кривая»? Обзоры книжных продуктов . 1-24.
В этой статье утверждается, что Р.Дж. Хернштейна и К. Мюррея Колоколообразная кривая: интеллект и классовая структура в американской жизни не имеет научной ценности и утверждает, что колоколообразная кривая является ненадежным показателем интеллекта.
Хили, Дж. Ф. (1993). Статистика: инструмент для социальных исследований, 3-е изд. . Бельмонт: издательство Wadsworth.
Рассмотрены логическая статистика, меры ассоциации и многомерные методы статистического анализа для социологов.
Helberg, C. (1996, 12 октября). Подводные камни анализа данных (или как избежать лжи и проклятой лжи). Доступно: http // maddog / fammed.wisc.edu / pitfalls /
Обсуждение вещей, которые исследователи часто упускают из виду при анализе данных, и того, как статистика часто используется для искажения надежности и достоверности для целей исследователей.
Hoffman, D. L., Novak, T.P. (1995, июль). Подробная критика статьи Time : Cyberporn. В наличии: http: // www.hotwired.com
Методологическая критика статьи Time , раскрывающая некоторые фундаментальные ошибки в статистике и выводах, сделанных Де Виттом.
Хайтт, Уильям Г. (1998). Внутренняя и внешняя действительность . http://www.valdosta.peachnet.edu/~whuitt/psy702/intro/valdgn.html
Веб-документ, посвященный ключевым вопросам внешней и внутренней действительности.
Джонс, Дж.Э. и Берли, W.L. (1996, 12 октября). Надежность и валидность средств обучения. Системы организационной вселенной. Доступен: http://ous.usa.net/relval.htm
Авторы обсуждают надежность и обоснованность дизайна обучения в деловой среде. Даны определения основных терминов и приведены примеры.
Журнал методов культурной антропологии. (12 октября 1996 г.). Доступно: http://www.lawrence.edu/~bradleyc/cam.html
Интернет-журнал, содержащий статьи о практическом применении исследовательских методов при проведении качественных и количественных исследований. Надежность и достоверность рассматриваются повсюду.
Кирк Дж. И Миллер М. М. (1986). Надежность и достоверность качественного исследования. Беверли-Хиллз: Sage Publications.
Этот текст описывает объективность качественного исследования, сосредоточивая внимание на вопросах достоверности и надежности с точки зрения их ограничений и применимости в социальных и естественных науках.
Krakower, J. & Niwa, S. (1985). Оценка обоснованности и надежности институционального обзора производительности . Боулдер, Колорадо: Национальный центр систем управления высшим образованием.
Обзоры образования и исследования высшего образования и эффективность организации.
Лауэр, Дж. М. и Ашер, Дж. У. (1988). Исследование композиции. Нью-Йорк: издательство Оксфордского университета.
Обсуждение эмпирических планов в контексте исследования композиции в целом.
Laurent, J. et al. (1992, март) Обзор исследования валидности по шкале интеллекта Стэнфорда-Бине: 4-е изд. Психологическая оценка . 102-112.
В этой статье рассматриваются результаты исследований валидности, связанных с построением и критериями, чтобы определить, является ли SB: FE достоверной мерой интеллекта.
LeCompte, M. D., Millroy, W.L., & Preissle, J. eds. (1992). Справочник качественных исследований в образовании. Сан-Диего: Academic Press.
Сборник методологических и теоретических качественных исследований в области гуманитарных наук и исследований в области образования. Многие участвующие авторы применяют свой опыт для обсуждения широкого круга вопросов, относящихся к образовательным и гуманитарным исследованиям, а также предлагают предложения о том, как решать проблемы при проведении исследований.
McDowell, I. & Newell, C. (1987). Измерение здоровья: руководство по оценочным шкалам и анкетам .Нью-Йорк: Издательство Оксфордского университета.
Здесь приводится множество примеров методов и шкал измерения здоровья и обсуждается обоснованность и надежность важных показателей здоровья.
Микс, Б. (1995, июль). Muckraker: Как Time не удалось. Доступен: http://www.hotwired.com
Пошаговое описание событий, которые произошли во время исследования, написания и обсуждения статьи Time от 3 июля 1995 года под названием: On A Screen Near You: Cyberporn .
Merriam, S. B. (1995). Что вы можете сказать из N из 1 ?: Вопросы достоверности и надежности качественных исследований. Журнал непрерывного обучения, версия 4 , 51-60.
Решает вопросы обоснованности и надежности качественных исследований в сфере образования. Обсуждает философские допущения, лежащие в основе концепций внутренней валидности, надежности и внешней валидности или обобщаемости. Представлены стратегии обеспечения строгости и надежности при проведении качественных исследований.
Моррис, Л.Л., Фитцгиббон, К.Т., и Линдхейм, Э. (1987). Как измерить производительность и использовать тесты. В J.L. Herman (ред.), Комплект для оценки программ (2-е изд.). Ньюбери-Парк, Калифорния: Сейдж.
Обсуждение надежности и обоснованности, относящихся к измерению успеваемости учащихся.
Murray, S., et al. (1979, апрель). Технические проблемы как угроза внутренней достоверности экспериментальных и квазиэкспериментальных разработок. Сан-Франциско: Калифорнийский университет.8-12.
(Из библиографии Янга и др. — недоступно на момент написания этой статьи.)
Русс-Эфт, Д. Ф. (1980). Обоснованность и достоверность опросного исследования. Американские институты исследований в области поведенческих наук август , 227 151.
Исследование валидности и надежности в опросных исследованиях и обзор концепций надежности и валидности. Предлагаются конкретные процедуры измерения источников ошибок, а также общие предложения по повышению надежности и достоверности данных обследования.Предоставляется обширная аннотированная библиография.
Райзер, Г. Р. (1994). Разработка надежных и достоверных аутентичных оценок для класса: возможно ли это? Journal of Secondary Gifted Education Fall, v6 n1 , 62-66.
Определяет значения надежности и достоверности применительно к стандартизированным показателям оценки в классе. В этой статье надежность определяется как масштабируемость, а стабильность — как достоверность, а как способность студентов достоверно использовать знания в данной области.
Schmidt, W., et al. (1982). Срок действия как переменная: может ли один и тот же сертификационный тест быть действительным для всех студентов? Институт педагогических исследований Июль, ED 227 151.
Технический отчет, в котором представлены конкретные критерии для оценки содержания, обучения и валидности учебных программ по отношению к сертификационным тестам в образовании.
Шольфилд П. (1995). Количественный язык. Пособие для исследователя и учителя по сбору языковых данных и приведению их к цифрам .Бристоль: вопросы многоязычия.
Руководство по категоризации, измерению, тестированию и оценке языковых аспектов. Источник для практиков и исследователей, связанных с языками, в сочетании с другими ресурсами по методам исследования и статистике. Также исследуются вопросы надежности и достоверности.
Скривен, М. (1993). С трудом извлеченные уроки по оценке программ . Сан-Франциско: издательство Jossey-Bass.
Подход, основанный на здравом смысле, для оценки обоснованности различных образовательных программ и способов решения конкретных проблем, с которыми сталкиваются оценщики.
Шоу П. (1993, январь). Певец loomis инвентаризация личности: обзор и критика. [Документ, представленный на Ежегодном собрании Юго-западной ассоциации исследований в области образования.]
Проверены доказательства надежности и достоверности. Итоговая оценка предполагает, что SLIP (разработанный двумя юнгианскими аналитиками, чтобы позволить исследовать личность с точки зрения типологии Юнга), по-видимому, является полезным инструментом для педагогов и консультантов.
Саттон, Л.Р. (1992). Инструмент оценки учителей местных колледжей: исследование надежности и валидности . Дисс. Государственный университет Колорадо.
Исследования надежности и валидности в профессиональных и образовательных исследованиях.
Thompson, B. & Daniel, L.G. (1996, октябрь). Основные чтения о надежности и достоверности: «хит-парад» библиография. Образовательные и психологические измерения v. 56 , 741-745.
Члены редакционной коллегии журнала Educational and Psychological Measurement составили библиографию окончательных публикаций исследований в области измерений.Многие статьи напрямую связаны с достоверностью и обоснованностью.
Thompson, E. Y., et al. (1995). Обзор качественного исследования . Дисс. Государственный университет Колорадо.
Обсуждение сильных и слабых сторон качественного исследования, его эволюции и адаптации. Приложения и аннотированная библиография.
Traver, C. et al. (1995). Пример использования . Дисс. Государственный университет Колорадо.
В данной презентации дается обзор тематического исследования, приводятся определения, краткая история и объяснения того, как проводить исследования.
Trochim, Уильям М. К. (1996) Внешняя действительность. (Доступно: http://trochim.human.cornell.edu/kb/EXTERVAL.htm
Исчерпывающая трактовка внешней достоверности, содержащаяся в онлайн-тексте Уильяма Трокима о методах и проблемах исследования.
Trochim, Уильям М. К. (1996) Введение в законность. (. Доступно: http://trochim.human.cornell.edu/kb/INTROVAL.htm
Введение в обоснованность, содержащееся в онлайн-тексте Уильяма Трохим о методах и проблемах исследования.
Трохим, Уильям М. К. (1996) Надежность. (. Доступно: http://trochim.human.cornell.edu/kb/reltypes.htm
Исчерпывающий анализ надежности, содержащийся в онлайн-тексте Уильяма Трокима о методах и проблемах исследования.
Срок действия. (1996, 12 октября). Доступно: http://vislab-www.nps.navy.mil/~haga/validity.html
Источник определений различных форм и типов надежности и достоверности.
Vinsonhaler, J. F., et al. (1983, июль). Повышение диагностической надежности чтения посредством обучения. Научно-педагогический институт ЕД 237934.
В этом техническом отчете исследуется практическое применение программы, предназначенной для улучшения диагностики учащихся с недостаточным чтением. Здесь предполагается надежность, и в результате предлагается прагматический ответ на конкретную образовательную проблему.
Wentland, E. J. & Smith, K.W. (1993). Ответы на опрос: оценка их достоверности . Сан-Диего: Academic Press.
В этой книге рассматриваются факторы, влияющие на достоверность ответов (или точность самоотчетов в опросах), и приводится несколько примеров с разным уровнем точности.
Wiget, A. (1996). Отец Цзюань Грейроб: Реконструкция историй традиций, надежность и достоверность неподтвержденных устных традиций. Этноистория 43: 3 , 459-482.
Эта статья представляет убедительный аргумент в пользу достоверности устных историй в этнографических исследованиях, где по крайней мере некоторые свидетельства могут быть подтверждены письменными записями.
Yang, G.H., et al. (1995). Экспериментальные и квазиэкспериментальные исследования в области образования . Дисс. Государственный университет Колорадо.
Это обсуждение определяет экспериментирование и рассматривает риторические вопросы, а также преимущества и недостатки экспериментального исследования. Аннотированный список литературы.
Yarroch, W. L. (1991, сентябрь). Значение содержания в сравнении с достоверностью научных тестов. Журнал исследований в области преподавания естественных наук , 619-629.
Использование валидности содержания в качестве основной гарантии точности измерений для экзаменов по естественнонаучной оценке ставится под сомнение. Для качественного сравнения различных факторов предлагается альтернативная мера точности, достоверность задания.
Инь, Р. К. (1989). Пример исследования: дизайн и методы . Лондон: Sage Publications.
В этой книге обсуждается процесс разработки тематических исследований, включая сбор доказательств, составление отчета по тематическим исследованиям и разработку отдельных и множественных тематических исследований.
Ссылки по теме
Учебное пособие по внутренней валидности.
Интерактивное руководство по внутренней валидности.
http://server.bmod.athabascau.ca/html/Validity/index.shtml
Информация о цитировании
Джонатан Хауэлл, Пол Миллер, Хён Хи Пак, Дебора Саттлер, Тодд Шак, Эрик Спери, Шелли Уидхалм и Майк Палмквист. (1994-2021). Надежность и достоверность. Информационный центр WAC. Государственный университет Колорадо. Доступно по адресу https: // wac.colostate.edu/resources/writing/guides/.
Информация об авторских правах
Авторские права © 1994-2021 Государственный университет Колорадо и / или авторы, разработчики и участники этого сайта. Некоторые материалы, представленные на этом сайте, используются с разрешения.
Надежность и действительность
Надежность и действительность
Все исследователи стремятся получить точные результаты. Точные результаты надежны и действительны. Надежность означает, что полученные результаты согласуются. Достоверность — это степень, в которой исследователь фактически измеряет то, что он или она пытается измерить.
Надежность и обоснованность часто сравнивают с целью стрелка. На рисунке ниже цель B представляет собой измерение с плохой достоверностью и низкой надежностью. Выстрелы не стабильны и не точны. Мишень A показывает измерение, которое имеет хорошую надежность, но имеет низкую достоверность, поскольку выстрелы согласованы, но они не в центре мишени. Мишень C показывает показатель с хорошей достоверностью и хорошей надежностью, потому что все выстрелы сосредоточены в центре мишени.
Случайные ошибки: Случайная ошибка — это термин, используемый для описания всех случайных или случайных факторов, которые мешают — подрывают — измерение любых явлений. Случайные ошибки в измерениях — это непоследовательные ошибки, которые случаются случайно. Они по своей природе непредсказуемы и преходящи. К случайным ошибкам относятся ошибки выборки, непредсказуемые колебания в измерительной аппаратуре или изменение настроения респондентов, из-за которых человек может предложить ответ на вопрос, который может отличаться от того, который он обычно дает.Количество случайных ошибок обратно пропорционально надежности измерительного прибора. [1] По мере уменьшения количества случайных ошибок надежность повышается и наоборот .
Систематические ошибки: Систематические или неслучайные ошибки — это постоянная или систематическая погрешность измерения. Вот два повседневных примера систематической ошибки: 1) Представьте, что ваши весы для ванной всегда регистрируют ваш вес как на пять фунтов меньше, чем он есть на самом деле, и 2) Термостат в вашем доме показывает, что температура в помещении составляет 72º, тогда как на самом деле это 75º.Величина систематической ошибки обратно пропорциональна достоверности измерительного прибора. [2] По мере увеличения систематических ошибок достоверность падает и наоборот .
Надежность:
Как указано выше, надежность связана со степенью, в которой эксперимент, испытание или процедура измерения дают согласованные результаты при повторных испытаниях. Надежность — это степень, в которой мера не содержит случайных ошибок. Но из-за большой вероятности случайных ошибок мы никогда не сможем достичь полностью безошибочного и на 100% надежного измерения.Риск ненадежности всегда присутствует в ограниченной степени.
Вот основные методы оценки надежности эмпирических измерений: 1) метод тестирования-повторного тестирования, 2) метод эквивалентной формы и 3) метод внутренней согласованности. [3]
Метод повторного тестирования: Метод повторного тестирования повторяет измерение — повторяет опрос — в аналогичных условиях. Второй тест обычно проводится среди тех же респондентов, что и первый, по прошествии короткого периода времени.Цель метода повторного тестирования — выявить случайные ошибки, которые будут показаны разными результатами в двух тестах. Если результаты двух тестов очень согласованы, мы можем сделать вывод, что измерения стабильны, а надежность считается высокой. Надежность равна соотношению результатов двух тестов, полученных одними и теми же респондентами в разное время.
Есть некоторые проблемы с методом повторного тестирования. Во-первых, может быть трудно заставить всех респондентов пройти тест — пройти опрос или эксперимент — второй раз.Во-вторых, первый и второй тесты не могут быть действительно независимыми. Тот факт, что респондент участвовал в первом измерении, может повлиять на их ответы во втором измерении. И, в-третьих, факторы окружающей среды или личные факторы могут привести к изменению второго измерения.
Метод эквивалентной формы: Метод эквивалентной формы используется, чтобы избежать проблем, упомянутых выше, с методом повторного тестирования. Метод эквивалентной формы измеряет способность аналогичных инструментов давать результаты, которые имеют сильную корреляцию.С помощью этого метода исследователь создает большой набор вопросов, касающихся одной и той же конструкции, а затем случайным образом делит вопросы на два набора. Оба инструмента выдаются одной и той же выборке людей. Если есть сильная корреляция между инструментами, у нас высокая надежность.
Метод эквивалентной формы тоже не без проблем. Во-первых, создание двух полностью эквивалентных форм может быть очень трудным — некоторые сказали бы почти невозможным. Во-вторых, даже когда эквивалентность может быть достигнута, это может не стоить затрат времени, энергии и средств.
Внутренняя согласованность и метод разделения половин: Эти методы определения надежности основаны на внутренней согласованности прибора для получения аналогичных результатов на разных образцах в течение одного и того же периода времени. Внутренняя согласованность связана с эквивалентом . В нем рассматривается вопрос: существует ли равное количество случайных ошибок, возникающих при использовании двух разных выборок для измерения явлений?
Метод разделения и половины измеряет надежность прибора путем разделения набора элементов измерения на две половины и последующего сопоставления результатов.Например, если нас интересует воспринимаемая практичность электромобилей и автомобилей с бензиновым порошком, мы могли бы использовать метод разделения пополам и задать один и тот же вопрос двумя разными способами.
Чтобы быть надежным, ответы на эти два вопроса должны быть последовательными. Проблема с этим методом заключается в том, что разные «разбиения» могут давать разные коэффициенты надежности. Чтобы решить эту проблему, исследователи используют метод Cronbach alpha (α) , названный в честь психолога-педагога Ли Кронбаха.Альфа Кронбаха (α) вычисляет среднюю надежность для всех возможных способов разделения набора вопросов пополам. Отсутствие корреляции элемента с другими элементами предполагает низкую надежность и то, что этот элемент не входит в шкалу. Альфа-техника Кронбаха требует, чтобы все элементы шкалы имели равные интервалы. Если это условие не может быть выполнено, следует рассмотреть другой статистический анализ. Альфа Хронбаха также называется коэффициентом надежности .
Срок действия:
Валидность определяется как способность инструмента измерять то, что исследователь намеревается измерить.Есть несколько различных типов валидности в исследованиях в области социальных наук. Каждый использует свой подход к оценке степени, в которой мера фактически измеряет то, что исследователь намеревается измерить. Каждый тип действительности имеет разное значение, использование и ограничения. [4]
Face Validity: Face validity — это степень, в которой субъективно рассматривается как мера того, что оно предназначено для измерения. Он основан на суждении исследователя или коллективном суждении широкой группы исследователей.Таким образом, он считается самой слабой формой обоснованности. Что касается фактической достоверности, мера «выглядит так, как будто она измеряет то, что мы надеемся измерить», но не было доказано, что это так.
Срок действия содержимого: Срок действия содержимого часто считается эквивалентным номинальной достоверности. Содержание или логическая обоснованность — это степень, в которой эксперты соглашаются с тем, что мера охватывает все аспекты конструкции. Чтобы установить достоверность содержания, должны быть включены все аспекты , или , измерения конструкции.Если мы создадим тест по арифметике и сосредоточимся только на навыках сложения, нам явно не хватит достоверности содержания, поскольку мы проигнорировали вычитание, умножение и деление. Чтобы установить достоверность содержания, мы должны изучить литературу по конструкту, чтобы убедиться, что измеряется каждое измерение конструкта.
Достоверность критерия: Достоверность критерия измеряет, насколько хорошо измерение предсказывает результат на основе информации из других переменных. Он измеряет соответствие между вопросом обследования и критерием — содержанием или предметной областью, — которые он призван измерять.Например, считается, что у теста SAT есть критерий валидности, потому что высокие баллы по этому тесту коррелируют со средними оценками учащихся-первокурсников.
Существует два типа критерия достоверности: прогнозируемая достоверность и одновременная достоверность . Предсказательная достоверность относится к полезности меры для прогнозирования будущего поведения или отношения. Сопутствующая действительность относится к степени, в которой инструмент может спрогнозировать другую переменную, измеренную одновременно с интересующей переменной.Одновременная валидность подтверждается, когда показатель сильно коррелирует с ранее подтвержденным показателем.
Срок действия конструкции: Срок действия конструкции — это степень, в которой инструмент представляет конструкцию, которую он призван представлять. Это предполагает понимание теоретических основ конструкции. Мера имеет конструктивную валидность, если соответствует теории, лежащей в основе конструкции.
Существует два типа конвергентной действительности: конвергентная достоверность и дискриминантная достоверность .Конвергентная достоверность — это корреляция между мерами, которые претендуют на измерение одной и той же конструкции. Дискриминантная валидность измеряет отсутствие корреляции между мерами, которые не измеряют одну и ту же конструкцию. Для обеспечения высокого уровня валидности конструкта необходимы высокие уровни коррекции среди мер, охватывающих один и тот же конструкт, и низкие уровни корреляции между показателями, охватывающими разные конструкции.
[1] Карминес, Эдвард Г. и Ричард А.Целлер, Оценка надежности и достоверности . Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 14-15.
[2] Карминес, Эдвард Г. и Ричард А. Зеллер, Оценка надежности и достоверности . Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 13–14.
[3] Карминес, Эдвард Г. и Ричард А. Зеллер, Ричард А., Оценка надежности и достоверности . Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 37–51.
[4] Карминес, Эдвард Г. и Ричард А. Зеллер, Оценка надежности и достоверности, . Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 17.
toc | вернуться наверх | предыдущая страница | следующая страница
Срок действия — Методология исследования
Валидность исследования в опросах относится к степени, в которой опрос определяет правильные элементы, которые необходимо измерить.Проще говоря, валидность означает, насколько хорошо инструмент измеряет то, что он предназначен для измерения.
Одной надежности недостаточно, меры должны быть надежными и действительными. Например, если весы для измерения веса неверны на 4 кг (из них вычитается 4 кг фактического веса), их можно указать как надежные, поскольку весы показывают один и тот же вес каждый раз, когда мы измеряем конкретный предмет. Однако весы недействительны, потому что они не отображают фактический вес предмета.
Исследование достоверности можно разделить на две группы: внутреннюю и внешнюю. Можно указать, что «внутренняя валидность относится к тому, насколько результаты исследования соответствуют действительности, в то время как внешняя валидность относится к степени, в которой результаты исследования могут быть воспроизведены в других средах» (Pelissier, 2008, p.12).
Причем срок действия также можно разделить на пять типов:
1. Действительность лица — это самый основной тип достоверности, связанный с высочайшим уровнем субъективности, поскольку он не основан на каком-либо научном подходе.Другими словами, в этом случае исследователь может признать тест действительным, потому что он может показаться достоверным без глубокого научного обоснования.
Пример: дизайн анкеты для исследования, в котором анализируются вопросы производительности сотрудников, может быть оценен как действительный, поскольку может показаться, что каждый отдельный вопрос касается конкретных и значимых аспектов производительности сотрудников.
2. Construct Validity относится к оценке пригодности измерительного инструмента для измерения изучаемого явления.Применение конструктной валидности может быть эффективно облегчено с привлечением группы «экспертов», хорошо знакомых с мерой и явлением.
Пример: с применением конструкта валидности уровни лидерской компетенции в любой данной организации можно эффективно оценить, разработав анкету, на которую должны отвечать сотрудники операционного уровня, и задав вопросы об уровнях их мотивации выполнять свои обязанности в повседневной жизни.
3.Критерийная валидность включает сравнение результатов тестов с исходом. Этот конкретный тип валидности коррелирует результаты оценки с другим критерием оценки.
Пример: характер восприятия клиентом имиджа бренда конкретной компании можно оценить путем организации фокус-группы. Эту же проблему можно оценить, разработав анкету, на которую будут отвечать текущие и потенциальные клиенты бренда. Чем выше уровень корреляции между результатами фокус-группы и анкетированием, тем выше уровень критериальной валидности.
4. Формирующая валидность относится к оценке эффективности меры с точки зрения предоставления информации, которая может быть использована для улучшения конкретных аспектов явления.
Пример: при разработке инициатив по повышению уровня эффективности организационной культуры, если мера способна выявить конкретные слабые стороны организационной культуры, такие как коммуникационные барьеры между сотрудником и менеджером, то уровень формирующей валидности меры можно оценить как адекватный.
5. Действительность выборки (аналогично валидности контента) гарантирует, что область охвата меры в пределах области исследования обширна. Никакая мера не может охватить все элементы и элементы явления, поэтому важные элементы и элементы выбираются с использованием определенного метода выборки в зависимости от целей и задач исследования.
Пример: при оценке стиля лидерства, применяемого в конкретной организации, недостаточно оценки стиля принятия решений и других вопросов, связанных со стилем лидерства, таких как организационная культура, личность лидеров, характер отрасли и т. Д.также необходимо учитывать.
Моя электронная книга, Полное руководство по написанию диссертации в бизнес-исследованиях: пошаговая помощь предлагает практическую помощь в завершении диссертации с минимальным стрессом или без него.