Конструктная валидность — это… Что такое Конструктная валидность?
Констру́ктная вали́дность (концептуальная, понятийная валидность) — частный случай операциональной валидности, степень адекватности метода интерпретации экспериментальных данных теории, которая определяется правильностью употребления терминов той или иной теории.
Конструктная валидность, обоснованная Л.Кронбахом в 1955г., характеризуется способностью теста к измерению такой черты, которая была обоснована теоретически (как теоретический конструкт). Когда сложно найти адекватный прагматический критерий, может быть выбрана ориентация на гипотезы, сформулированные на основе теоретических предположений об измеряемом свойстве. Подтверждение этих гипотез свидетельствует о теоретической обоснованности методики. Сначала необходимо, насколько возможно полно, содержательно описать конструкт, для измерения которого предназначен тест. Это достигается за счет формулирования гипотез о нем, предписывающих, с чем данный конструкт должен коррелировать, а с чем не должен.
Конструктная валидность является наиболее комплексным и сложным видом валидности. Вместо одного результата (прежде всего прагматического) необходимо учитывать множество (чаще всего собственно психологических). Конструктная валидность имеет отношение к попыткам обозначения любых аспектов эксперимента. Опасности нарушения конструктной валидности заключаются в неправильном обозначении причины и эффекта с помощью абстрактных терминов, терминов, взятых из обыденного языка или формальной теории.
Источник
- Зароченцев К. Д., Худяков А. И. Экспериментальная психология: учеб. — М.: Проспект, 2005. C. 69.
- Клайн П. Справочное руководство по конструированию тестов. М.,1993.
- Купер К. Индивидуальные различия / Пер. с англ. Т.М. Марютиной; Под. ред. И.В. Равич-Щербо. М.: Аспект Пресс, 2000.
См. также
Что нужно знать о валидности заказчику оценки — FORMATTA
На осенней конференции «Оценка персонала» журнала «Штат» генеральный директор Formatta Евгений Куприянов выступал с докладом о валидности оценки. Мы публикуем текст его выступления. Это не научный доклад, а статья-обзор для заказчиков оценки: на простых и понятных примерах вы узнаете, что такое валидность и при каком показателе валидности оценка экономически оправдана.
Тема валидности становится всё популярнее в HR-сообществе. В 90-е, когда российские компании только начинали привлекать оценку персонала для решения бизнес-задач, акцент делали на разработке инструментов и методов, а их валидность интересовала далеко не всех заказчиков. Затем стало модно говорить о валидности, и многие провайдеры, пользуясь тем, что заказчики недостаточно разбирались в теме, предъявляли мифические 0,95 как показатель валидности своих инструментов.
Сегодня мы наблюдаем другую тенденцию: академический подход к измерению валидности проник в бизнес. Всё меньше компаний доверяют мифическим показателям и всё чаще требуют от провайдера результатов исследования валидности оценочного инструмента.
Какие значения может принимать валидность
Валидность — это коэффициент корреляции между результатами оценки и независимым критерием: мы выбираем внешний критерий и смотрим,
насколько результаты оценки ему соответствуют и насколько мы можем доверять прогнозу, который делаем по итогам оценки.
Этот коэффициент принимает значения от минус единицы до единицы. Чем выше валидность, тем выше точность прогноза. Если валидность равна нулю, значит, взаимосвязи между результатами оценки и выбранным критерием нет: количество ошибок и точных прогнозов примерно одинаково. Бывает отрицательная валидность: в этом случае прогноз по итогам оценки будет оправдываться «наоборот».
Валидность бывает нескольких видов — это зависит от внешнего критерия,
с которым сравнивают результаты проведённой оценки. Остановимся подробнее на каждом виде валидности и критериях её измерения.
Виды валидности и критерии
для её измерения
Конструктная валидность — внешним критерием становятся результаты другого инструмента оценки, который измеряет те же характеристики. К примеру, мы хотим измерить конструктную валидность мотивационного опросника: находим инструмент, которые оценивает те же факторы мотивации, и сравниваем результаты двух инструментов. Конструктная валидность показывает, насколько они соотносятся между собой.
Конкурентная валидность — сравниваем результаты оценки выбранного инструмента с показателями текущей или прошлой эффективности. Это может быть балл в системе performance management, результаты обучения, показатели продаж, коэффициент удовлетворённости клиента сервисом.
Прогностическая валидность показывает, насколько соотносятся результаты оценки и показатели будущей эффективности сотрудника. Это самые интересные для компании данные: они говорят, насколько себя оправдает прогноз по результатам оценки. Но прогностическую валидность труднее всего измерить
из-за ограничения выборки. К примеру, мы оценили 100 продавцов, у 15 из них показатели продаж оказались низкие, скорее всего, мы не сможем оценить их в следующем цикле: их уволят.
Инкрементная валидность — сравниваем, насколько повысилась корреляция
при добавлении нового инструмента в уже существующую оценочную процедуру.
Провайдеры, как правило, считают валидность так, как им удобно и выгодно.
Если из всех видов валидности инструмента самые высокие показатели у конструктной, в маркетинговых материалах укажут именно эту цифру.
Поэтому всегда уточняйте, о каком виде валидности говорит провайдер,
когда приводит показатель валидности.
Что означают показатели валидности на практике
На практике почти не встречается валидность выше 0,7. Если провайдер заявляет
эту цифру, уточните, о каком виде валидности идёт речь и как она рассчитывалась. Показатель 0,7 может быть только в том случае, если провайдер измерял валидность комбинацией разных оценочных инструментов.
Валидность | Если выбрать 20% лучших сотрудников по итогам оценки | |
---|---|---|
Нет валидности | 0 | 4 из 20 будут в числе лучших |
Средняя валидность | 0,3 | 7 из 20 будут в числе лучших |
Высокая валидность | 0,6 | 10 из 20 будут в числе лучших |
Валидность | Если выбрать 20% лучших сотрудников по итогам оценки | |
---|---|---|
Нет валидности | 0 | 1 из 5 будет в числе худших |
Средняя валидность | 0,3 | 1 из 10 будет в числе худших |
Высокая валидность | 0,6 | 1 из 50 будет в числе худших |
Посмотрим, что означают эти цифры на практике: к примеру, вы оценили 100 сотрудников и выбрали 20 лучших по итогам оценки. Если вы использовали инструмент со средней валидностью, то из выбранных 20 участников только семеро будут в числе лучших 20%.
Если же вы оценивали 100 сотрудников инструментом с высокой валидностью, то в числе 20% лучших окажутся десять из выбранных двадцати по итогам оценки. При этом результаты выше среднего покажут 17 из этих 20 сотрудников.
Если вы знаете валидность инструмента, вы можете посчитать точность прогноза, который сделаете по результатам оценки. К примеру, вы используете инструмент с валидностью 0,3. Разделите этот показатель на 2 и прибавьте 50% — получится 65%. С такой вероятностью прогноз по итогам оценки окажется достоверным,
если за 50% принять случайное угадывание.
3 уровня проверки валидности
Если вы используете инструмент оценки, у вас есть три уровня проверки
его валидности:
Во-первых, вы можете посмотреть, насколько велика валидность метода оценки. К примеру, вы покупаете у провайдера тесты способностей. Чтобы оценить их валидность, используйте мета-анализы — эта процедура объединяет показатели валидности, полученные на разных инструментах и выборках от нескольких исследователей. С их помощью вы определите среднюю валидность тестов
как метода оценки. Классическим считается мета-анализ Шмидта и Хантера 1998 года.
Во-вторых, вы можете узнать валидность инструмента — тех конкретных тестов способностей, которые вы покупаете. Эти данные вам должен предоставить провайдер.
Наконец, вы можете посмотреть, насколько конкретный инструмент валиден
для ваших задач. Чтобы посчитать валидность инструмента на ваших данных:
1. Оцените при помощи инструмента не менее 200 сотрудников одной группы должностей — это минимальная выборка. Чем больше человек вы оцените,
тем более надёжные цифры получите.
2. Выберите критерий, относительно которого будете проверять валидность. Например, оценка результативности руководителем.
3. Оцените надёжность этого критерия. Критерием могут быть объективные данные — например, показатели производительности. В этом случае его можно считать надёжным. Оценка эффективности руководителем — субъективные данные, надёжность этого критерия будет низкой.
4. Посмотрите, нет ли у вас ограничения выборки. Например, если вы используете тесты при подборе, кандидаты с низкими результатами обычно просто не попадают на работу.
5. Проверьте свои данные: насколько они полные, корректные и однородные. Если в качестве внешнего критерия вы выбрали показатели продаж, проверьте, что все данные по продажам соответствуют тому менеджеру, который продавал. Это поможет избавиться от некорректных данных: к примеру, сотрудник в отпуске, а на него записаны продажи другого.
6. Посчитайте сам показатель валидности: обычно это коэффициент корреляции или регрессии, с учётом тех поправок, которые мы упомянули выше. Для начала можно воспользоваться самыми простыми показателями. Например, коэффициентом корреляции Спирмена — его можно посчитать даже в MS Excel.
У вас получился показатель валидности конкретного инструмента на ваших данных. Он показывает, насколько достоверным будет прогноз, который вы сделаете по результатам оценки при помощи этого инструмента.
23. Конструктная валидность. Конвергентная и дискриминантная валидности
Читайте также
21. Определения валидности. Важнейшие составляющие валидности
21. Определения валидности. Важнейшие составляющие валидности Валидность (англ. valid – «действительный, пригодный, имеющий силу») – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической
22. Основные типы валидности. Понятие «комплекса валидности». Обоснование необходимости периодической валидизации психодиагностических методик
22. Основные типы валидности. Понятие «комплекса валидности». Обоснование необходимости периодической валидизации психодиагностических методик Классификация типов валидности в достаточной мере условна, так как нередко для различных критериев валидности применяются
24. Факторная валидность
24. Факторная валидность Факторная валидность. Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными
25. Дифференциальная валидность. Валидность по возрастной дифференциации
25. Дифференциальная валидность. Валидность по возрастной дифференциации Дифференциальная валидность – вид конструктной валидности, рассматривающей внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической
26.
Критериальная валидность26. Критериальная валидность Критериальная валидность – комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве критерия
27. Синтетическая и инкрементная валидности
27. Синтетическая и инкрементная валидности Синтетическая валидность. Более эффективным с точки зрения практической направленности теста (его адекватности как средства диагноза и прогноза реальной деятельности) является соотнесение результатов с критериальными
28. Текущая и эмпирическая валидности
28. Текущая и эмпирическая валидности Текущая валидность (диагностическая, конкурентная) – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В более узком
29. Прогностическая валидность
32. Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности
32. Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности Соответствие теста измеряемому психическому свойству называется валидностью теста. На валидность теста негативно влияют случайные факторы, поэтому в психометрике принято
Глава 5.
Оценка валидности утвержденийГлава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представленных в устной форме. Эта методика была
Валидность
Валидность В каждом исследовании есть переменные и отношения между ними. Поэтому, когда мы хотим описать исследование, центральным является конструкт переменных: какого вида различия изучаются и какими способами? Если мы хотим выйти за рамки описания и перейти к оценке
Причины искажения валидности
Причины искажения валидности Как мы увидели, конечной целью планирования исследования всегда является достижение валидных выводов об изучаемом феномене. Неудачный исследовательский план ставит валидность под сомнение, не устраняя спорных моментов и ограничивая
Валидность
Глава 5. Оценка валидности утверждений
Глава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представ-, ленных в устной форме. Эта методика была
Валидность
Валидность Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим
Для примера конструктной валидности рассмотрим серию исследований,
Для примера конструктной валидности рассмотрим серию исследований, проведенных Уолтером Мишелем — ученым, занимающимся психологией личности, — и его коллегами. Мишель интересовался вопросом, почему дети бывают нетерпеливы, почему они иногда хотят чего-то «прямо сейчас» и почему им трудно ждать. Мишель придумал конструкт, который назвал «задержка удовольствия» и попытался разработать для него подходящий способ измерения. Его исследовательская программа показала, что задержка удовольствия валидна как конструкт и соответствует общей когнитивно-социальной теории личности, а также валидность разработанных им измерений.
Одно простое измерение, придуманное Мишелем, состояло в том, чтобы попросить детей выбрать между маленькой наградой, доступной в этот же момент, и большей, но при условии, что ее выдадут спустя некоторое время.
Я бы хотел раздать каждому из вас по конфете, но сегодня я взял с собой очень мало вот таких (показывая большую конфету). Поэтому вы можете либо взять такую (показывая маленькую конфету) прямо сейчас, или, если хотите, можете подождать такую (показывая), которую я принесу в следующий четверг (неделей позже).
Mischel, 1981, р. 164-Результаты подтвердили предположение Мишеля: немедленное (но маленькое) вознаграждение было выбрано 81% 7-летних, 48% 8-летних и 20% 9-летних детей.
Естественно, одного этого эксперимента недостаточно для того, чтобы установить валидность задержки удовольствия как конструкта или процедуры измерений, предложенной Мишелем, поэтому он продолжил разработку серии экспериментов, исследуя возможные взаимосвязи между изучаемым конструктом и другими признанными конструктами. Например, он обнаружил, что дети, решившие отложить удовольствие, были также эмоционально более зрелыми, сильнее нацелены на успех, вероятность делинквентности для них была ниже, а вероятность стать социально ответственными — выше (Mischel, 1981). Таким образом, на основании ряда исследований, результаты которых подтвердили сделанные предположения, задержка удовольствия была признана валидным конструктом.
Валидность конструктная | Psylist.net
Валидность конструктная — один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т. д. Иначе говоря, В. к. определяет область теоретической структуры психологических явлений, измеряемых тестом.
Поскольку проявления таких конструктов, как, напр., интеллект в деятельности человека многообразны и неоднозначны с т. з. их выделения, процедура установления В. к. по сравнению с валидностью критериальной или валидностью содержательной сложна.
При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное накопление разнообразной информации о динамике развития измеряемого свойства, а также о его взаимодействии с другими психическими явлениями.
Среди конкретных методов характеристики В. к. в первую очередь необходимо назвать сопоставление исследуемого на предмет В. к. теста с другими методиками, конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом указывает на то, что разрабатываемый тест «измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика. Такая процедура валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве независимого критерия.
Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе В. к. не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с т. з. создания параллельной формы теста. Смысл процедуры В. к. состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.
При анализе В. к. методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом В. к. характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно. Эти подходы определяются как конвергентная (проверка степени близости прямой или обратной связи) и дискриминантная (установление отсутствия связи) валидизации. Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений В. к. В англоязычной психодиагностике такое операциональное определение В. к. обозначается как «предполагаемая валидность» (assumed validity).
Прямое отношение к характеристике В. к. имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленное™ в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важность такой процедуры является основанием для выделения ее в особый вид В. к. — факторную валидность.
Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. Следует отметить, что критерий внутренней согласованности указывает лишь на меру связи всего содержания теста с измеряемым конструктом, давая лишь косвенную информацию о природе измеряемого свойства.
При определении В. к. важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из таких подходов является применение критерия возрастной дифференциации (см. Валидность по возрастной дифференциации), что предусматривает согласование результатов теста с ожидаемыми изменениями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап развития. Этот метод В. к. особенно важен для валидизации тестов интеллекта, достижений в обучении.
В комплекс сведений о В. к. методики входят также данные, относящиеся к сфере критериальной и содержательной валидности. Так, критерии, используемые при валидизации, несут информацию, позволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики В. к. необходимы связь с практическими формами деятельности, достоверность прогноза реального поведения. Однако В. к. является качественно более высоким и комплексным уровнем описания теста, характеризуя область измеряемого поведения в широких психологических понятиях. Благодаря данным В. к. мы можем с психологических позиций закономерно объяснить результаты теста и их дисперсию, обосновать диагноз, введя измеряемое свойство в систему психологических категорий, прогнозировать поведение в более широких пределах, чем это задается областью деятельности, для которой определялась содержательная валидность.
В качестве примера, иллюстрирующего необходимость глубокого анализа теоретического конструкта, лежащего в основе конкретной методики, для правильного применения теста и интерпретации его результатов, можно привести сопоставление двух популярных опросников личностных «Проявления тревожности» шкалы (MAS) и варианта Айзенка личностных опросников EPI. Корреляционные исследования показывают, что шкала «тревожности» MAS положительно коррелирует со шкалой «нейротизма» и отрицательно — со шкалой «экстраверсии» EPI. С т. з. концепции Айзенка, эти данные можно рассматривать как свидетельство низкой валидности шкалы MAS: «тревожность» коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой т. з. MAS оказывается просто нечувствительным к особой разновидности «нейротизма» — нейротизму (тревожности) экстравертов: из перечня пунктов MAS исключены высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с теоретических позиций К. Спенса и Дж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом — следствием дефекта данного диагностического средства. Согласно К. Спенсу, пытавшемуся переносить на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйва — неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация, по Айзенку) и интроверсии (неспецифическая активация) (Практикум по психодиагностике, 1984). Таким образом, названия тестов не всегда однозначно выражают понятия об измеряемом свойстве. В данном примере особенно подчеркивается роль психологической теории, лежащей в основе методики для раскрытия содержания показателей, получаемых с ее помощью.
Вконтакте
Одноклассники
Похожие материалы в разделе Словари:
Пример 3. Конструктная валидность
Для примера конструктной валидности рассмотрим серию исследований, проведенных Уолтером Мишелем — ученым, занимающимся психологией личности, — и его коллегами. Мишель интересовался вопросом, почему дети бывают нетерпеливы, почему они иногда хотят чего-то «прямо сейчас» и почему им трудно ждать. Мишель придумал конструкт, который назвал «задержка удовольствия» и попытался разработать для него подходящий способ измерения. Его исследовательская программа показала, что задержка удовольствия валидна как конструкт и соответствует общей когнитивно-социальной теории личности, а также валидность разработанных им измерений.
Одно простое измерение, придуманное Мишелем, состояло в том, чтобы попросить детей выбрать между маленькой наградой, доступной в этот же момент, и большей, но при условии, что ее выдадут спустя некоторое время. Мишель предположил, что если неспособность к задержке удовольствия является неотъемлемой особенностью маленьких детей, то старшие дети должны охотнее ждать большую награду. Эти рассуждения привели к очевидному эксперименту (процитировано в Mischel, 1981), в ходе которого дети выполнили небольшое задание, а затем им сказали:
Я бы хотел раздать каждому из вас по конфете, но сегодня я взял с собой очень мало вот таких (показывая большую конфету). Поэтому вы можете либо взять такую (показывая маленькую конфету) прямо сейчас, или, если хотите, можете подождать такую (показывая), которую я принесу в следующий четверг (неделей позже).
Mischel, 1981, р. 164-165
Результаты подтвердили предположение Мишеля: немедленное (но маленькое) вознаграждение было выбрано 81% 7-летних, 48% 8-летних и 20% 9-летних детей.
Естественно, одного этого эксперимента недостаточно для того, чтобы установить валидность задержки удовольствия как конструкта или процедуры измерений, предложенной Мишелем, поэтому он продолжил разработку серии экспериментов, исследуя возможные взаимосвязи между изучаемым конструктом и другими признанными конструктами. Например, он обнаружил, что дети, решившие
отложить удовольствие, были также эмоционально более зрелыми, сильнее нацелены на успех, вероятность делинквентности для них была ниже, а вероятность стать социально ответственными — выше (Mischel, 1981). Таким образом, на основании ряда исследований, результаты которых подтвердили сделанные предположения, задержка удовольствия была признана валидным конструктом.
Надежность и валидность
Чтобы измерение имело ценность для психологического исследования, оно должно обладать одновременно и надежностью, и валидностью. Надежность важна для формирования уверенности в том, что проводимое измерение приближает к истинному значению, а валидность важна, так как она указывает, что измеряется именно то, что вы предполагаете. Обратите внимание, что валидность предполагает надежность, а обратное не верно. Надежные измерения могут не быть валидными, но валидные должны быть надежными.
Проиллюстрировать это можно на простом примере. Из главы 1 вы получили некоторые сведения о френологии — популярной в XIX в. теории, утверждающей, что можно определить «способности» человека по форме его черепа. После обсуждения проблемы надежности вы можете сделать вывод, что френологические измерения черепа действительно обладали высокой надежностью — расстояние между точкой, расположенной пятью сантиметрами выше вашего левого уха, и другой, находящейся пятью сантиметрами выше вашего правого уха, не сильно изменится от измерения к измерению. Однако утверждение, что при измерении определяется «деструктивная» способность человека, — это совсем другое дело. Мы уверены, что измерение черепа не является валидным измерением деструктивно-сти, поскольку оно не кажется нам разумным (очевидная валидность), на основании его невозможно предсказать проявление агрессивности (критериальная валидность), а также потому, что оно не согласуется с другими исследованиями конструктов, связанных с деструктивностью, таких как импульсивность, или исследованиями функций мозга (конструктная валидность).
Вопрос надежности и валидности имеет также этическую сторону, особенно если результаты измерений используются для принятия решений, касающихся жизни людей. Студентов принимают или нет в учебные заведения, людей берут или нет на работу, кому-то ставят психиатрический диагноз и предоставляют лечение — и все это на основании измерений способностей или оценки особенностей поведения. Если вы ищете работу и ваши оценки по некоторому тесту являются решающим показателем, то вы испытаете законное разочарование, узнав, что тест не был достаточно надежным и валидным.
И последнее замечание. В этой главе понятие валидности обсуждалось в контексте темы измерений. Как вы узнаете из следующей главы, валидными могут быть не только измерения психологических конструктов. Валидность также в более общем смысле характеризует весь исследовательский проект. По отношению к измерениям валидность означает, что используемый инструмент измеряет именно то, что должен. В более широком смысле валидность характеризует правильность проведения экспериментов и проверки гипотезы.
Конструктная валидность. Учет в кросс-культурных исследованиях конструктной валидности
Выше приведенная дискуссия не означает, что в кросс-культурном исследовании не следует использовать те или иные формы тестирования. Существуют ситуации, в которых проведение тестирования полезно. Повторим мнение, высказанное ранее: если психолог пытается предсказать показатели успеваемости для учеников школы, состоящих из представителей среднего класса, то тесты для этой категории могут оказаться вполне хорошими. Однако отметим разницу между утверждением «Этот ребенок вряд ли будет хорошо учиться в этой школе» и «ребенок глуп».
Мы можем статистически контролировать те переменные, которые коррелируют с изучаемой зависимой переменной. Например, если существует фактор социально одобряемого реагирования, то можно его контролировать путем статистической «стандартизации» данных.
Общие комментарии
Ясно, что при тестировании возникает много ошибок, и нужно быть очень внимательными. Один из лучших способов проведения исследования конкретного явления – привлекать к нему местных ученных, которые хорошо знают свою культуру. Кроме этого, необходимо использовать несколько методов получения данных, поскольку в каждой культуре каждый метод имеет различное значение. Если результаты, полученные разными методами, совпадают, то маловероятно, чтобы какое-то конкретное пристрастное отношение испытуемых к методу измерения, проявится во всех результатах.
Исследователь также должен различать конструктную валидность в рамках каждой культуры. Для проверки конструкной валидности он имеет теорию и проверяет ее. Если получаемые данные в совокупности соответствуют теоретическим предсказаниям, то и теория, и инструментарий измерения изучаемого конструкта, скорее всего, окажутся валидными.
Предположим, у нас есть теория, предсказывающая связь «предпосылок» в отношении интеллекта (например, возраста, стимулирующего социального окружения) с конкретными «последствиями» для интеллектуального развития (например, хорошей успеваемостью, успешным решением проблем). Если в каждой культуре мы будем измерять IQ разными методами и обнаружим, что корреляция между измерениями IQ и рядом «предпосылок» и «следствий», соответствующих теории, приблизительно одинаковы для обеих культур, то мы валидизировали наш методический инструментарий для использования в этих культурах. Если модели корреляций одинаковы, а статистические тесты (обсуждены Irvine,Carroll, 1980) показывают, что эти два измерения эквивалентны, то результаты можем сравнивать.
Хорошая теория может исключать конкурирующие гипотезы
Если у нас есть хорошая теория, позволяющая делать предсказания, и она подтверждается конкретными эмпирическими данными, то влияние некоторых конкурирующих на исследование гипотез становится менее вероятным (Malplass, 1977). Предположим, что теория предсказывает, что в культуре коллективистического типа люди будут больше отдавать предпочтение достижению семейных целей, чем своих личных, а в индивидуалистической культуре люди больше будут отдавать предпочтение достижению личных целей, чем семейных. И предположим далее, что мы собрали данные в сельских регионах Китая и Америки и получили результаты, которые предсказывала теория. В этом случае влияние многих конкурирующих гипотез на результаты – различное определение изучаемых конструктов, разные уровни мотивации, различные конфигурации возможных реакций – становятся менее вероятными.
Это не означает, что не следует беспокоиться о возможном влиянии конкурирующих гипотез на результаты исследований, если есть хорошая теория. Если теория и конкурирующая гипотеза дают одинаковые предсказания, использовать эту теорию для исключения влияния конкурирующей гипотезы невозможно. Однако в некоторых случаях теория и конкурирующие гипотезы будут давать различные предсказания. И если данные соответствуют теоретическим предположениям, то это служит подтверждением ее правильности.
Исходя из этой дискуссии, главное, о чем необходимо помнить при проведении кросс-культурных сравнений – делать выводы о культурных различиях не так легко. Это требует больших усилий, проверки, исключения конкурирующих гипотез и т.п., прежде чем выявленное культурное различие становится более вероятным и объяснимым. Поэтому при чтении литературы по кросс-культурной проблематике необходимо выяснять, что дополнительная работа по проверке и исключению конкурирующих гипотез действительно проведена исследователем.
тестовая ситуация – предыдущая | следующая – аккультурация
Триандис. Культура и социальное поведение. Оглавление
Construct Validity — обзор
Животные модели: Construct Validity
Чтобы иметь конструктивную валидность, животная модель злоупотребления кокаином должна опираться на аналогичные нейрохимические, нейробиологические и физиопатологические механизмы и должна быть чувствительной к тем же событиям, которые считаются важными в вызывая человеческое расстройство. Годы клинических и экспериментальных исследований показали, что кокаиновая зависимость — это многофакторное заболевание, в котором важную роль играет генетическая предрасположенность.Например, исследования близнецов показали, что на злоупотребление кокаином и зависимость от него в течение всей жизни в значительной степени влияют генетические факторы риска. В соответствии с ролью генетических механизмов в кокаиновой зависимости, несколько исследований анализа сцепления показали корреляцию между склонностью к злоупотреблению кокаином и конкретным полиморфизмом генов на уровне различных систем нейротрансмиттеров. Эта точка зрения была подтверждена на лабораторных животных, на которых было показано, что делеция одного конкретного гена приводит к увеличению или уменьшению поведения, связанного с употреблением кокаина, и / или уязвимости к поиску кокаина.Например, было показано, что отключение генов, регулирующих функции рецепторов или нейротрансмиттеров, связанных с DA, глутаматом, серотонином и эндоканнабиноидергическим действием, резко меняет чувствительность к кокаину и / или мотивацию к его потреблению. Клинические исследования также продемонстрировали, что черты генетической уязвимости могут быть общими для некоторых наркотиков, которыми злоупотребляют. В соответствии с этим клиническим наблюдением было продемонстрировано, что крысы, генетически отобранные для чрезмерного употребления алкоголя, показали повышенную мотивацию к самостоятельному введению кокаина.Фактически, по крайней мере, две линии крыс, генетически отобранные для чрезмерного употребления алкоголя, а именно крысы P и AA, оказались более чувствительными к психотропным эффектам кокаина и имеют врожденную более высокую предрасположенность к его потреблению.
Одна из текущих лабораторных экспериментальных парадигм, которая может играть ключевую роль в поведении, сходном с зависимостью, включает использование векторных систем доставки для изменения экспрессии генов в мозгу грызунов с целью выявления новых сигнальных каскадов.Эта недавно разработанная технология оптической нейроинженерии включает фундаментальную концептуальную концепцию модуляции конкретных мозговых цепей и вмешательств, направленных на раскрытие методов лечения наркомании и сложной сети нейротрансмиттеров.
Дополнительные доказательства, подтверждающие конструктивную валидность моделей на животных, получены из исследований двух инбредных линий крыс, линии Льюиса (LEW) и ее гистосовместимого контроля, штамма Fischer 344 (F344). При обучении расширенному графику самостоятельного введения кокаина крысы LEW склонны увеличивать потребление наркотиков, в то время как крысы F344 — нет.Более того, крысы LEW, как и люди-наркоманы, имеют более низкую плотность рецепторов D 2 в полосатом теле, более высокое увеличение DA в прилежащем ядре (NAc) в ответ на лекарственную стимуляцию и более высокую тенденцию к нарушению регуляции. оси HPA. Исходя из этого, крыс LEW можно считать генотипом, предрасположенным к зависимости, а крыс F344 — устойчивым к зависимости.
Еще одним важным аспектом зависимости является индивидуальная уязвимость. Фактически, хорошо известно, что относительно небольшой процент людей, которые имеют врожденную предрасположенность к злоупотреблению кокаином, в конечном итоге становятся зависимыми от него.Эти индивидуальные различия в вероятности развития кокаиновой зависимости могут отражать тот факт, что кокаиновая зависимость является многофакторным расстройством, при котором генетическая предрасположенность является важным детерминантом, но воздействие наркотиков и факторы окружающей среды могут в этом случае играть решающую роль в формировании индивидуальной уязвимости к прогрессированию заболевания. . В этом отношении важно, что индивидуальные различия в развитии злоупотребления кокаином и зависимости также были описаны у лабораторных животных. Например, было продемонстрировано, что гетерогенные крысы, отобранные по низкой и высокой импульсивности, также различаются по уязвимости к развитию злоупотребления кокаином, и только последние демонстрируют компульсивное употребление наркотиков, несмотря на негативные последствия.Эпидемиологические исследования также выявили четкую связь между чертой стремления к новым ощущениям и злоупотреблением кокаином. Параллельно с состоянием человека крысы, характеризующиеся более высоким уровнем двигательной активности и исследовательского поведения в новой среде (считающейся мерой поиска ощущений / новизны), демонстрируют повышенное самовведение кокаина и компульсивные черты, связанные с наркотиками, соответственно. Наконец, было продемонстрировано, что если крыс обучить самостоятельно вводить кокаин в течение очень длительного периода времени, у относительно небольшой части разовьется типичное поведение, связанное с кокаиновой зависимостью, имитирующее основные клинические симптомы кокаиновой зависимости, описанные в DSM- IV.
В кокаиновой зависимости также существует сложная взаимосвязь между употреблением наркотиков, активацией оси HPA и эндокринными эффектами, что также было задокументировано. Например, острое введение кокаина увеличивает плазменные уровни адренокортикотропного гормона (АКТГ) и глюкокортикоидов у людей. Введение кокаина хроническим потребителям кокаина также может стимулировать реакцию оси HPA, но этот эффект менее выражен по сравнению с тем, что наблюдается у лиц, не употребляющих кокаин. Это открытие указывает на то, что хроническое употребление кокаина в анамнезе приводит к гипофункции активности HPA и изменению реактивности на стресс.В соответствии с этими клиническими данными исследования на грызунах и нечеловеческих приматах продемонстрировали, что инъекция кокаина животным, не получавшим наркотики, приводит к выраженной активации оси HPA. Подобный эффект также наблюдается у крыс, у которых увеличилось потребление кокаина после длительной тренировки по самостоятельному введению кокаина внутривенно. Однако эффект значительно менее выражен по сравнению с наивными животными. Эти результаты показывают, что хроническое воздействие кокаина приводит к аналогичным адаптивным изменениям в системе гормонального стресса у людей и лабораторных животных.В настоящее время неясно, играет ли гипоактивность оси HPA причинную роль в прогрессировании траектории злоупотребления кокаином или это просто следствие хронического воздействия наркотиков. С другой стороны, эти результаты подтверждают мнение о том, что адаптивные механизмы, возникающие после длительного употребления кокаина, ведущие к гипофункции активности оси HPA, связаны с прогрессированием кокаиновой зависимости не только у людей, но и у лабораторных животных. Ясно, что это поразительное свидетельство, подтверждающее конструктивную ценность животных моделей кокаиновой зависимости.
Действительность конструкции — соответствует ли концепция конкретным измерениям?
Проще всего думать об этом как о тесте на обобщение, как о внешней валидности, но он оценивает, учитывается ли в эксперименте переменная, которую вы проверяете.
Конструктивная валидность — это прием, который используется почти исключительно в социальных науках, психологии и образовании.
Например, вы можете спланировать, увеличивает ли образовательная программа художественные способности дошкольников.Конструктивная валидность — это мера того, действительно ли ваше исследование измеряет художественные способности, слегка абстрактная метка.
Что такое срок действия конструкции?
Термин «построение достоверности» может немного вводить в заблуждение, потому что он часто заставляет людей задуматься о том, как физически построен или разработан эксперимент.
Конструкция относится к «теоретически обоснованной психологической конструкции».
Соответствует ли теоретическая концепция конкретному измерению / шкале, используемым в исследованиях?
Достоверность конструкции относится к тому, адекватно ли измеряется конструкция с помощью шкалы или теста.
Примером может служить измерение человеческого мозга, например интеллекта, уровня эмоций, навыков или способностей.
Некоторыми конкретными примерами могут быть знание языка, артистические способности или уровень проявленной агрессии, как в эксперименте с куклой Бобо. Эти концепции абстрактны и теоретичны, но соблюдаются на практике.
Примером может служить врач, проверяющий эффективность обезболивающих у хронических больных спиной.
Каждый день он просит испытуемых оценить уровень своей боли по шкале от одного до десяти — боль существует, мы все это знаем, но ее нужно измерять субъективно.
В этом случае валидность конструкции будет проверять, действительно ли врач измерял боль, а не онемение, дискомфорт, беспокойство или какой-либо другой фактор.
Следовательно, правильно определив определение конструкции, мы можем посмотреть на способность построения конструкции, меру того, насколько хорошо тест измеряет конструкцию. Это инструмент, который позволяет исследователям проводить систематический анализ того, насколько хорошо спланировано их исследование.
Конструктивная валидность ценна в социальных науках, где концепции очень субъективны.Часто не существует общепринятой единицы измерения для конструктов, и даже относительно хорошо известные, такие как IQ, открыты для обсуждения.
Как измерить изменчивость конструкции?
Для крупных и обширных исследований, особенно в сфере образования и изучения языков, большинство исследователей проверяют валидность конструкта перед основным исследованием.
Эти пилотные исследования подтверждают эффективность их исследований и позволяют им вносить любые коррективы.
Используя учебный пример, такой предварительный тест может включать исследование дифференциальных групп, в котором исследователи получают результаты тестирования для двух разных групп, одна с конструктом, а другая без.
Другой вариант — интервенционное исследование, в котором группа с низкими баллами в конструкте тестируется, обучается конструкции и затем повторно измеряется. Если есть существенная разница до и после теста, обычно анализируемая с помощью простых статистических тестов, то это доказывает хорошую валидность конструкции.
После войны были попытки разработать статистические методы для проверки валидности конструкта, но они были настолько длинными и сложными, что оказались неприменимыми. Установление правильности построения — вопрос опыта и суждений, позволяющих собрать как можно больше подтверждающих доказательств.
Целая батарея статистических инструментов и коэффициентов используется для доказательства строгой валидности конструкции, и исследователи продолжают, пока не почувствуют, что нашли баланс между доказательством валидности и практичности.
Угрозы для конструирования валидности
Существует большое количество способов поставить под угрозу валидность конструкта, поэтому вот несколько основных кандидатов:
Угроза гипотезы
Эта угроза возникает, когда субъект угадывает цель теста и сознательно или подсознательно изменяет свое поведение.
Например, многие факультеты психологии ожидают, что студенты будут добровольно участвовать в исследованиях для получения кредитов по курсу. Опасность состоит в том, что студенты могут понять, каковы цели исследования, потенциально оценивая результат.
Не имеет значения, правильно ли они угадывают гипотезу, меняется только их поведение.
Опасение оценки
Эта конкретная угроза основана на склонности людей действовать иначе, когда они находятся под давлением.Как известно, индивидуальное тестирование вызывает выброс адреналина, который может улучшить или снизить производительность.
В этом отношении опасения по поводу оценки связаны с экологической внешней достоверностью, где они влияют на процесс обобщения.
Ожидания и предвзятость исследователя
Исследователи — всего лишь люди и могут давать подсказки, влияющие на поведение подопытного. Люди подают сигналы через язык тела и подсознательно улыбаются, когда субъект дает правильный ответ, или хмурится при нежелательной реакции — все это имеет эффект.
Этот эффект может снизить валидность построения, затуманивая эффект фактической исследовательской переменной.
Чтобы уменьшить этот эффект, взаимодействие должно быть сведено к минимуму, а помощники не должны знать общих целей проекта.
См. Также:
Двойной слепой эксперимент
Смещение исследования
Плохое определение конструкции
Достоверность конструкции — это все о семантике и маркировке. Слишком широкое или слишком узкое определение конструкции может свести на нет весь эксперимент.
Например, исследователь может попытаться использовать удовлетворенность работой для определения общего счастья. Это слишком узко, так как кто-то может любить свою работу, но жить несчастливой жизнью вне рабочего места. Точно так же использование общего счастья для измерения счастья на работе слишком широко. Многие люди наслаждаются жизнью, но ненавидят свою работу!
Неправильная маркировка — еще одна распространенная ошибка определения: заявление о том, что вы собираетесь измерить депрессию, когда вы на самом деле измеряете тревогу, ставит под угрозу исследование.
Лучший способ избежать этой конкретной угрозы — это хорошо спланировать ситуацию и обратиться за советом до начала исследовательской программы.
Construct Confounding
Эта угроза достоверности конструкции возникает, когда другие конструкции маскируют эффекты измеряемой конструкции.
Например, на самооценку влияют уверенность в себе и самооценка. Эффект этих конструкций необходимо включить в исследование.
Взаимодействие различных методов лечения
Эта конкретная угроза заключается в том, что более одного лечения влияют на конечный результат.
Например, исследователь тестирует программу интенсивного консультирования как способ помочь курильщикам отказаться от сигарет.В конце исследования результаты показывают, что 64% испытуемых успешно сдались.
К сожалению, затем исследователь обнаруживает, что некоторые из испытуемых также использовали никотиновые пластыри и жевательную резинку или электронные сигареты. Теперь валидность конструкции слишком мала, чтобы результаты имели какое-либо значение. Только хорошее планирование и наблюдение за объектами могут предотвратить это.
Ненадежные оценки
Разница в оценках — очень легкая ловушка, в которую можно попасть.
Например, исследователь в сфере образования разрабатывает тест на интеллект, который дает отличные результаты в Великобритании и демонстрирует высокую конструктивную валидность.
Однако, когда тест проводится с детьми иммигрантов, когда английский является вторым языком, баллы ниже.
Тест измеряет их языковые способности, а не интеллект.
Mono-Operation Bias
Эта угроза связана с независимой переменной и представляет собой ситуацию, когда одна манипуляция используется для воздействия на конструкцию.
Например, исследователь может захотеть узнать, работает ли лекарство от депрессии. Они делят пациентов на две группы: одна получает препарат, а контрольная — плацебо.
Проблема заключается в том, что он ограничен (например, случайная ошибка выборки), и надежный дизайн будет использовать несколько групп с разными дозами.
Другой вариант — провести предварительное исследование, которое вычислит оптимальную дозу, что в равной степени приемлемый способ сохранить валидность конструкции.
Смещение моно-метода
Эта угроза достоверности построения включает зависимую переменную и возникает, когда используется только один метод измерения.
Например, в эксперименте по измерению самооценки исследователь использует один метод для определения уровня этой конструкции, но затем обнаруживает, что она фактически измеряет уверенность в себе.
Использование различных методов, таких как анкеты, самооценка, физиологические тесты и наблюдение, сводит к минимуму вероятность того, что эта конкретная угроза повлияет на валидность конструкта.
Не паникуйте
Это лишь некоторые из угроз для конструирования достоверности, и большинство экспертов сходятся во мнении, что существует по крайней мере 24 различных типа. Это основные из них, и хороший экспериментальный план, а также поиск отзывов от экспертов на этапе планирования помогут вам избежать их.
Для «трудолюбивых» ученых, которые думают, что студенты, изучающие социальные и поведенческие науки, легко могут ошибаться!
Оценка валидности конструкции в организационных исследованиях в JSTOR
АбстрактныйКлассические и современные методы анализа валидности конструктов сравниваются и противопоставляются посредством повторного анализа данных из исследовательской литературы организаций, чтобы установить основу для оценки валидности показателей, используемых в исследованиях организации.Критерии Кэмпбелла и Фиске (1959) оказались недостаточными, особенно в их предположениях, диагностической информации и силе. Подтверждающий факторный анализ (CFA) позволяет преодолеть большинство ограничений, присущих процедурам Кэмпбелла и Фиске. Тем не менее, у метода CFA выявлены два потенциальных недостатка: смешение случайной ошибки с дисперсией, зависящей от меры, и невозможность проверить взаимодействие между признаками и методами. Предлагаются три альтернативных метода решения первой проблемы, а модель прямого продукта описывается как решение второй.Рассмотренные здесь методы идут дальше, чем используемые в настоящее время процедуры, для повышения нашей способности определять достоверность переменных, обычно изучаемых в исследованиях организаций.
Информация о журналеОснованный в 1956 году Джеймсом Томпсоном, ежеквартальный журнал «Административная наука» представляет собой рецензируемый междисциплинарный журнал, публикующий теоретические и эмпирические работы, продвигающие изучение организационного поведения и теории. ASQ публикует статьи, которые вносят вклад в теорию организации из ряда дисциплин, включая организационное поведение и теорию, социологию, психологию и социальную психологию, стратегическое управление, экономику, государственное управление и производственные отношения.ASQ публикует как качественные, так и количественные работы, а также чисто теоретические статьи. Теоретические перспективы и темы в ASQ варьируются от микро до макро, от лабораторных экспериментов по психологии до работы с национальными государствами. Время от времени появляется «Форум ASQ», эссе на специальную тему с приглашенными комментариями. Вдумчивые рецензии на книги, относящиеся к исследованиям организаций и теории менеджмента, являются регулярной функцией. Специальные выпуски посвящены качественным методам, организационной культуре, использованию организационных исследований, распределению вознаграждений в организациях и критическим взглядам на организационный контроль.
Информация об издателеСара Миллер МакКьюн основала SAGE Publishing в 1965 году для поддержки распространения полезных знаний и просвещения мирового сообщества. SAGE — ведущий международный поставщик инновационного высококачественного контента, ежегодно публикующий более 900 журналов и более 800 новых книг по широкому кругу предметных областей. Растущий выбор библиотечных продуктов включает архивы, данные, тематические исследования и видео. Контрольный пакет акций SAGE по-прежнему принадлежит нашему основателю, и после ее жизни она перейдет в собственность благотворительного фонда, который обеспечит дальнейшую независимость компании.Основные офисы расположены в Лос-Анджелесе, Лондоне, Нью-Дели, Сингапуре, Вашингтоне и Мельбурне. www.sagepublishing.com
Перейти к основному содержанию ПоискПоиск
- Где угодно
Поиск Поиск
Расширенный поиск- Войти | регистр
- Подписка / продление
- Учреждения
- Индивидуальные подписки
- Индивидуальные продления
- Библиотекари
- полные платежи Чикагский пакет
- Полный охват и охват содержимого
- Файлы KBART и RSS-каналы
- Разрешения и перепечатки
- Инициатива развивающихся стран Чикаго
- Даты отправки и претензии
- Часто задаваемые вопросы библиотекарей
- Тарифы, заказы
- и платежи
- О нас
- Публикуйте у нас
- Новые журналы
- tners
- Подпишитесь на уведомления eTOC
- Пресс-релизы
- Медиа
- Книги издательства Чикагского университета
- Распределительный центр в Чикаго
- Чикагский университет
- Положения и условия
- Заявление об издательской этике
- Уведомление о конфиденциальности
- Доступность Chicago Journals
- Доступность вузов
- Следуйте за нами на facebook
- Следуйте за нами в Twitter
- Свяжитесь с нами
- Медиа и рекламные запросы
- Открытый доступ в Чикаго
- Следуйте за нами на facebook
- Следуйте за нами в Twitter
Составить законную силу документа для оценки отражающей записи
Введение
С момента эволюции образования, основанного на компетенциях, в медицинских учебных программах стало широко использоваться рефлексивное портфолио и рефлексивное письмо.Эффективное использование портфолио помогает учащимся развить способность размышлять, предоставляет доказательства их личного и профессионального развития и способствует их критическому мышлению и коммуникативным навыкам. 1 Портфолио — это набор материалов, который используется в качестве доказательства достижения результатов обучения в течение определенного периода времени. Есть несколько типов портфелей, которые различаются в зависимости от цели и условий использования. 2 Обычно портфолио включает в себя требования к учащимся писать размышления о своем опыте обучения, используя короткие размышляющие части.Кроме того, качество отражения, по-видимому, является наиболее значительным вкладом в объяснение дисперсии обычных рейтингов портфеля. 3 Таким образом, настоящее исследование сосредоточено на портфолио, основанном на рефлексивном письме, где размышление об опыте обучения является основным компонентом портфолио студентов наряду с предоставлением доказательств в поддержку описанного ими опыта.
Рефлексия обычно понимается как метакогнитивный процесс, направленный на развитие критического понимания как себя, так и ситуации, которое может быть передано для информирования о встречах в ситуации в будущем. 4 Четыре необходимых условия были определены для успешной реализации рефлексивных портфелей: хороший коучинг; структура и руководящие принципы; адекватный опыт и материал для размышлений; итоговая оценка. 5
Ниже мы предлагаем обзор соответствующей литературы, разделенный на три раздела: (i) теоретические основы рефлексии; (ii) исследования, описывающие рефлексию в условиях медицинского образования; и (iii) исследования, посвященные оценке рефлексивного письма.
Теоретические основы отражения
Несколько ученых концептуализировали теоретические основы рефлексии, предложив различные объяснительные модели обучения. 6–10 Дьюи 6 продемонстрировал, что рефлексия — это активный и осознанный процесс обучения, который помогает осмыслить ситуации или события, которые трудно объяснить. Он утверждает, что рефлексивное мышление превращает ситуацию из переживания недоумения и двусмысленности в уравновешенное состояние ясности, согласованности, урегулирования и гармонии.
Schön 7,8 — первая компания, которая связывает размышления с профессиональным развитием и практикой. Для Шена, 7,8 отражение — это процесс, который делает скрытые теоретические знания более явными и трансформирует их в практические знания, т. Е. Отражение позволяет профессионалам улучшать свою практику и постепенно становиться экспертами в своих областях. По его словам, в профессиональной практике возникают два типа рефлексии: «рефлексия в действии» и «рефлексия на действии».В то время как «размышление в действии» предполагает осознание ситуации и использование профессиональных знаний на месте для планирования случайных ситуационных изменений, «размышление о действии» предполагает ретроспективный просмотр опыта и его развитие. 7,8
Boud et al. 9 подчеркнули важность эмоций в рефлексивном мышлении, которые влияют на то, как люди вспоминают события. Для этих авторов размышление — это повторяющийся процесс эффективного обучения, который начинается с личного опыта.Учащимся предлагается вернуться, пересмотреть свой личный опыт и оценить ценности и убеждения, лежащие в основе конкретных действий и решений. На последнем этапе (результаты) генерируются новые перспективы опыта, которые приводят к приверженности к действию и изменению поведения. 9 Среди прочего, Moon 10 описывает отражение как стимул для преобразования поверхностного знания в глубокое. Он определяет отражение как
форма мысленной обработки с целью и / или ожидаемым результатом, которая применяется к относительно сложным или неструктурированным идеям, для которых нет очевидного решения. 10
Исследования, описывающие рефлексию в медицинских учреждениях образования
В своей эмпирически обоснованной монографии Лочер 11 систематически сравнивает размышления экспертов и студентов-медиков и выявляет повторяемость типичного формата «описание-размышление-заключение / цели», дополненное рядом текстовых функций. Использование размышлений для личного развития предполагает, что учащиеся исследуют свои собственные ценности, убеждения и предположения. 12 Понимание ценностей и убеждений человека необходимо для развития терапевтических отношений с пациентами, которые необходимы для сочувствия и заботы о них. 4 Несколько авторов продемонстрировали, что развитие рефлексивных навыков в медицинском образовании улучшает диагностическое мышление, 13–15 коммуникативные навыки, сотрудничество и сочувствие, 16,17 профессиональную идентичность, 18 и развитие экспертных знаний. 4,14,15 Роль наставников, будь то преподаватель или коллега, важна для поддержки рефлексии студентов-медиков.Наставник создаст благоприятную среду для размышлений, способствуя осознанию и осмыслению опыта. 4
Исследования, посвященные оценке рефлексивного письма
Несмотря на потенциальную полезность рефлексии в медицинской практике, в современной литературе имеются противоречивые выводы относительно психометрических свойств инструментов для измерения этой конструкции. 19,20 Wald et al. 19 разработали аналитическую рубрику для оценки рефлексивного письма и назвали ее «Оценка рефлексии для повышения компетенций учащихся» (REFLECT).Рубрика состояла из четырех уровней рефлексивной способности: привычное действие, вдумчивое действие, размышление и критическое размышление. Они продемонстрировали адекватную межэкспертную надежность, лицевую валидность, выполнимость и приемлемость рубрики. 19 Тем не менее, эта рубрика была рекомендована для формативной оценки студентов и в качестве руководства для обратной связи со студентами. Напротив, другое исследование поставило под сомнение надежность результатов рефлексивного письма студентов-медиков, использующих ту же рубрику. 20 Эти авторы продемонстрировали, что для достижения приемлемой надежности необходимо не менее 14 рефлексивных эссе, оцененных четырьмя или пятью экспертами. Они также продемонстрировали незначительную корреляцию между оценками при письменной рефлексии и оценками с использованием других критериев оценки, таких как вопросы с несколькими вариантами ответов и объективные структурированные клинические экзамены (ОБСЕ). 20
На этом фоне мы разработали текущее исследование, чтобы разработать инструмент для оценки портфелей с упором на рефлексивное письмо.Мы также стремились оценить различные источники доказательств, которые подтверждают конструктивную валидность инструмента исследования. 21 Источники доказательств валидности включают доказательства, связанные с содержанием, внутреннюю структуру путем измерения обобщаемости оценок и отношения к другим переменным путем тестирования корреляций портфолио, основанных на рефлексивном письме, с оценками письменных экзаменов (дивергентная валидность) и коммуникативными навыками. баллы (сходящаяся достоверность). 21 В первую очередь, исследование направлено на ответы на следующие исследовательские вопросы:
- В какой степени мы можем обобщить оценки студентов-медиков в оценках портфолио, основанных на рефлексивном письме, по разным оценщикам и в разных ситуациях?
- Какова взаимосвязь между оценками учащихся в портфолио, основанных на рефлексивном письме, и их оценками на письменных экзаменах и коммуникативными навыками?
Методы
Проектно-исследовательская установка
Мы провели это исследование в Медицинском колледже Катарского университета (CMED-QU).Программа бакалавриата рассчитана на шесть лет и разделена на три фазы: 1) фаза I (один год) — традиционная, основанная на курсах, 2) фаза 2 (два с половиной года) — комплексная, проблемная и фаза 3 ( два с половиной года) — это клиническая ротация на базе больниц. На всех этапах программы рефлексивное портфолио является основным инструментом обучения студентов-медиков. В этом конкретном исследовании участвовали студенты-медики 2-го (n = 67) и 3-го курсов (n = 68) во время обучения на Фазе II в 2018/2019 и 2019/2020 академических годах.Исследование получило одобрение этики исследований № QU-IRB 697-E / 16, выданное институциональным наблюдательным советом Управления академических исследований Катарского университета.
Студенты представляют свои рефлексивные портфолио в конце каждого семестра. Ожидается, что в каждом портфолио студенты представят три письменные работы, чтобы продемонстрировать свою способность описывать и размышлять о своем опыте обучения, относящемся к трем из шести областей компетенций учебной программы. Сферы компетенции включают 1) уход за пациентами и клинические навыки, 2) здоровье населения, 3) практические знания, 4) межличностное общение и сотрудничество, 5) личное развитие и профессионализм и 6) исследования.К концу второго семестра студенты должны поразмышлять над опытом, связанным с тремя другими областями компетенций программы. В дополнение к своим размышлениям студенты предоставили доказательства, подтверждающие описанный ими опыт. Студентам не предлагали подсказки для их размышлений, но им была предоставлена возможность размышлять о своем личном опыте. Студенты прошли двухчасовую подготовку по работе с портфолио во время изучения курса «Образование в области здравоохранения».Кроме того, они посетили дополнительный семинар на втором году обучения, посвященный тому, как использовать портфолио в качестве инструмента обучения и как они оцениваются в программе CMED. Перед тем, как отправить портфолио на итоговую оценку, студентам настоятельно рекомендуется просмотреть свои портфолио со своими наставниками, которые проводят для них формирующую оценку. Студентам также было предоставлено дополнительное руководство с описанием цели и преимуществ портфолио, ожидаемых результатов обучения, способов описания и отражения опыта, связанного с различными областями компетенций учебной программы, а также инструмента оценки.
Разработка инструментария
На основе систематического обзора соответствующей литературы авторы разработали рубрику рефлексивной оценки портфолио. Две довольно разные научные традиции определяли развитие инструмента исследования: 1) концепция рефлексии и ее роль в профессиональном образовании / развитии; и 2) языковые / риторические проявления письменной рефлексии. Характеристика Шена 7 «знание в действии» приближается к нашей концептуализации, особенно его различие между «отражением на практике» и «размышлением на практике».Рефлексивное письменное портфолио в контексте медицинской учебной программы относится ко второму, но с ориентацией на будущее — хотя в процессе написания обязательно должны присутствовать элементы первого. Инструмент обучения основан на трех основных предпосылках: 1) рефлексия — это итеративный процесс, используемый для обучения на основе повторного посещения и анализа предыдущего опыта; 22 2) рефлексия вызвана наличием сложной, нераспознанной проблемы; 7,14 и 3) признание границ между описанием опыта и более глубокими уровнями рефлексии. 19,23 Хотя основной целью при разработке инструмента было создание оптимизированного шаблона, который поможет оценщикам факультета в процессе оценки, важно помнить о его понятности и полезности для студентов-медиков с точки зрения действенная обратная связь.
Окончательный инструмент ( Приложение 1 ) был доработан после пилотного тестирования на учебном семинаре с преподавателями CMED-QU. Во время семинара участников познакомили с процессом оценки портфолио и рефлексивного письма.Затем участники (n = 18) были разделены на две группы (A и B), и каждому члену группы было предложено оценить два образца портфолио студентов (по одному для каждого года 2 и 3) с использованием инструмента исследования. Кроме того, преподавателям был предоставлен вопросник, чтобы указать степень их согласия по 5-балльной шкале Лайкерта (1 = категорически не согласен, 5 = полностью согласен) с пятью пунктами, относящимися к инструменту. Пунктами оценки были: 1) инструмент относится к результатам обучения портфолио, 2) критерии оценки четко определены и точны, 3) дескрипторы точно описывают каждый уровень эффективности, 4) инструмент будет полезен для предоставления обратной связи для студенты, и 5) язык ясен, без двусмысленности.Результаты анкетирования показали, что 78,8% согласны (полностью согласен или согласен), 5,9% не согласны (категорически не согласен или не согласен) и 15,3% являются нейтральными. Кроме того, преподаватели предоставили качественные комментарии по улучшению инструмента. Результаты анкетирования были обсуждены на семинаре, и, соответственно, была проведена окончательная доработка инструмента.
Рейтинги факультетаоценивали каждое рефлексивное портфолио по трем основным критериям: организация и качество презентации, описание личного опыта и размышления над этим опытом.Впоследствии оценка рефлексии включала три основных критерия: 1) критическое осознание себя и других, 2) эмпирическое знание и 3) способность выявлять неопределенность и амбивалентность и управлять ими. Оценка письменной речи студентов производилась по вышеуказанной рубрике по трехбалльной шкале (0, 1 и 2). Общая оценка (из 10) была распределена в основном по описанию и отражению личного опыта (8 баллов), и только максимум 2 балла присваивался по организации и качеству презентации.Рейтинги факультетов прошли обучающие семинары по оценке портфолио студентов с упором на использование инструмента исследования. Окончательный балл для студентов из портфолио был средним из баллов двух оценщиков. Итоговая оценка портфолио составила 10% от суммарных оценок учебных единиц.
Анализ данных
Обобщаемость оценок портфолио на основе рефлексивного письма
Мы измерили надежность оценок портфолио, основанных на рефлексивном письме, с помощью анализа теории обобщаемости (G-теория), который включает как исследование обобщаемости (G-исследование), так и исследование принятия решений (D-исследование).G-исследование рассчитало дисперсию, приписываемую аспектам исследования (оценщикам и случаям), в то время как D-исследование предсказывает наиболее благоприятное сочетание оценщиков и поводов, которые необходимы для достижения приемлемой надежности. Подробности используемых методов и уравнений были описаны в предыдущих исследованиях. 24–27
В анализе G-теории мы выбрали полностью перекрестный дизайн, потому что одни и те же эксперты оценивали всех студентов в трех учебных случаях. Кроме того, аспекты исследования были сочтены случайными, потому что мы были заинтересованы в обобщении результатов исследования, выходящем за рамки настоящего исследования.Анализ G-теории вычисляет отклонения, связанные с различиями между студентами, различиями между рейтингами оценщиков портфолио (два оценщика) и различиями в разных случаях (три случая). Кроме того, он позволяет рассчитать дисперсию из-за взаимодействия между оценками учащихся, случаями и оценками. Для исследования D мы рассчитали коэффициент надежности (Φ), потому что нас интересовала абсолютная успеваемость учащихся без сравнения с оценками других учащихся в рефлексивных портфолио (оценка на основе критериев).
Мы также проанализировали стандартную ошибку измерения (SEM), которая является мерой разброса оценок для одного студента, если он / она тестируется несколько раз. Следовательно, это полезно для определения степени точности, с которой учащиеся проводят измерения с использованием прибора определенным образом (например, два оценщика и три раза). 24
Взаимосвязь между оценками рефлексивного портфеля и оценками в других областях компетенции (свидетельство валидности, связанное с критериями)
Взаимосвязь между оценками студентов в портфолио, основанных на рефлексивном письме, и их оценками, измеренными с помощью других инструментов оценки, таких как MCQ, коммуникативные навыки в ОБСЕ и оценки студентов преподавателями PBL, были установлены с использованием коэффициента корреляции продукта Пирсона.Основываясь на результатах предыдущих исследований связи между рефлексивным письмом студентов-медиков и развитием коммуникативных навыков, сотрудничества и сочувствия, 16,17 мы выдвинули гипотезу, что оценки в портфолио, основанном на рефлексивном письме, коррелируют с оценками студентов в коммуникативных навыках и Учебники PBL (конвергентная валидность), но не с их оценками на экзаменах, основанных на знаниях (дивергентная валидность). Оценка знаний основана на MCQ (от 60 до 120 заданий в зависимости от единицы) A-типа, в основном с контекстно-насыщенными сценариями.
Преподаватели-фасилитаторы в конце каждого системного блока оценивали успеваемость студентов в учебных курсах PBL на этапе II программы после продольного взаимодействия со студентами в диапазоне от 8 до 20 занятий, в зависимости от продолжительности блока. Критерии оценки включают элементы, относящиеся к профессионализму, такие как подотчетность (например, пунктуальность, проявление лидерских качеств, изо всех сил для достижения поставленных целей), проявление уважения и честности (например, уважение к членам группы, признание ошибок, предоставление и принятие конструктивной обратной связи, установление взаимопонимания с группа) и общение (например, хорошо выражает мнение, не прерывает групповое обсуждение, использует правильный язык тела).Кроме того, студенты оцениваются по их участию в групповой динамике и формировании целей обучения. Каждый элемент оценивается по шкале от 1 (очень плохо) до 10 (отлично), а общие баллы PBL составляют 10% от итоговой конечной оценки.
Оценка коммуникативных навыков в рамках ОБСЕ основана на непосредственном наблюдении за работой при общении со стандартизованным пациентом в дополнение к клиническому мультимедийному экзамену для диагностики и принятия решений (CMEDD).CMEDD — это компьютерный тест, который включает в себя серию записанных на видео встреч в клинических условиях, где учащихся спрашивают об аспекте, относящемся к клинической встрече.
Все данные исследования были проанализированы с помощью IBM SPSS Statistics для Windows версии 26.0 (IBM Corp., Армонк, Нью-Йорк, США). Анализ G-теории проводился с использованием программы G1.sps, как описано ранее. 28 Значение p <0,05 считалось статистически значимым.
Результаты
Обобщаемость оценок портфолио на основе рефлексивного письма
G-исследование показало приемлемый уровень надежности (Φ = 0.75) оценок рефлексивного портфолио с использованием 2 оценщиков в 3 случаях (таблица 1). Процент дисперсии, вмененной объекту измерения (учащимся), составляет 46,6% от общей дисперсии. Поскольку это самая высокая дисперсия, это указывает на то, что оценщики смогли в значительной степени различать уровни качества студентов в своих рефлексивных портфолио. С другой стороны, расчетный компонент дисперсии для оценщиков составлял ничтожно малый процент (0,8%), что свидетельствует о том, что оценки оценщиков не менялись от учеников и в зависимости от обстоятельств.Однако взаимодействие между студентами и оценщиками составило 17,7% от общей дисперсии, что указывает на то, что оценки оценщиков некоторых студентов в значительной степени различаются. Аспект случая привнес в модель незначительный процент дисперсии (1,9%), что свидетельствует об очень низких колебаниях общих оценок учащихся от одного случая к другому. Кроме того, небольшой процент дисперсии (5,2%), приписываемый взаимодействию между студентами и случаями, предполагает, что оценки студентов существенно не менялись от случая к случаю, и были небольшие изменения в поведении рейтинга от случая к случаю.Наконец, взаимодействие между студентами, оценщиками и случаями составило 27,7% от общей дисперсии. Этот большой компонент представляет собой как дисперсию, вмененную трехстороннему взаимодействию, так и остаточную дисперсию, вменяемую аспектам, которые не включены в текущее исследование. Наконец, SEM для модели исследования с использованием двух экспертов и трех случаев составил 0,41, что привело к доверительному интервалу ± 0,80.
Таблица 1 Результаты исследования теории обобщаемости (G-исследование) для оценок студентов-медиков (n = 129) в рефлексивных портфелях с использованием двух оценщиков и трех случаев измерения |
Результаты исследования D
Рисунок 1 иллюстрирует результаты исследования принятия решения (D), в котором прогнозировалась надежность инструмента с использованием различных комбинаций экспертов и случаев.Если мы используем одного оценщика, даже увеличение количества раз до пяти дает коэффициент надежности (Φ) всего 0,66, что ниже допустимого уровня. Однако использование двух оценщиков приводит к повышению уровня надежности до приемлемого уровня (Φ = 0,72) в двух случаях и до Φ = 0,75 в трех случаях. Результаты показывают, что для достижения хорошего уровня надежности (Φ = 0,80) нам необходимо три оценщика в трех случаях. Как показано на Рисунке 1, влияние увеличения количества оценщиков на надежность значительно выше по сравнению с увеличением количества случаев.Фактически, добавление четвертого или пятого случая привело к небольшому улучшению общей надежности.
Рис. 1 Исследование принятия решений (D-исследование) для студентов-медиков (n = 129) набрало баллы в рефлексивном портфолио. Коэффициенты надежности — это оценочные Ф-коэффициенты объединения разного количества оценщиков и поводов. |
Взаимосвязь между оценками отражающего портфеля и оценками в других областях компетенции (свидетельство валидности, связанное с критериями)
Чтобы оценить доказательства валидности инструмента, связанные с критериями, мы проверили взаимосвязь между оценками студентов в рефлексивных портфолио с их оценками на письменных экзаменах (MCQ), коммуникативными навыками на объективных структурированных клинических экзаменах (ОБСЕ) и учебными пособиями по PBL. .Между коммуникативными навыками и оценками PBL и оценками рефлексивного портфолио наблюдалась умеренная и большая корреляция величины положительного эффекта (r = 0,47 и 0,50, соответственно, P <0,01), но с небольшой корреляцией размера эффекта (r = 0,28) при письменном экзамене MCQ.
Обсуждение
Это исследование демонстрирует различные источники доказательств, подтверждающих конструктивную валидность инструмента исследования. Свидетельства, относящиеся к содержанию, подтверждаются теоретически обоснованным построением инструмента исследования, обучением преподавателей-рейтеров и пилотным тестированием инструмента совместно с преподавателями.Доказательства приемлемой внутренней структуры прибора демонстрирует анализ G-теории. Исследование показало, что измерение оценок портфолио студентов с использованием двух оценщиков может обеспечить приемлемый уровень надежности (Φ = 0,72 и 0,75) в двух и трех случаях, соответственно. Наконец, большая корреляция между оценками в рефлексивных портфолио и оценками как в коммуникативных навыках, так и в учебных пособиях по PBL подтверждает свидетельство конвергентной валидности (отношения к другим переменным).Эти результаты показывают, что инструмент исследования демонстрирует приемлемые психометрические свойства, которые можно использовать для итоговой оценки студентов-медиков в рефлексивных портфолио. Другие исследования, в которых использовался анализ по G-теории, доказали гораздо более низкую надежность оценок рефлексивного портфолио студентов-медиков. 3,19,20,29 Разница в результатах может быть связана с содержанием инструмента исследования, уровнем подготовки рейтеров и размером используемой выборки. Необходимы дальнейшие исследования в других медицинских программах для проверки надежности и валидности инструмента исследования за пределами текущих условий исследования.
Разница в 46,6% по предмету измерения указывает на то, что при усреднении по оценщикам и случаям студенты-медики систематически различались по своим оценкам рефлексивного портфолио. Этот вывод предполагает приемлемую степень изменчивости оценок преподавателей рефлексивных портфолио студентов из-за несистематических источников ошибок. Большая разница, связанная с различиями между студентами, по сравнению с другими аспектами исследования, может быть объяснена подготовкой преподавателей-оценщиков и их знакомством с использованием инструмента исследования.Другое исследование сообщило о гораздо более низком процентном отклонении (25%) из-за успеваемости учащихся 1-го класса, используя анализ двух портфелей. 29 Они объяснили низкую дисперсию и общий низкий G-коэффициент недостаточной подготовкой студентов и экспертов.
Результаты исследования показывают, что обстоятельства повлияли только на 1,9% дисперсии, что указывает на очень низкие временные колебания в оценках экспертов. Кроме того, 5.2% дисперсии, что свидетельствует о том, что оценки учащихся в рефлексивных портфолио существенно не менялись от случая к случаю, а рейтинговое поведение мало изменялось от случая к случаю. Рис и др. 29 сообщили о гораздо более высоком процентном отклонении (69,2%) из-за взаимодействий между учениками и событиями. Наконец, большой источник дисперсии (27,7%), отраженный взаимодействиями между студентами, оценщиками и случаями, предполагает, что значительная часть вариабельности вызвана аспектами, не включенными в исследование, или случайной ошибкой.Эта необъяснимая ошибка может быть связана с расхождениями, связанными с элементами оценки или условиями исследования.
Текущие результаты D-исследования показали, что увеличение количества оценщиков с одного до двух в двух случаях привело к повышению уровня надежности в диапазоне от G = 0,58 до 0,72, соответственно. Даже увеличение количества оценщиков до трех может обеспечить приемлемый уровень надежности (Φ = 0,70) за один раз. Это ясно демонстрирует, что увеличение количества оценщиков больше влияет на надежность рефлексивных оценок портфеля, чем увеличение количества поводов.Поскольку мы оцениваем рефлексивные портфолио студентов в конце семестра (один раз), используя три рефлексивных записи, рекомендуется использовать трех оценщиков для достижения приемлемой надежности в нашем учебном контексте. Однако требование наличия более двух оценщиков для достижения более высокой надежности может создать практические ограничения с точки зрения использования человеческих ресурсов.
В текущем исследовании студенты размышляли о шести областях компетенции медицинской учебной программы. Преимущество этой модели заключается в решении одной из основных проблем, о которых ранее сообщалось в литературе, 30 , путем предложения образовательной структуры интеграции портфелей в учебный план.Эта модель также обеспечивает более широкий круг размышлений об основных областях компетенций, необходимых для любого выпускника-медика. Он дает студентам возможность поразмышлять над различными и значимыми переживаниями, которые считаются ключевыми факторами успеха портфолио. 3 Кроме того, ученикам была предоставлена свобода размышлять о личном опыте, а не давать им рефлексивные подсказки, которые, как было ранее показано, ограничивают способность учеников заниматься рефлексивным письмом. 31
Ограничения исследования и направления на будущее
Это исследование имеет некоторые ограничения, которые требуют отчетности. Дизайн исследования был ограничен студентами-медиками 2-го и 3-го курсов по проблемно-ориентированной учебной программе. Следовательно, необходимы будущие исследования для проверки воспроизведения результатов исследования в разные годы обучения, в других образовательных учреждениях, таких как клиническая среда, и в других культурах. Хотя инструмент исследования доказал приемлемые психометрические свойства, в будущих исследованиях потребуется дальнейшее уточнение конструкции рефлексии.Инструмент исследования фокусируется на измерении результатов размышлений, которые могут не охватить важные аспекты этой богатой конструкции. Дальнейшие исследования должны быть сосредоточены на разработке инструментов для измерения как «процесса», так и «результата» размышления. Наконец, вопрос о том, насколько эффективны наставники в отношении качества портфолио студентов, основанных на рефлексивном письме, требует дальнейшего изучения.
Выводы
Это исследование свидетельствует о приемлемой надежности и валидности инструмента, который будет использоваться для итоговой оценки рефлексивных портфолио студентов в медицинских программах бакалавриата.Приемлемое значение Φ-коэффициента (≥0,7) может быть достигнуто, если два оценщика будут выставлять оценки студентам более двух раз или три оценщика в одном случае. Необходимы дальнейшие исследования для воспроизведения этих результатов, прежде чем использовать их для итоговой оценки студентов других медицинских вузов.
Благодарность
Авторы хотели бы поблагодарить д-ра Айада аль-Мослиха, преподавателя клинического образования в CMED-QU, Катар, за предоставление данных о коммуникативных навыках студентов-медиков.
Раскрытие
Авторы сообщают об отсутствии конфликта интересов в этой работе.
Список литературы
1. Дриссен Э.В., Ван Тартвейк Дж., Ван Дер Влейтен С., Васс В. Портфели в медицинском образовании: почему они встречаются с переменным успехом? Систематический обзор. Медицинское образование . 2007; 41: 1224–1233. DOI: 10.1111 / j.1365-2923.2007.02944.x
2. Смит К., Тиллема Х. Разъяснение различных типов использования портфеля. Ass Eval Высшее образование . 2003. 28 (6): 625–648.DOI: 10.1080 / 0260293032000130252
3. Дриссен Е.В., Оверим К., ван Тартвейк Дж., Ван дер Влейтен С.П., Муйтьенс AM. Обоснованность оценки портфеля: какие качества определяют рейтинг? Медицинское образование . 2006. 40 (9): 862–866. DOI: 10.1111 / j.1365-2929.2006.02550.x
4. Сандарс Дж. Использование рефлексии в медицинском образовании: Руководство AMEE No. 44. Med Teach . 2009. 31: 685–695. DOI: 10.1080 / 01421590
0374
5. Дриссен Е.В., ван Тартвейк Дж., Оверим К., Вермунт Дж. Д., ван дер Влейтен CPM.Условия для успешного рефлексивного использования портфолио в высшем медицинском образовании. Медицинское образование . 2005; 39: 1230–1235. DOI: 10.1111 / j.1365-2929.2005.02337.x
6. Дьюи Дж. Опыт и образование . Нью-Йорк, штат Нью-Йорк: Каппа Дельта Фи, Touchstone; 1938.
7. Шон Д.А. Практик рефлексии: как профессионалы думают в действии . Нью-Йорк, штат Нью-Йорк: основные книги; 1983.
8. Schön DA. Обучение рефлексивных практик: к новому дизайну преподавания и обучения профессиям .Сан-Франциско, Калифорния: Джосси-Басс; 1987.
9. Боуд Д., Кио Р., Уокер Д. Содействие рефлексии в обучении: модель. В: Boud D, Keogh R, Walker D, редакторы. Размышление: превращение опыта в обучение . Лондон: Коган Пейдж; 1985: 18–40.
10. Мун Дж. Справочник по рефлексивному и экспериментальному обучению . Лондон, Великобритания: Рутледж; 1999.
11. Locher MA. Рефлексивное письмо в медицинской практике: лингвистическая перспектива . Бристоль: вопросы многоязычия; 2017 г.
12. Чаффи Л.Дж., де Лиу Э.Дж., Финниган Г.А. Содействие рефлексивной практике студентов в медицинском курсе: обзор литературы. Образовательное Здоровье (Абингдон) . 2012. 25 (3): 198–203. DOI: 10.4103 / 1357-6283.109787
13. Собрал ДТ. Оценка рефлексии студентов-медиков в процессе обучения. Медицинское образование . 2000; 34: 182–187. DOI: 10.1046 / j.1365-2923.2000.00473.x
14. Мамеде С., Шмидт Х.Г., Пенафорте Дж.С. Влияние рефлексивной практики на точность медицинских диагнозов. Медицинское образование . 2008; 42: 468–475. DOI: 10.1111 / j.1365-2923.2008.03030.x
15. Манн К., Гордон Дж., Маклауд А. Рефлексия и рефлексивная практика в образовании медицинских профессий: систематический обзор. Консультации по вопросам теории образования в области здравоохранения . 2007. 14 (4): 595–621. DOI: 10.1007 / s10459-007-9090-2
16. Харон Р. Нарративная медицина: модель сочувствия, рефлексии, профессии и доверия. JAMA . 2001. 286 (15): 1897–1902. DOI: 10.1001 / jama.286.15.1897
17.Джона С., Вудворд Б., Патель С. Чему мы можем научиться из рассказов в медицинском образовании? Пермь J . 2014. 18 (2): 92–94. DOI: 10.7812 / TPP / 13-166
18. Niemi PM. Профессиональная идентичность студентов-медиков: саморефлексия в доклинические годы. Медицинское образование . 1997. 31: 408–415. DOI: 10.1046 / j.1365-2923.1997.00697.x
19. Уолд Х., Боркан Дж., Тейлор Дж., Энтони Д., Рейс С. Развитие и оценка рефлексивной способности в медицинском образовании: разработка рубрики REFLECT для оценки рефлексивного письма. Акад. Мед. . 2012; 87 (1): 41–50. DOI: 10.1097 / ACM.0b013e31823b55fa
20. Мониз Т., Арнтфилд С., Миллер К., Лингард Л., Уотлинг К., Регер Г. Соображения по использованию рефлексивного письма для оценки учащихся: вопросы надежности и валидности. Медицинское образование . 2015; 49 (9): 901–908. DOI: 10.1111 / medu.12771
21. Кук Д.А., Бекман Т.Дж. Современные концепции валидности и надежности психометрических инструментов: теория и применение. Ам Дж. Мед. . 2006; 119 (2): 166.e7–16. DOI: 10.1016 / j.amjmed.2005.10.036
22. Суонвик Т. Понимание медицинского образования: доказательства, теория и практика . 2-е изд. Хобокен, Нью-Джерси: Уайли-Блэквелл; 2014.
23. Хаттон Н., Смит Д. Рефлексия в педагогическом образовании: к определению и реализации. Учить, учить, воспитывать . 1995; 11: 33–49. DOI: 10.1016 / 0742-051X (94) 00012-U
24. Briesch AM, Swaminathan H, Welsh M, Chafouleas SM. Теория обобщаемости: практическое руководство по изучению дизайна, реализации и интерпретации. J Sch Psychol . 2014; 52 (1): 13–35. DOI: 10.1016 / j.jsp.2013.11.008
25. Блох Р., Норман Г. Теория обобщаемости для недоумевших: практическое введение и руководство: AMEE Guide No. 68. Med Teach . 2012; 34 (11): 960–992. DOI: 10.3109 / 0142159X.2012.703791
26. Kassab S, Du X, Toft E, et al. Измерение основных профессиональных компетенций студентов-медиков в проблемной учебной программе: исследование надежности. BMC Med Educ . 2019; 19: 155. DOI: 10.1186 / с12909-019-1594-у
27. Виспоэль В.П., Моррис К.А., Килинк М. Приложения теории обобщаемости и их связи с классической теорией испытаний и моделированием структурных уравнений. Психологические методы . 2018; 23 (1): 1–26. DOI: 10.1037 / met0000107
28. Mushquash C, O’Connor BP. Программы SPSS и SAS для анализа теории обобщаемости. Методы определения поведения . 2006. 38 (3): 542–547. DOI: 10.3758 / BF03192810
29. Рис К.Э., Шеперд М., Чемберлен С. Полезность рефлексивных портфолио как метода оценки личного и профессионального развития студентов-медиков первого курса. Светоотражающий Практик . 2005; 6 (1): 3–14. DOI: 10.1080 / 1462394042000326770
30. Ahmed MH. Размышление магистранта о написании в портфолио: где мы сейчас и куда идем? J Adv Med Educ Prof . 2018; 6 (3): 97–101.
31. Арнтфилд С., Парлетт Б., Местон С. Н., Апрамиан Т., Лингард Л. Модель участия в портфолио, основанном на рефлексивном письме: взаимодействие между точками уязвимости и актами адаптации. Медицинское обучение . 2016; 38 (2): 196–205.DOI: 10.3109 / 0142159X.2015.1009426
Вся действительность — это построенная действительность. Либо это?
В этой диссертации основное внимание уделяется рейтинговым установкам учителей английского языка как иностранного (EFL) на устном экзамене по английскому языку в старших классах средней школы в Норвегии. Это контекст оценки, в котором нет единой рейтинговой шкалы на национальном уровне. Отсутствие общих рейтинговых стандартов может потенциально вызвать значительные различия в результатах оценки. Диссертация основана на статьях и представляет собой отчет о трех отдельных исследованиях, в которых второе и третье исследования основываются на результатах первого.Дизайн исследования был преимущественно качественным, но использовались и количественные методы. Всего в расследовании участвовало 80 учителей. В трех исследованиях основное внимание уделялось общей ориентации учителей в оценивании, их оценке произношения и оценке содержания. Помимо основного внимания к ориентации оценщиков, исследования также изучали аспекты рейтингового поведения учителей, т. Е. Согласованность оценок и степень соответствия между представлениями учителей о соответствующих критериях и предметной учебной программой и сопутствующими правительственными документами. определить как релевантную конструкцию.Результаты показали, что учителя в основном одинаково понимали общие аспекты производительности, подлежащие тестированию, но расходились во мнениях по некоторым более конкретным аспектам, таким как произношение и содержание. Что касается произношения, например, были свидетельства того, что учителя категорически расходились во мнениях относительно степени, в которой норма носителя языка является важным критерием оценки. С точки зрения содержания, результаты показали, что учителя программ общего обучения придавали больший вес этому критерию, чем учителя программ профессионального обучения.Также были обнаружены некоторые различия в выставлении баллов, а также при сравнении понимания учителями соответствующих аспектов успеваемости и аспектов, подлежащих проверке, как это определено в учебной программе по английскому языку. В целом, различия в оценочной ориентации и поведении учителей не считались серьезными вредными для общего качества этого типа оценивания. Тем не менее, полученные данные указывают на некоторые проблемы, над которыми норвежским органам управления образованием, исследовательскому сообществу и учителям следует подумать над дальнейшим изучением.Эти проблемы связаны с: (i) неуловимым характером некоторых критериев, таких как произношение и содержание; и (ii) разногласия между учителями относительно того, какой уровень баллов отражает конкретная работа. Выводы предполагают, что норвежские органы образования должны рассмотреть вопрос о введении общих рекомендаций по рейтинговой шкале, а также о более эффективном обучении рейтеров, чтобы обеспечить более достоверные и надежные результаты оценки.
Срок действия — решения для статистики
Действительность относится к состоянию, в котором исследователь или исследователь может получить уверенность в том, что выводы, сделанные на основе данных, безошибочны или точны.Если в выборке есть достоверность, значит, она относится к генеральной совокупности, из которой была взята эта выборка.
Statistics Solutions — лидер страны в области статистики достоверности и диссертаций. Используйте календарь ниже, чтобы запланировать бесплатную 30-минутную консультацию.
Получите утверждение диссертации
Мы ежедневно работаем с аспирантами и знаем, что нужно сделать, чтобы ваше исследование было одобрено.
- Отзыв адресной комиссии
- Дорожная карта до завершения
- Разберитесь с вашими потребностями и сроками
Существует четыре основных типа Срока действия.Это внутренние, внешние, статистически убедительные и построенные.
Внутренняя достоверность относится к типу, в котором между переменными существует причинно-следственная связь. Это означает причинную связь между зависимым и независимым типом переменной. Внутренняя валидность относится к тем факторам, которые являются причиной влияния на зависимую переменную. Этот тип используется в случае планирования экспериментов, когда лечение назначается случайным образом.
Внешняя действительность относится к типу, в котором существует причинная связь между причиной и следствием.Причина и следствие — это те, которые обобщаются или передаются либо разным людям, либо различным лечебным переменным и переменной измерения.
Статистически убедительная достоверность относится к типу, при котором исследователь интересуется выводом о степени связи между двумя переменными. Например, при изучении связи между двумя переменными исследователь достигает статистически убедительной достоверности только в том случае, если он выполнил тесты на статистическую значимость гипотез, предсказанных им.Этот тип нарушается, когда исследователь достигает двух типов ошибок, а именно ошибки I типа и ошибки II типа.
Ошибкатипа I вызывает нарушение этого типа достоверности, потому что при этом типе ошибки исследователь отвергает гипотезу, которая действительно была верной.
Ошибкатипа II вызывает нарушение этого типа достоверности, потому что при этом типе ошибки исследователь принимает гипотезу, которая действительно была ложной.
Construct Validity относится к типу, в котором конструкция теста участвует в прогнозировании отношения для зависимого типа переменной.Например, валидность конструкции может быть определена с помощью альфы Кронбаха. В альфе Кронбаха предполагается, что если его значение равно 0,80, то оно считается пригодным для подтверждения, а если его значение равно 0,70, то оно адекватно. Итак, если конструкция удовлетворяет таким условиям, то справедливость сохраняется. В противном случае это не так.
Конвергентная / дивергентная проверка и факторный анализ также используются для проверки этого типа достоверности.
Между достоверностью и надежностью существует тесная взаимосвязь.Тест считается ненадежным, если он не соответствует условиям действительности. Надежность — необходимое свойство теста, но не достаточное условие.
Таким образом, достоверность играет важную роль в создании точных выводов о данных.
Есть определенные вещи, которые действуют как угроза действительности. Это следующие:
Если исследователь собирает недостаточно данных для вывода этого заключения, это невозможно, потому что недостаточные данные не будут представлять популяцию в целом.
Если исследователь измеряет выборку совокупности со слишком небольшим количеством переменных измерения, то он также не может добиться достоверности этой выборки.
Если исследователь выберет неправильный тип выборки, то он тоже не сможет добиться достоверности вывода о генеральной совокупности.
Если исследователь выберет неточный метод измерения во время анализа, он не сможет добиться достоверности.
.