Валидность методики: Валидность методики — inakhan.ru

Содержание

3.9. ВАЛИДНОСТЬ ТЕСТА

Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Валидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом.

Анализируя сложную ситуацию с валидностью педагогических тестов, Е.Михайлычев¹⁶ отмечает, что педагогу, заинтересовавшемуся валидностью, трудно будет разобраться в том, что же это такое.

Ниже мы приведем несколько определений валидности теста.

ВАЛИДНОСТЬ означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование (В.Аванесов)¹⁷.

ВАЛИДНОСТЬ — это характеристика способности теста служить поставленной цели измерения (М.Челышкова)⁷.

ВАЛИДНОСТЬ - определяет, насколько тест отражает то, что он должен оценивать (А.Майоров)¹⁸.

Приведенные определения в целом перекликаются и являются практически равноценными. Мы несколько уточним определение, сделав акцент на цель тестирования. Тестирование как измерительная процедура, дает информацию, на основе которой в дальнейшем должно быть принято то или иное управленческое решение. Обоснованность этих решений, зачастую сильно влияющих на судьбу испытуемых, определяется надежностью и валидностью теста.

ВАЛИДНОСТЬ – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений.

После создания теста начинается процесс его валидизации. Приведем определение:

ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста¹⁹.

По нашему мнению ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.

Выделяют три вида валидности – содержательную, критериальную и конструктную²⁰. А.Майоров приводит следующую диаграмму видов валидности¹⁸:

Рис.3.9.1. Виды валидности.

КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.

КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.

Имеется два вида критериальной валидности – текущая и прогностическая.

Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.

Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.

СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.

Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений²⁰.

Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.

Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется

спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области.

Согласно П.Клайну содержательная валидность определяется следующим образом:

1) указать категорию лиц, для которой предназначен тест;
2) составить список знаний, умений, навыков, подлежащих тестированию;
3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
4) на основе списка составить перечень заданий;
5) выполнить внешнюю экспертизу полученных заданий;

6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, который будет содержательно валидным.

Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инструмента.

Валидность теста

Валидность теста (от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста.

Различают несколько видов валидность теста:

валидность теста конструктная,
валидность теста по критерию,
валидность теста по содержанию,
прогностическая валидность теста и др.

Валидность лучших тестов, выраженная коэффициентами корреляции (линейными, ранговыми и др.) составляет 0,3-0,8. К сожалению, есть случаи, когда тесты применяются без проверки их на в. В результате оказывается, что они бесполезны или даже вредны. Валидность теста – это показатель степени его эффективности.

Она, естественно, меняется в зависимости от контингента людей, которые подвергаются тестированию, и характера их будущей деятельности. Один и тот же тест может быть высоковалидным для одной ситуации, бесполезным для другой и вредным для третьей.

Валидность теста конструктная

критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект», его структуры. Степень соответсвия нашего предварительного понимания и определения интеллекта реальной возможности конкретного теста, степень соответствия структуры интеллеткта структуре теста и есть в.т.к. Она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.

Валидность теста по критерию

критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества личности на практике. Например, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых на протяжении достаточно продолжительного времени в интересующем нас аспекте. Оценка должна даваться по шкале порядковой, интервальной или отношений. В лучших тестах в. по критерию, измеренная коэффициентом корреляции, составляет от 0,3 до 0,8. Применение теста оправдано, если валидность по критерию оставляет 0,2-0,25.

Валидность теста по содержанию

критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров. Если, например, нужно проверить с помощью теста математическую подготовку абитуриента вуза, то в предлагаемый тест должны быть включены математические задания, для решения которых необходимы знания по всем разделам математики, изучаемым в средней школе. Таким образом, степень соответствия структуры данного теста структуре программы математических дисциплин, изучаемых в школе, и является валидностью данного теста по содержанию. Естественно, что для обследования лиц, окончивших вузы, предназначаются тесты с иной вялидностью по содержанию.

Валидность теста прогностическая

критерий качества теста, используемый при предсказании характера развития измеряемого параметра в будущем. Одним из самых существенных недостатков подобных тестов является то, что они не учитывают неравномерность развития измеряемого параметра у различных людей в будущем. Данный вид валидности является особо ценным с практической точки зрения.

Валидность эксперимента

критерий качества эксперимента, степень его точности, в зависимости от которой выводы, полученные в его ходе могут быть распространены на всю генеральную совокупность. В.э. позволяет определить насколько всеобщими могут быть выводы, полученные путем исследования ограниченной по времени и обьему выборки. Различают внутреннюю и внешнюю валидность эксперимента.

Валидность эксперимента внешняя

критерий качества эксперимента, в зависимости от которого выводы об определенной тенденции, закономерности развития конкретных психических явлений, личностей, видов деятельности и т.д. могут быть распространены на другие явления и т.д. в данной или иной сфере. Языком математики это можно сформулировать так: насколько закономерности данного подмножества характерны для всего множества. Для определения границ применения экспериментальных выводов и необходимо определять в.э.в.

Валидность эксперимента внутренняя

критерий качества эксперимента, используемый при выяснении степени достоверности выявленной в результате эксперимента тенденции, закономерности, характерной для данной единицы множества или для всего подмножества элементов генеральной совокупности. Допустим, исследуя степень влияния освещенности на эффективность производственной деятельности ткачих, психологи обнаружили статистическую зависимость их эффективности работы от частоты смены освещения. Что является основным фактором повышения эффективности деятельности: смена освещения, внимание экспериментаторов, особое поведение руководителей в период эксперимента или другие факторы? В данном случае психологи пришли к выводу: появление молодых мужчин-исследователй в цехе, где работали женщины, и послужило причиной повышения производительности их труда. Но ведь могла быть и принята гипотеза о росте производительности ткацкого труда в зависимости от смены освещенности. В.э.в. показывает в какой степени независимая переменная (производительность труда) связана с зависимой (освещенность). Строго научное проведение психологического эксперимента предполагает определение его валидности.

Что нужно знать о валидности заказчику оценки — FORMATTA

На осенней конференции «Оценка персонала» журнала «Штат» генеральный директор Formatta Евгений Куприянов выступал с докладом о валидности оценки. Мы публикуем текст его выступления. Это не научный доклад, а статья-обзор для заказчиков оценки: на простых и понятных примерах вы узнаете, что такое валидность и при каком показателе валидности оценка экономически оправдана.

Тема валидности становится всё популярнее в HR-сообществе. В 90-е, когда российские компании только начинали привлекать оценку персонала для решения бизнес-задач, акцент делали на разработке инструментов и методов, а их валидность интересовала далеко не всех заказчиков. Затем стало модно говорить о валидности, и многие провайдеры, пользуясь тем, что заказчики недостаточно разбирались в теме, предъявляли мифические 0,95 как показатель валидности своих инструментов.
Сегодня мы наблюдаем другую тенденцию: академический подход к измерению валидности проник в бизнес. Всё меньше компаний доверяют мифическим показателям и всё чаще требуют от провайдера результатов исследования валидности оценочного инструмента.

Какие значения может принимать валидность

Валидность — это коэффициент корреляции между результатами оценки и независимым критерием: мы выбираем внешний критерий и смотрим,
насколько результаты оценки ему соответствуют и насколько мы можем доверять прогнозу, который делаем по итогам оценки.

Этот коэффициент принимает значения от минус единицы до единицы. Чем выше валидность, тем выше точность прогноза. Если валидность равна нулю, значит, взаимосвязи между результатами оценки и выбранным критерием нет: количество ошибок и точных прогнозов примерно одинаково. Бывает отрицательная валидность: в этом случае прогноз по итогам оценки будет оправдываться «наоборот».

Валидность бывает нескольких видов — это зависит от внешнего критерия,
с которым сравнивают результаты проведённой оценки. Остановимся подробнее на каждом виде валидности и критериях её измерения.

Виды валидности и критерии

для её измерения

Конструктная валидность — внешним критерием становятся результаты другого инструмента оценки, который измеряет те же характеристики. К примеру, мы хотим измерить конструктную валидность мотивационного опросника: находим инструмент, которые оценивает те же факторы мотивации, и сравниваем результаты двух инструментов. Конструктная валидность показывает, насколько они соотносятся между собой.

Конкурентная валидность — сравниваем результаты оценки выбранного инструмента с показателями текущей или прошлой эффективности. Это может быть балл в системе performance management, результаты обучения, показатели продаж, коэффициент удовлетворённости клиента сервисом.

Прогностическая валидность показывает, насколько соотносятся результаты оценки и показатели будущей эффективности сотрудника. Это самые интересные для компании данные: они говорят, насколько себя оправдает прогноз по результатам оценки. Но прогностическую валидность труднее всего измерить
из-за ограничения выборки. К примеру, мы оценили 100 продавцов, у 15 из них показатели продаж оказались низкие, скорее всего, мы не сможем оценить их в следующем цикле: их уволят.

Инкрементная валидность — сравниваем, насколько повысилась корреляция
при добавлении нового инструмента в уже существующую оценочную процедуру.

Провайдеры, как правило, считают валидность так, как им удобно и выгодно.
Если из всех видов валидности инструмента самые высокие показатели у конструктной, в маркетинговых материалах укажут именно эту цифру.
Поэтому всегда уточняйте, о каком виде валидности говорит провайдер,
когда приводит показатель валидности.

Что означают показатели валидности на практике

На практике почти не встречается валидность выше 0,7. Если провайдер заявляет
эту цифру, уточните, о каком виде валидности идёт речь и как она рассчитывалась. Показатель 0,7 может быть только в том случае, если провайдер измерял валидность комбинацией разных оценочных инструментов.

	Валидность	Если выбрать 20% лучших сотрудников по итогам оценки
Нет валидности	0	4 из 20 будут в числе лучших
Средняя валидность	0,3	7 из 20 будут в числе лучших
Высокая валидность	0,6	10 из 20 будут в числе лучших

	Валидность	Если выбрать 20% лучших сотрудников по итогам оценки
Нет валидности	0	1 из 5 будет в числе худших
Средняя валидность	0,3	1 из 10 будет в числе худших
Высокая валидность	0,6	1 из 50 будет в числе худших

Посмотрим, что означают эти цифры на практике: к примеру, вы оценили 100 сотрудников и выбрали 20 лучших по итогам оценки. Если вы использовали инструмент со средней валидностью, то из выбранных 20 участников только семеро будут в числе лучших 20%.

Если же вы оценивали 100 сотрудников инструментом с высокой валидностью, то в числе 20% лучших окажутся десять из выбранных двадцати по итогам оценки. При этом результаты выше среднего покажут 17 из этих 20 сотрудников.

Если вы знаете валидность инструмента, вы можете посчитать точность прогноза, который сделаете по результатам оценки. К примеру, вы используете инструмент с валидностью 0,3. Разделите этот показатель на 2 и прибавьте 50% — получится 65%. С такой вероятностью прогноз по итогам оценки окажется достоверным,
если за 50% принять случайное угадывание.

3 уровня проверки валидности

Если вы используете инструмент оценки, у вас есть три уровня проверки
его валидности:

Во-первых, вы можете посмотреть, насколько велика валидность метода оценки. К примеру, вы покупаете у провайдера тесты способностей. Чтобы оценить их валидность, используйте мета-анализы — эта процедура объединяет показатели валидности, полученные на разных инструментах и выборках от нескольких исследователей. С их помощью вы определите среднюю валидность тестов
как метода оценки. Классическим считается мета-анализ Шмидта и Хантера 1998 года.

Во-вторых, вы можете узнать валидность инструмента — тех конкретных тестов способностей, которые вы покупаете. Эти данные вам должен предоставить провайдер.

Наконец, вы можете посмотреть, насколько конкретный инструмент валиден
для ваших задач. Чтобы посчитать валидность инструмента на ваших данных:

1. Оцените при помощи инструмента не менее 200 сотрудников одной группы должностей — это минимальная выборка. Чем больше человек вы оцените,
тем более надёжные цифры получите.

2. Выберите критерий, относительно которого будете проверять валидность. Например, оценка результативности руководителем.

3. Оцените надёжность этого критерия. Критерием могут быть объективные данные — например, показатели производительности. В этом случае его можно считать надёжным. Оценка эффективности руководителем — субъективные данные, надёжность этого критерия будет низкой.

4. Посмотрите, нет ли у вас ограничения выборки. Например, если вы используете тесты при подборе, кандидаты с низкими результатами обычно просто не попадают на работу.

5. Проверьте свои данные: насколько они полные, корректные и однородные. Если в качестве внешнего критерия вы выбрали показатели продаж, проверьте, что все данные по продажам соответствуют тому менеджеру, который продавал. Это поможет избавиться от некорректных данных: к примеру, сотрудник в отпуске, а на него записаны продажи другого.

6. Посчитайте сам показатель валидности: обычно это коэффициент корреляции или регрессии, с учётом тех поправок, которые мы упомянули выше. Для начала можно воспользоваться самыми простыми показателями. Например, коэффициентом корреляции Спирмена — его можно посчитать даже в MS Excel.

У вас получился показатель валидности конкретного инструмента на ваших данных. Он показывает, насколько достоверным будет прогноз, который вы сделаете по результатам оценки при помощи этого инструмента.

Надежность и валидность тестов

Для начала определим круг разработанности данной проблемы и кратко перечислим ученых.

Ученые, которые занимались проблемой надежности и валидности методик в психодиагностике: А. Анастази и др.

Далее рассмотрим понятие надежности и валидности методик, а также их сущность и процесс.

Надежность теста

Рассмотрим несколько видов надежности психодиагностических тестов.

Надежность по внутренней согласованности. Измененная часть теста измеряет такую переменную, которую не измеряют неизмененные части теста.
Ретестовая надежность. Повторное тестирование испытуемых с последующей корреляцией результатов начального и окончательного обследования.
Надежность параллельны форм теста. Создание эквивалента опросника и его предъявлений тем же испытуемым для последующей корреляции результатов.
Надежность частей теста можно определить, разделив опросник на части; затем провести корреляцию полученных результатов.

Рисунок 1. «Показатели надежности теста»

При выявлении надежности теста следует проводить методику через значительные временные интервалы. Также рекомендуется проводить тест на выборки не менее 200 испытуемых.

Валидность теста

Рассмотрим некоторые виды валидности тестов в психодиагностике.

Очевидная валидность. Представления испытуемого о тесте.
Конкурентная валидность. Корреляция с подобными тестами.
Прогностическая валидность. Корреляция начальных и более поздних результатов теста.
Инкрементная валидность.
Дифференциальная валидность.
Содержательная валидность. Отражение заданий тестов аспектов определенной изучаемой области.
Эмпирическая валидность. Корреляция результатов данной методики с результатами подобных методик у одних и тех же испытуемых.
Критериальная валидность. Связь полученных результатов и внешних критериев.
Конструктная валидность.

Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.

При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.

В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно сырых показателей теста. Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.

Рисунок 2. «Структура валидности»

ВАЛИДНОСТЬ ПРОЕКТИВНОЙ РИСУНОЧНОЙ МЕТОДИКИ «ДОМ-ДЕРЕВО-ЧЕЛОВЕК» ПРИ ДАГНОСТИКЕ ПСИХОСОМАТИЧЕСКИХ НАРУШЕНИЙ | Опубликовать статью ВАК, elibrary (НЭБ)

ВАЛИДНОСТЬ ПРОЕКТИВНОЙ РИСУНОЧНОЙ МЕТОДИКИ «ДОМ-ДЕРЕВО-ЧЕЛОВЕК» ПРИ ДАГНОСТИКЕ ПСИХОСОМАТИЧЕСКИХ НАРУШЕНИЙ

Научная статья

Кочуров М.Г.*

ORCID: 0000-0003-1071-8721,

Кировский государственный медицинский университет Минздрава России, Киров, Россия

* Корреспондирующий автор (kochurov[at]vsei.ru)

Аннотация

Рассматриваются особенности проективных рисуночных методик, специфика их применения. Обозначены проблемы валидности проективных методик. Приводятся данные эмпирического исследования на выборке психосоматических больных и здоровых испытуемых с использованием рисунка человека из рисуночной методики «Дом-Дерево-Человек». Сравнивались показатели рисунков психосоматических больных и здоровых испытуемых, анализировались совпадения показателей рисунков с медицинским диагнозом. Рисунок человека из проективной методики «Дом-Дерево-Человек» обладает приемлемой экспертной валидностью у женщин и низкой экспертной валидностью у мужчин при диагностике ряда психосоматических заболеваний.

Ключевые слова: проективные рисуночные методики, валидность проективных рисуночных методик, методика «Дом-Дерево-Человек», валидность методики «Дом-Дерево-Человек», психологическая диагностика психосоматических нарушений.

THE VALIDITY OF THE “HOUSE-TREE-PERSON” PROJECTIVE TEST IN THE DIAGNOSIS
OF PSYCHOSOMATIC DISORDERS

Research article

Kochurov M. G.*

ORCID: 0000-0003-1071-8721,

Kirov State Medical University of the Ministry of Health of the Russian Federation, Kirov, Russia

* Corresponding author (kochurov[at]vsei.ru)

Abstract

The study examines the features of projective drawing techniques and the specifics of their application as well as identifies the problems of validity of the examined methods. The authors provide data of an empirical study on a sample of psychosomatic patients and healthy test subjects using a drawing of a person from the “House-Tree-Person” drawing test. The study compared the indicators of the drawings of psychosomatic patients and healthy subjects and analyzed the coincidence of the drawing indicators with a medical diagnosis. The drawing of a person from the “House-Tree-Person” projective test has acceptable expert validity in women and low expert validity in men in the diagnosis of a number of psychosomatic diseases.

Keywords: projective drawing techniques, validity of projective drawing techniques, “House-Tree-Person” technique, validity of “House-Tree-Man” technique, psychological diagnostics of psychosomatic disorders.

Проективные методики являются специфической, неоднородной группой психодиагностических методов. Они не столько направлены на выявление каких-либо аномалий личности, сколько способны прогнозировать индивидуальный стиль поведения, субъективные переживания и эмоциональное реагирование в значимых или конфликтных ситуациях, а также выявлять неосознанные аспекты личности.

Понятие проекции для выделения определенного типа психологических методик впервые употребил Л. Франк в 1939 г. Он определил ключевые принципы, определяющие проективный подход в исследовании личности. Франк подчеркивает то, что стимулы в проективных методиках не бывают строго однозначными, а допускают различную интерпретацию [2], [9].

При большом разнообразии рисуночных методов, и частоте их использования, существует и ряд ограничений:

а) практически используется незначительное количество вариантов заданий и тем изображения;

б) в практической работе психологов недостаточно внимания уделяется проверке результатов на валидность и надежность получаемых данных и их интерпретаций.

Анализ рисунка позволяет лучше познать психологию людей, которая интересна тогда, когда человек развивается, когда хочет прийти к определенным результатам в жизни. Рисунок дает возможность понять, насколько многогранен и многозначен сам человек, каковы его возможности самосовершенствования. Каждый рисунок имеет множество трактовок, толкований и интерпретаций.

Существует довольно много проективных рисуночных методик, используемых в психодиагностике. Это методики «Нарисуй человека» Ф. Гудинаф, «Дерево» К. Коха, «Дом-дерево-человек» Д. Бука, рисунок семьи В. Вульфа. Из отечественных методик следует отметить известную методику «Несуществующее животное» М.З. Друкаревич
[2], [3], [13].

Однако, рисуночные методики, как и проективные методики вообще критикуются многими авторами (Р. Кэттелл, А. Анастази и др.) за недостаточную надежность и валидность. Соответственно, рекомендуется не делать окончательных выводов о психологических особенностях субъекта на основе одних лишь рисуночных методик. Предполагается, что рисуночные методики дают основания для предположений, но не для однозначных суждений. Окончательное заключение может быть вынесено лишь при сопоставлении информативных особенностей рисунка с другими данными. Также считается, что анализ не должен основываться на отдельных признаках рисунка, что интерпретация должна основываться не на 1 отдельном признаке, а поддержана 2-3 признаками, критериями в рисунках [6], [10], [11].

Валидность теста – это то, что тест измеряет и насколько хорошо он это делает. В психодиагностике валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы с помощью методики, о степени обоснованности выводов. Валидность – наиболее важная часть сведений о методике, включающая данные о согласованности результатов теста с данными, полученными из иных источников, суждение об обоснованности прогноза по измеряемому качеству, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами [1].

Таким образом, в понятие валидность входит большое количество информации о тесте. Различные категории этих сведений и способы их получения приводят к различным видам валидности [2], [9].

При изучении валидности проективных методик чаще всего используются эмпирические критерии. В одних случаях, это сравнение данных по тесту у групп, имеющих или не имеющих отклонений (диагноза). В других случаях используется поиск соответствий, т.е. сравнение полученных тестом данных с данными этих же испытуемых, полученными из историй болезни, психиатрических интервью, протоколов поведенческих наблюдений. Ряд исследований относились к прогностической валидности с использованием критериев успеха в специализированных программах обучения, эффективности труда, эффективности психотерапии. В целом, данные по валидности рисуночных методик, не позволяют сделать однозначных выводов [6], [10], [11].

Дж. Бук, автор методики «Дом-Дерево-Человек», предлагал несколько способов повышения надежности и валидности результатов методики: оценки экспертов (специалистов), результаты других методик, оценки референтных знакомых испытуемых, результаты наблюдений [11].

Проблемой при анализе валидности рисуночных методик является оцифровка показателей оценки рисунков и симптомокомплексов. При переводе показателей, особенностей (как основных, так и дополнительных) рисунков в цифры для статистического анализа, все равно на их оценку влияет субъективность исследователя, осуществляющего этот перевод.

В отечественной психологии проблема валидности проективных рисуночных методик анализировалась Д.В. Скрипкой, Е.С. Романовой и др. [10], [11]. Предлагается использовать экспертные оценки, шкалирование и стандартизированные личностные опросники, имеющие высокую валидность. Тем не менее, конкретных цифровых данных по валидности рисуночных методик не приводится.

В зарубежной психологии имеется ряд работ по надежности и валидности методики. Так, в исследовании, проведенном в Гонконге, с использованием модификации методики – «Кинетический Дом-Дерево-Человек» (автор модификации Р. Бернс) проводился анализ валидности методики методом экспертных оценок. Коэффициент внутриклассовой корреляции между экспертами составил 0,76. По результатам исследования сделаны выводы о приемлемой валидности методики [16].

В исследовании, проведенном в Малайзии, также использовалась экспертная оценка результатов методики. 15 экспертных групп оценивали валидность результатов методики. Средние значения экспертных оценок составили 88,3% [15]. Исследований по валидности методики на выборке психосоматических больных, ни в отечественной, ни в зарубежной литературе не обнаружено.

По данным ВОЗ, от 38 до 42% всех пациентов, посещающих кабинеты соматических врачей, относятся к группе психосоматических больных. Любое психосоматическое заболевание является свойством человеческого организма как системы. Оно объясняется взаимодействием ряда подсистем организма, приводящим к такому нарушенному состоянию или даже болезни.

Патогенез психосоматических расстройств определяется рядом причин, в том числе и социально-психологическими факторами, такими как: личностные особенности, психические состояния во время действия психотравмирующих событий, неблагоприятные семейные и социальные факторы. Эти факторы делают человека более уязвимым к специфическим травмирующим стрессовым воздействиям, облегчают возникновение и утяжеляют течение соматических нарушений [4], [5], [8].

Использование проективных методик может дополнять результаты клинических исследований, более точно представлять внутреннюю картину болезни и телесного образа «Я» [11], [14].

Эмпирическое исследование

Для изучения валидности проективных рисуночных методик нами было проведено эмпирическое исследование жителей г. Кирова, обратившихся за медицинской помощью в лечебное учреждение (Частное учреждение здравоохранения «Отделенческая клиническая больница на станции Киров ОАО «РЖД»», город Киров).

В исследовании приняли участие 124 испытуемых: экспериментальная группа – психосоматические больные: 64 человека (30 мужчин и 34 женщины в возрасте 30-40 лет) и контрольная группа – здоровые люди (не имеющие диагноза и жалоб): 60 человек (30 мужчин и 30 женщин) в возрасте 30-40 лет (случайная выборка).

Все испытуемые экспериментальной группы имеют определенный медицинский диагноз, поставленный врачами. Данный диагноз и выступал в качестве критерия экспертной валидности (экспертной оценки).

В процессе проведения исследования использовался рисунок человека из проективной рисуночной методики «Дом-Дерево-Человек» [11], [12].

Автор методики – Дж. Бук (первая публикация – 1940 г., два полных руководства – в 1948 и 1966 гг.). Предлагается нарисовать дом, дерево и человека. Затем проводится опрос по разработанному плану (список из 64 вопросов). Методика предназначена как для взрослых, так и для детей.

Для определения экспертной валидности методики при диагностике психосоматических больных, было проведено сравнение результатов рисунка человека из методики «Дом-Дерево-Человек» с медицинским диагнозом испытуемых. Рисунок человека был выбран из-за того, что он наиболее информативен для данной выборки испытуемых (для лиц с психосоматическими нарушениями), чем рисунки дома и дерева. Испытуемые предоставили информацию о своих медицинских диагнозах и выполнили рисуночную методику. Рисунок выполнялся простым карандашом средней мягкости.

Показателями (критериями) выступали 3 формальных показателя рисунков диагностируемые наиболее четко и однозначно [11], [13], [14]:

1) штриховые линии (штриховка) деталей, частей тела;

2) выделение (акцентирование) деталей на частях тела;

3) разрывы в линиях рисунков на частях тела.

Проводился как анализ результатов в целом по выборке и по половым подвыборкам.

При сравнении рисунков психосоматических больных со здоровыми испытуемыми по частоте встречаемости диагностических показателей рисунков использовался непараметрический U-критерий Манна-Уитни. Анализ проводился по количеству указанных выше критериев в рисунках (штриховка, выделение, разрывы) в рисунках групп испытуемых.

Результаты статистического анализа по группам испытуемых с использованием U-критерий Манна-Уитни приведены в табл. 1-3.

Таблица 1 – Результаты сравнения частоты показателей рисунка человека:

контрольная и экспериментальная группы без учета пола

Показатель	Среднее количество формальных показателей (психосоматические больные)	Среднее количество формальных показателей (здоровые)	U – критерий
Сумма критериев	0,81	0,42	2,7**

Примечание: **p<0,01.

Таблица 2 – Результаты сравнения частоты показателей рисунка человека: экспериментальная группа

Показатель	Среднее количество формальных показателей. Мужчины	Среднее количество формальных показателей. Женщины	U – критерий
Сумма критериев	0,47	1,1	284,0**

Примечание: **p<0,01.

Таблица 3 – Результаты сравнения частоты показателей рисунка человека: контрольная группа

Показатель	Среднее количество формальных показателей. Мужчины	Среднее количество формальных показателей. Женщины	U – критерий
Сумма критериев	0,37	0,46	414,5

Выявлена значимая разница в частоте встречаемости диагностических показателей между группами психосоматических больных и здоровых испытуемых без учета пола (табл. 1), Психосоматические больные в рисунках человека чаще используют штриховку, выделение и разрывы, чем здоровые испытуемые.

Выявлена значимая разница в частоте встречаемости диагностических показателей у психосоматических больных между мужчинами и женщинами (табл. 2). Женщины в рисунках человека чаще используют штриховку, выделение и разрывы, чем мужчины.

Значимых различий в частоте встречаемости диагностических показателей у здоровых испытуемых между мужчинами и женщинами не выявлено (табл. 3).

Результаты качественного анализа по показателям рисунка человека из методики «Дом-Дерево-Человек» у соматических больных приведены в таблицах 4 и 5.

Таблица 4 – Результаты качественного рисунка человека: женщины

Медицинский диагноз	Показатели в рисунках	Процент больных, имеющих показатели в рисунках
Хроническая ангина. Хронический ларингит. Хронический отит.	Штриховка шеи, разрыв на линии шеи.	66,7
Бесплодие. Кровотечения маточные.	Нижняя часть туловища заштрихована.	80,0
Мастопатия.	Жирной линией выделена грудь.	66,7
Хронический гастрит	Фигура сужена в талии, штриховка всей фигуры.	100
Мигрень.	Разрыв при рисовании линии головы.	50,0
Остеохондроз.	Разрыв между головой и телом, штриховка всей фигуры.	50,0
Гипертония.	Голова нарисована жирной линией с разрывом, разрывы на линии головы.	100
Бронхиальная астма.	Фигура нарисована слабой штриховой линией.	50,0
Миома. Киста яичника.	Отсутствуют.	–

Таблица 5 – Результаты качественного анализа рисунка человек: мужчины

Медицинский диагноз	Показатели в рисунках	Процент больных, имеющих показатели в рисунках
Гипертония.	Разрыв линии между головой и телом.	50,0
Остеохондроз.	Разрыв между головой и телом, выделение шеи.	50,0
Экзема.	Штриховка рук и ног.	50,0
Бронхиальная астма.	Штриховка шеи и груди.	50,0
Хронический гастрит.	Штриховка всей фигуры.	33,3
Псориаз. Язва 12-перстной кишки. Простатит. Язва кишечника. Диабет. Язвенный колит. Нейродермит.	Отсутствуют.	–

Полученные результаты показывают, что ряд заболеваний не отражается в рисунках ни у мужчин, ни у женщин: это заболевания ЖКТ (нарушения ЖКТ, язва 12-перстной кишки, язва кишечника, язвенный колит, диабет), кожные заболевания (псориаз, нейродермит), ряд гинекологических заболеваний (миома, киста), простатит (табл. 4 и 5). Рисунок человека в отношении данных заболеваний слабо информативен.

Общие результаты качественного анализа рисунка человека из методики «Дом-Дерево-Человек» по соматическим больным приведены в таблице 6. Считалось количество совпадений показателей рисунка человека с имеющимся заболеванием.

Таблица 6 – Общие результаты качественного анализа рисунка человека

Группы	Совпадение с диагнозом (%)
Вся психосоматические больные	54,7%
Мужчины	36,7%
Женщины	70,6%

Значения экспертной валидности (экспертной оценки) по рисунку человека в целом по выборке соматических больных составляет 54,7%. У женщин показатель выше (70,6%), чем у мужчин (36,7%) (табл. 6),

Объяснение более низких результатов у мужчин, соматических больных:

– мужчины в целом хуже выполняют рисунки, особенно рисунок человека, часто фигуру изображали в виде палочек или карикатур, со слабой детализацией, что малоинформативно для анализа психосоматических нарушений;

– в отличие от женщин, у мужчин встречались изображения фигуры человека в виде карикатуры, что может говорить об их потребности в самозащите, о проблемах в самовыражении;

– женщины более ответственно и открыто выполняют рисунок, интересуются результатами, испытывают желание поделиться своими переживаниями; мужчины же выполняют рисунок достаточно формально.

При анализе совпадений наличия диагноза с наличием соответствующих показателей в рисунках соматических больных использовался непараметрический Q-критерий Кохрена. Результаты анализа приведены в таблице 7.

Таблица 7 – Результаты анализа совпадений показателей рисунка человека с медицинским диагнозом

Группы	Совпадение с диагнозом. Значение Q-критерия
Вся психосоматические больные	29,0***
Женщины	19,0***
Мужчины	10,0**

Примечание: **p<0,01; ***p<0,001.

Результаты статистического анализа свидетельствуют, что совпадения показателей в рисунках с наличием медицинского диагноза неслучайны и статистически значимы (табл. 7).

Заключение

Проведенное исследование позволяет сделать следующие выводы:

Рисунок человека из проективной методики «Дом-Дерево-Человек» обладает приемлемой экспертной валидностью для диагностики ряда психосоматических заболеваний у женщин и низкой экспертной валидностью для диагностики ряда психосоматических заболеваний у мужчин.
Рисунок человека из проективной методики «Дом-Дерево-Человек» не диагностирует ряд психосоматических заболеваний: заболевания ЖКТ, кожные заболевания, ряд гинекологических заболеваний (миома, киста), простатит.
При анализе результатов рисуночных проективных методик следует учитывать половые различия. Рисунки женщин более информативны и валидны, чем рисунки мужчин.

Полученные данные могут использоваться психологами в области медицинской психологии, в психологическом консультировании и других областях, где используются проективные рисуночные методики.

Конфликт интересов

Не указан.

Conflict of Interest

None declared.

Список литературы / References

Анастази А. Психологическое тестирование / А. Анастази, С. Урбина. – СПб.: Питер, 2009. – 688 с.
Бурлачук Л. Ф. Словарь-справочник по психодиагностике / Л. Ф. Бурлачук, С. М. Морозов. – СПб.: Питер, 2007. – 685 с.
Венгер А. Л. Психологические рисуночные тесты / А. Л. Венгер. – М.: ВЛАДОС-ПРЕСС, 2003. – 160 с.
Клиническая психология и психотерапия / Под ред. Перре М., Бауманна У. – СПб., 2012. – 1312 с.
Курпатов А. Пространство психосоматики / А. Курпатов. – М., 2006. – 192 с.
Перевозкин С. Б. Проблема валидности проективных методов с исследовании личности / С. Б. Перевозкин, Ю. М, Перевозкина // Наука и образование в современном обществе: сборник материалов Всероссийской научно-практической конференции. г. Новосибирск / Новосибирский институт повышения квалификации и переподготовки работников образования, Филиал Московского педагогического государственного университета в г. Новосибирске, Региональная некоммерческая организация ассоциация учреждений повышения квалификации работников образования Сибирского Федерального округа. – Новосибирск, 2008. – С. 173-182.
Потемкина О. Ф. Психологический анализ рисунка и текста / О. Ф. Потемкина, Е. В, Потемкина. – СПб.: Речь, 2006. – 524 с.
Психосоматика / Сост. Сельченок К. В. – М.: Харвест, 2005. – 640 с.
Психологическая диагностика / Под ред. Гуревич К. М., Борисовой Е. М. – М.: УРАО, 2000 – 304 с.
Романова Е. С. Графические методы в практической психологии: учебное пособие / Е. С. Романова. – М.: Аспект Пресс, 2011. – 400 с.
Семенова З. Ф. Психологические рисуночные тесты. Методика «Дом–Дерево–Человек» / З. Ф. Семенова, С. В. Семенова. – М. АСТ; СПБ.: Сова, 2007. – 190 с.
Соколова Е. Т. Психологическое исследование личности. Проективные методики / Е. Т. Соколова. – М.: ТЕИС, 2002. – 150 с.
Шапарь В. Б. Практическая психология. Проективные методики / В. Б. Шапарь, О. В. Шапарь. – РнД: Феникс, 2006. – 480 с.
Штрахова А. В. Телесный образ «Я» и его границы у больных с атипичными дерматитами. Сообщение 2 / А. В. Штрахова., А. Р. Хартисова // Вестник Южно-Уральского государственного университета. Серия: Психология. – 2014. – Т. 7. – № 1. – С. 102-112.
Arip, M. A. Development, Validity and Reliability of the Art Drawing House-Tree-Person (AD-HTP) Module among the Counselors in Malaysia / M. A. S. M. Arip, M. R. A. Shahim, N. S. Husin // Journal of Academic Research in Business and Social Sciences. – № 8(10). – October 2018. – P. 676–691. doi.org/10.6007/IJARBSS/v8-i10/4772
Chih-Ying Lia A Psychometric Study of the Kinetic-House-Tree-Person Scoring System for People with Psychiatric Disorders in Taiwan / Lia Chih-Ying, Chungb LyInn, Hsiungc Ping-Chuan, Chend Tsyr-Jang, Liue Shu-Kai, Panfg. // Hong Kong Journal of Occupational Therapy. – Vol. 24. – Is. 1. – June 2014. – P. 20-27. doi.org/10.1016/j.hkjot.2014.03.001

Список литературы на английском языке / References in English

Anastasi A. Psihologicheskoe testirovanie [Psychological testing] / A. Anastasi, S. Urbina. – St. Petersburg: Piter, 2009. – 688 p. [in Russian]
Burlachuk L. F. Slovar-spravochnik po psihodiagnostike [The Dictionary-directory on psychological diagnostics] / L. F. Burlachuk, S. M. Morozov. – St. Petersburg: Piter, 2007. – 685 p. [in Russian]
Wenger A. L. Psihologicheskie risunochnye testy [Psychological drawing tests] / A. L. Wenger. – Moscow: Vlados-press, 2003. –160 p. [in Russian]
Klinicheskaja psihologija i psihoterapija [Clinical psychology and psychotherapy] / Ed. Perret M., Baumann U. – St. Petersburg, 2012. – 1312 p. [in Russian]
Kurpatov A. Prostranstvo psihosomatiki [Spatial psychosomatics] / A. Kurpatov. – M., 2006. – 192 p. [in Russian]
Perevozkin S. B. Problema validnosti proektivnyh metodov s issledovanii lichnosti [The problem of validity of projective methods with the study of personality] / S. B. Perevozkin, Yu. M. Perevozkina // Nauka i obrazovanie v sovremennom obshhestve: sbornik materialov Vserossijskoj nauchno-prakticheskoj konferencii [Science and education in modern society: collection of materials of the All-Russian scientific-practical conference] g. Novosibirsk / Novosibirskij institut povyshenija kvalifikacii i perepodgotovki rabotnikov obrazovanija, Filial Moskovskogo pedagogicheskogo gosudarstvennogo universiteta v g. Novosibirske, Regional’naja nekommercheskaja organizacija associacija uchrezhdenij povyshenija kvalifikacii rabotnikov obrazovanija Sibirskogo Federalnogo okruga [Novosibirsk Institute for Advanced Studies and Retraining of Educators, Branch of the Moscow Pedagogical State University in Novosibirsk, Regional Non-Commercial Organization Association of Advanced Training Institutions for Educators of the Siberian Federal District]. – Novosibirsk, 2008. – pp. 173-182. [in Russian]
Potemkina O. F. Psihologicheskij analiz risunka i teksta [Psychological analysis of drawing and text] / O. F. Potemkina, E. V., Potemkina. – St. Petersburg: Rech, 2006. – 524 p. [in Russian]
Psihosomatika [Psychosomatics] / Sost. Selchenok K. V. – M.: Harvest, 2005. – 640 p. [in Russian]
Psihologicheskaja diagnostika [Psychological diagnostics] / Ed. Gurevich K. M., Borisov E. M. – M.: Urao, 2000. – 304 p. [in Russian]
Romanova E. S. Graficheskie metody v prakticheskoj psihologii: uchebnoe posobie [Graphic methods in practical psychology: a tutorial] / E. S. Romanova. – M.: Aspect Press, 2011. – 400 p. [in Russian]
Semenova Z. F. Psihologicheskie risunochnye testy. Metodika «Dom–Derevo–Chelovek» [Psychological drawing tests. Methodology «House-Tree-Man»] / Z. F. Semenova, S. V. Semenova. – M., 2007. – 190 p. [in Russian]
Sokolova E. T. Psihologicheskoe issledovanie lichnosti. Proektivnye metodiki [Psychological research of personality. Projective techniques] / E. T. Sokolova. – M.: TEIS, 2002. – 150 p. [in Russian]
Shapar V. B. Prakticheskaja psihologija. Proektivnye metodiki [Practical psychology. Projective techniques ] / V. B. Shapar, O. V. Shapar. – RnD: Phoenix, 2006. – 480 p. [in Russian]
Shtrakhova A. V. Telesnyj obraz «Ja» i ego granicy u bol’nyh s atipichnymi dermatitami. Soobshhenie 2 [The bodily image of the “I” and its boundaries in patients with atypical dermatitis. Communication 2] / A. V. Shtrakhova., Khartisova A. R. // Vestnik Juzhno-Ural’skogo gosudarstvennogo universiteta. Serija: Psihologija [Bulletin of the South Ural State University. Series: Psychology]. – 2014. – T 7. – № 1. – P. 102-112. [in Russian]
Arip, M. A. S. M. Development, Validity and Reliability of the Art Drawing House-Tree-Person (AD-HTP) Module among the Counselors in Malaysia / M. A. S. M. Arip, M. R. A. Shahim, N. S. Husin // Journal of Academic Research in Business and Social Sciences. – № 8(10). – October 2018. – P. 676–691. doi.org/10.6007/IJARBSS/v8-i10/4772
Chih-Ying Lia A Psychometric Study of the Kinetic-House-Tree-Person Scoring System for People with Psychiatric Disorders in Taiwan / Lia Chih-Ying, Chungb LyInn, Hsiungc Ping-Chuan, Chend Tsyr-Jang, Liue Shu-Kai, Panfg. // Hong Kong Journal of Occupational Therapy. – Vol. 24. – Is. 1. – June 2014. – P. 20-27. doi.org/10.1016/j.hkjot.2014.03.001

Определение валидности теста

Занятие. Определение валидности теста
Вводные замечания
Валидность – комплексная характеристика, включающая сведения о том, пригодна ли методика для измерения того, для чего она была создана, и какова её действенность, практическая полезность. Соответственно, процесс проверки валидности (валидизация) в первом случае называется теоретической валидизацией, а во втором – прагматической валидизацией. Если показатели надёжности и дискриминативности могут быть вычислены определённо и однозначно, то установление валидности – гораздо более разносторонняя и менее однозначная процедура.

Существует множество различных типов валидности, основными из которых являются: валидность по содержанию, а также критериальная, конкурентная, конструктная, инкрементная и дифференциальная валидности. Эти типы валидности подробно рассмотрены в учебном пособии [38]. Настоящее занятие посвящено определению критериальной валидности теста.
Критериальная валидность – это способность теста дифференцировать испытуемых по изучаемому признаку. В качестве таких признаков могут выступать познавательные процессы, способности, личностные характеристики. Критериальная валидность определяется по результатам вычисления коэффициента корреляции между результатами тестирования с экспертными оценками по соответствующим критериям.
В таблице 9.4.1 представлены результаты диагностики социального интеллекта выборки студентов-психологов с помощью методики Гилфорда-Салливэна, а также усреднённые экспертные оценки проявлений социального интеллекта в различных видах интерперсонального взаимодействия. Эти данные будут использованы для изучения технологии определения критериальной валидности.

1	2	3	4	5	6	7	8	9	10	11	12	13
9	11	8	4	32	4,9	5,5	5,3	5,1	4,9	4,9	4,7	35,3
13	11	11	6	41	4,77	5,46	4,54	5,15	5,54	5,08	4,62	35,16
11	9	8	3	31	4,8	5,6	5,5	5	4,8	4,5	4,9	35,1
9	10	9	8	36	4,77	5	4,92	5	4,54	4,92	4,77	33,92
12	10	11	5	38	4,38	4,92	4,54	5,62	4,46	5,08	4,77	33,77
10	8	8	3	29	4,6	4,7	5,5	4,9	4,6	4,5	4,8	33,6
13	9	9	6	37	5,1	5,2	4,9	5	4	4,8	4,5	33,5
12	8	9	8	37	4,4	4,6	4,9	5	4,9	4,8	4,3	32,9
13	8	7	5	33	4,54	4,85	4,77	5	4,54	4,31	4,54	32,55
13	7	10	7	37	4,1	5,3	4,9	5,2	4,1	4,6	4,2	32,4
11	9	10	5	35	3,77	4,85	4,54	4,46	5,15	4,54	4,54	31,85
7	9	9	7	32	4,15	4,69	4,46	4,69	4,77	4,62	4,38	31,76
12	6	9	6	33	3,9	4	5	4,9	4,8	4,3	4,4	31,3
12	7	8	7	34	4,1	4,3	4,7	4,7	4,8	4,4	4,1	31,1
10	7	8	7	32	4,2	4,3	5	4,9	3,9	4,4	4,4	31,1
11	10	10	7	38	4,1	4	5	4,7	3,8	4	4,4	30
14	7	8	4	33	4,15	4	4,31	4,08	4,38	4,08	4,23	29,23
13	10	11	6	40	3,62	4,08	3,92	4	4,54	4,08	4,08	28,32
8	6	8	4	26	3,7	3,5	4,3	4,5	4,6	3,8	3,8	28,2
13	9	9	3	34	2,6	4,3	3,9	3,6	5	3,4	3,9	26,7
					2,77	4,23	3,46	3,15	1,85	3,15	3,31	21,92

Порядок работы

Изучив содержание субтестов методики Гилфорда-Салливэна и содержание критериев оценки социального интеллекта (см. табл. 9.4.1), выбрать для каждого субтеста наиболее подходящий внешний критерий.
Вычислить коэффициенты ранговой корреляции Спирмена между результатами диагностики социального интеллекта по каждому из субтестов с соответствующими экспертными оценками.
Вычислить коэффициент корреляции между композитной оценкой по тесту с суммарной экспертной оценкой.
Сделать вывод о критериальной валидности субтестов (выбрав по результатам вычислений более адекватный данному субтесту критерий), а также теста в целом.
Отчёт должен включать а) обоснование выбора внешнего критерия для каждого субтеста; б) результаты вычисления коэффициентов корреляции; в) обоснованные выводы о критериальной валидности субтестов и теста в целом.

Приложение к занятию. Алгоритм расчёта коэффициента ранговой корреляции Спирмена

Проранжировать значения переменной Х, приписывая меньшему значению меньший ранг. Занести в таблицу полученные значения рангов Rx.
Поступить также со значениями переменной Y.
Подсчитать разности dмежду рангами Rx и Ry. Внести полученные результаты в соответствующий столбец таблицы.
Возвести каждую разность в квадрат и заполнить следующий столбец таблицы. Подсчитать сумму квадратов.

5. При наличии одинаковых рангов рассчитать поправки:
Тх = ∑(а3 — а) /12 ; Ту = ∑(b3 —b) /12, где а – объём каждой группы
одинаковых рангов в ряду Х; b– объём каждой группы одинаковых рангов в ряду Y.

Критические значения для объёма выборки п = 27 равны 0,38 (р = 0,05) и 0,48 (р = 0,01).

Источник: Леонова Е. В. Эмпирические методы психологического исследования: Учебное пособие. – М.: НИЯУ МИФИ, 2014. – 324 с.

Научное обоснование методики | Happy Job

О Happy Job

Платформа Happy Job — удобное решение для измерения вовлеченности и лояльности вашего персонала.

Мы создаем продукт, который помогает менять корпоративную культуру к лучшему. Благодаря данным, которые вы получите, работая с Happy Job, вы сможете своевременно устранять проблемы в компании и улучшать рабочую среду. Постоянная работа в этой области ведет к процветанию компании — ведь счастливые, вовлеченные сотрудники работают усерднее, дольше остаются с работодателем и достигают лучших результатов.

В основе нашего продукта — современные digital-технологии, благодаря которым процесс измерения вовлеченности персонала стал точным и простым для пользователей.

××

Научный подход в исследованиях Happy Job

Качество результата — наш приоритет. Поэтому, создавая методику Happy Job, мы детально изучили факторы, влияющие на достоверность итоговых данных. Одним из них стала когнитивная нагрузка на респондентов опроса.

Теория когнитивной нагрузки

Когнитивная нагрузка — объем усилий, которые нужно потратить при решении определенной задачи.

Теория когнитивной нагрузки была создана австралийским педагогом-психологом Джоном Свеллером в 1988 году. Он предложил идею, согласно которой метод подачи информации влияет на объем умственных усилий, необходимых для ее усвоения.

Ресурс человеческого мозга не бесконечен. При решении любых задач — повседневных, академических или рабочих — мы испытываем когнитивную нагрузку. С ее увеличением возрастает вероятность ошибки при выполнении заданий. В таких ситуациях людям сложнее усваивать информацию, принимать решения и оставаться объективными.

Как ведет себя респондент при высокой когнитивной нагрузке?

Исследования удовлетворенности персонала подчиняются тем же правилам: чем сложнее опрос, тем больше усилий сотрудники тратят на его выполнение. При этом на объем когнитивной нагрузки влияют как сама анкета, так и окружение человека: шум в офисе, состояние устройства, на котором он проходит тест и так далее.

Высокий уровень когнитивной нагрузки ставит под сомнение результат опроса. Во-первых, заполняя сложные анкеты, респонденты теряют концентрацию и чаще ошибаются. Во-вторых, у них падает мотивация заканчивать начатое. Из-за этого участники часто выбирают ответы, которые подходят критериям вопроса, но не отражают реального мнения по заданной теме. В итоге полученные данные не показывают реальной картины настроений в компании.

Ниже подробнее рассмотрим факторы, которые влияют на когнитивную нагрузку человека при прохождении опросов.

Восприятие информации респондентом

Современный человек ежедневно потребляет огромное количество информации. По оценке профессора Мартина Гилберта и его команды из университета Южной Калифорнии, мы ежедневно получаем столько информации, сколько поместилось бы в 170+ печатных изданиях.

Чтобы ориентироваться в этом потоке и снизить когнитивную нагрузку, наш мозг научился выделять главную информацию, а ненужную — блокировать. Так, например, мы научились не замечать рекламу в социальных сетях или быстро находить ключевые фразы в громоздких текстах.

Эта способность мозга включается и при прохождении опросов. Крупные, монотонные анкеты с косноязычной формулировкой вопросов плохо воспринимаются респондентами. Их внимательность уменьшается, задание воспринимается формально. Заполнение опроса кажется ненужной работой, которую следует завершить как можно скорее.

«Клиповая культура» и когнитивная нагрузка

Обилие информации и появление новых методов ее передачи (Интернет, видео и др.) способствовали возникновению феномена, получившее название «клиповая культура».

Его название происходит от английского слова «clip» — «отрезок», «фрагмент». Главная идея клипового сознания говорит о формировании принципиально новых типов мыслительных процессов в условиях информационного общества. Носители клипового мышления воспринимают мир через отдельные яркие и запоминающиеся моменты, а не целостно, как при традиционном мышлении.

Данный тренд нужно принимать во внимание, выбирая длину и формат опроса. Громоздкие анкеты старого типа устарели — большинству респондентов сложно сохранять концентрацию и усидчивость при работе с ними.

Применимость теории когнитивной нагрузки при составлении онлайн опросов

Традиционный подход vs Happy Job

Традиционные методы исследования вовлеченности персонала создавались без учета влияния когнитивной нагрузки на участников. Как правило такие опросники объемные и состоят из однотипных задач, а на их прохождение требуется много времени. В связи с этим пользователи подобных методов сталкиваются с проблемами, которые не всегда могут предусмотреть:

Однотипность утверждений и структуры приводят к формальным, поверхностным ответам.
Объемные и традиционные вопросы утомляют. К концу опроса человек становится невнимательным и хочет закончить как можно скорее, выбирая ответы наобум.
Из-за большого количества однотипных вопросов у испытуемых вырабатывается установка на ответ. Например, если на первые три вопроса они выбрали вариант «абсолютно согласен», то и на последующие они ответят аналогично.
Шкала Ликерта — инструмент, который часто используется в классических опросах, подвергается критике за низкий коэффициент дискриминативности: это значение опускается до 0,3. Это связано с тем, что вопросы, которые сопровождаются шкалой Ликерта, часто имеют более «предпочтительный» вариант ответа. Из-за этого респонденты склонны давать социально-ожидаемые ответы вместо того, чтобы поделиться реальными мыслями.
Позитивный вариант ответа, как правило, стоит на одном и том же месте, и респонденты, используя шкалу Ликерта, выбирают его механически, не задумываясь о сути вопроса.
Респонденты избегают абсолютных показателей и предпочитают отвечать нейтрально. Существует мнение, что наличие нейтральной точки в исследованиях — пустая трата сил и времени. В лучшем случае эта информация не будет иметь большой ценности, в худшем — приведет к искажению результатов.
Обратная крайность — респонденты всегда выбирают абсолютные показатели при ответе. Это сказывается на точности результата.
Альфа Кронбаха — индекс, который используется при построении и проверке надежности тестов. В традиционных опросах этот показатель опускается ниже 0,5. Это говорит о низкой достоверности подобных тестов.
Респонденты показывают «видимую лояльность», выбирая вариант ответа, который кажется более предпочтительным с точки зрения работодателя.

Команда Happy Job модернизировала устаревшие способы проведения опросов среди персонала. Для достижения максимальной эффективности тестов мы придерживаемся определенных стандартов:

Однозначность интерпретации

Формулировки должны быть точными и понятными. Мы избегаем объемных вопросов и сложных терминов, смысл которых непонятен с первого прочтения более 10% респондентов.

Вопросы поддерживаются визуальными элементами, разработанными с учетом последних знаний о технологиях и принципах взаимодействия человека с интерфейсами. При создании платформы специалисты Happy Job использовали ментальные конструкции и модели понятные каждому с детства. Это помогло добиться ясности формулировок вопросов для максимального количества респондентов.

Объем и продолжительность

Исследования Happy Job показали, что ежегодные анкеты о вовлеченности персонала не должны занимать более 7 минут на заполнение. Анкеты, на которые нужно потратить больше времени, дают неточные результаты.

В пульс-опросы оптимально включать от 5 до 12 вопросов. Это оптимальное число для поддержания максимальной концентрации и вовлеченности персонала.

Надежность исследования

Надежность исследований Happy Job была доказана опытным путем. Мы проанализировали ответы 4 780 респондентов, выбранных случайный образом из нашей базы данных. В выборку вошли представители разных отраслей и регионов. Результат, вычисленный с помощью альфы Кронбаха, показал среднюю надежность в 0,94 при общепринятом пороге в 0,7 (Результат исследования по протоколу №54С4 от 02. 07.2016 года в составе 11 членов комиссии).

Визуальная составляющая

Приятный дизайн, вовлекающая анимация, эмодзи и другие элементы помогают добиться большего погружения в процесс прохождения опроса.

Разнообразие форматов

Когнитивная нагрузка уменьшается, когда информация воспринимается через разные каналы. Happy Job чередует разные форматы вопросов, а также использует анимацию и визуальные элементы, которые иллюстрируют задания. Такой подход помогает мозгу справиться с поставленной задачей в несколько секунд.

Геймификация в опросах Happy Job

Юкай Чоу, один из ведущих специалистов по геймификации, описывает явление следующим образом:

Геймификация – это применение самых интересных и вовлекающих элементов из игр в повседневной жизни, работе, бизнесе и т.д. Это дизайн, ориентированный на человека (human-focused design) и оптимизированный под его эмоциональное состояние (чувства, мотивацию, вовлеченность).

Игры позволяют держать людей вовлеченными, привлекают внимание и интерес. Инструменты геймификации получили распространение в маркетинге, бизнесе, области управления персоналом.

Геймификация использует мотивационные свойства игры и обращается к потребности человека побеждать, делиться успехами и общаться. Смысл этого заключается в том, чтобы привнести развлекательные элементы в занятия, которые изначально не связаны с весельем. В отличии от стандартных методов мотивации, геймификация создает контекст, который сам по себе мотивирует людей к действию.

Геймификация в исследованиях — это применение игровых элементов для получения достоверной информации и интенсивного вовлечения респондентов в сложные опросы.

Happy Job использует элементы геймификации для максимального вовлечения сотрудников в процесс исследования. Привычные процессы вроде заполнения анкеты становятся интереснее благодаря использованию игровых подходов.

Примеры геймификации:

Прогресс-бар

Визуальные индикаторы, показывающие участникам, как далеко они продвинулись в опросе.

Зачем используем: люди с большей вероятностью заканчивают начатое дело, когда видят свой прогресс. Благодаря прогресс-барам большее количество участников доходят до конца опроса, и результат становится более точным.

Ползунки

Слайдер, с помощью которого можно произвольно выбрать интенсивность ответа.

Зачем используем: ползунки дают респондентам больше свободы в ответе в отличии от традиционной шкалы Ликерта с вариантами ответов.

Звездные рейтинги

С помощью этого инструмента можно поставить от одной до нескольких звезд, чтобы выразить отношение к определенному вопросу.

Зачем используем: наглядность такой оценки позволяет получить справедливый и однозначный результат.

Геймификация позволяет заинтересовать респондентов и укрепить статус опросов как увлекательного занятия. Игровые элементы мотивируют людей, ведь повседневное действие становится чем-то необычным и увлекательным. В то же время анимация и иллюстрации на платформе выступают своеобразными «помощниками», которые дают дополнительную информацию о механизме опроса.

Исследования показывают существенную разницу в восприятии геймифицированных опросов.

Применимость геймификации

Использование методов геймификации в опросах имеет смысл только в тех случаях, когда правильно определены цели и задачи подобного исследования. Да, в конечном итоге работа с персоналом должна помочь в достижении бизнес-целей компании и повышению прибыли. Но дорога к этому результату лежит через устранение факторов, препятствующих продуктивности сотрудников. Перед проведением опроса следует четко понимать, какие цели преследует эта активность.

О положительном опыте внедрения геймифицированных опросов рассказал Дмитрий Попов, руководитель направления внутренних коммуникаций компании АльфаСтрахование.

Что Happy Job расскажет о ваших сотрудниках

Опросы от Happy Job определят степень вовлеченности, лояльности и удовлетворенности сотрудников. Наш авторский индикатор Happy Index покажет процент наиболее вовлеченных и лояльных сотрудников в компании. На сегодняшний день это наиболее точный метод исследования вовлеченности, удовлетворенности и лояльности персонала.

Что измеряет Happy Job: узнать больше о вовлеченности, удовлетворенности и лояльности. ->

Валидность метода Happy Job

Валидность метода исследования — характеристика, которая оценивает его качество. Изучая валидность методики, мы хотим узнать, способна ли она дать правильную оценку предмету измерения.

Проверка концептуальной и содержательной валидности нашего подхода была проведена с помощью сопоставления результатов двух разных исследований на одной и той же фокус-группе. В ходе проверки использовались два метода: онлайн-опрос из 57 вопросов и опросное интервью фокус-группы (Исследования по протоколу №174С2 от 16.05.2016 года в составе 7 членов комиссии).

Дополнительно была проведена проверка на 14-ти фокус-группах, в которые вошли 278 человек разного пола, возраста, статуса. В обоих случаях результаты доказали, что респонденты понимают суть вопроса и дают ответы, которые полностью соответствуют предмету изучения.

Измерение эмпирической валидности проводилось по внешнему показателю — через сопоставление процентного соотношения выполнения плана и вовлеченности. Данная корреляция определяет валидность опроса для оценки вовлеченности среды.

Текущая валидность исследования измеряется с помощью сравнения индивидуального результата по KPI с показателем вовлеченности.

Команда Happy Job оценивает также прогностическую валидность. Мы сопоставили результаты по метрике вовлеченности (желание остаться в компании, уровень признания и ясность карьерного роста респондентов) с процентом уволившихся в течение 6-ти месяцев. Результат совпадения составил более 87%.

Преимущества платформы

Руководство к действию

Отчеты, которые автоматически формируются после завершения опроса, содержат рекомендации по улучшению показателей вовлеченности, удовлетворенности и лояльности. Следуя этим инструкциям, вы сможете значительно улучшить атмосферу в коллективе и продуктивность компании.

Помимо отчетов платформа также предлагает дополнительные материалы на тему внедрения изменений:

Рассылки для сотрудников и руководителей.
Статьи из экспертных изданий.
Собственный блог Happy Job для HR-специалистов.

Удобство для респондентов

Опросы проходят онлайн и занимают 5-7 минут — даже самый загруженный специалист сможет найти время на заполнение анкеты. Опросы доступны с компьютеров и мобильных телефонов. При необходимости респондент может делать паузы и возвращаться к опросу позднее — платформа сохранит прогресс прохождения.

Понятный интерфейс

Для участия в опросе нужны лишь базовые компьютерные навыки. Дизайн и анимация делают платформу интуитивно понятной для всех пользователей.

Вовлечение

Инструменты геймификации помогают вовлекать сотрудников и мотивируют их отвечать на все вопросы. В результате вы получете полноценный отчет с исчерпывающей информацией о ситуации в компании и настроениях персонала.

Достоверность

Достоверность результатов опросов обусловлена тем, что формулировки вопросов Happy Job исключают вариант с угадыванием «хороших» ответов.

Кроме того, респонденты заполняют анкеты анонимно и могут показать свое истинное отношение к предмету вопроса. Таким образом вы сможете быстрее выявить проблемные моменты и принять меры для их улучшения.

Продвижение среди сотрудников

Участие в опросе покажется бессмысленным занятием, если не убедить коллектив в важности происходящего. Когда ваши сотрудники знают, что их мнения могут повлиять на ситуацию в компании, они охотнее заполняют анкеты.

Мы подготовили промо-материалы, которые облегчат задачу по продвижению опросов среди сотрудников. Более того, часть из них отправляются автоматически с платформы, что освобождает время HR-специалиста, ответственного за проведение опросов.

Совместимость с данными других провайдеров

Платформа совместима с данными от других провайдеров. Поэтому при переходе на Happy Job вы сможете сохранить результаты предыдущих опросов. Узнайте подробности у наших менеджеров.

Чтобы клиенты полюбили компанию, её должны
полюбить сотрудники.

О нас в цифрах

Исследование 264 000 респондентов показало, что 98,1% пользователей Happy Job довольны опытом участия в опросах.
93% участников фокус-группы из 350+ HR-специалистов нашли формат опросов удобным.
94% руководителей, которые работали с результатами опроса, легко разобрались с метриками и показателями Happy Job и отметили полезность рекомендаций.
Минимальный процент участия начинается от 75% сотрудников. Эта цифра растет, когда опросы становятся привычной частью корпоративной культуры.
Общее число участников наших опросов превышает 2 350 000 человек.
Более 200 компаний стали клиентам Happy Job с 2016 года.

О метриках платформы рассказал Алексей Клочков, контент директор Happy Job.

Источники

A. Hewitt. «2012 Total Rewards Survey: Transforming Potential into Value».
A. Hewitt. «2013 Trends in Global Employee Engagement Report».
B. Morschheuser: «How to gamify? A method for designing gamification»
C. Bailey, A. Madden, K. Alfes, L. Fletcher, D. Robinson, J. Holmes, J. Buzzeo, G.
Currie.Evaluating the evidence on employee engagement and its potential benefits to NHS staff: a narrative synthesis of the literature. Health Services and Delivery Research, No. 3.26
D. Rooy, Whitman, D. Hart, S.Caleo, «Measuring Employee Engagement During Financial Downturn: Business Imperative or Nuisance?» Journal of Business Psychology 26 (2011): 147-152.
DRGSPARK. «Gamification in Marketing Research – Is it Time to Get in the Game?»
J. J. G. Van Merrienboer, J. Sweller «Cognitive load theory and complex learning: Recent developments and future directions» //Educational psychology review. — 2005. — Т. 17. — №. 2. — С. 147—177.
P. A. Kirschner «Cognitive load theory: Implications of cognitive load theory on the design of learning». — 2002.
P. Chandler, J. Sweller «Cognitive load theory and the format of instruction» //Cognition and instruction. — 1991. — Т. 8. — №. 4. — С. 293—332.
Paas F. et al. «Cognitive load measurement as a means to advance cognitive load theory» //Educational psychologist. — 2003. — Т. 38. — №. 1. — С. 63-71.
R. Hoffman, В. Casnocha, C. Yeh, «Tours of Duty: The New Employer-Employee Compact». Harvard Business Review June 2013.
Society for Human Resource Management. «2014 Employee Job Satisfaction and Engagement: The Road to Economic Recovery».
W.H. Macey, B. Schneider, «The Meaning of Employee Engagement». Industrial and Organizational Psychology 1 (2008): 3-30.
А. Беседин. «Геймификация – прокачай свой бизнес!».
А. Журавлев. «Психология человека в современном мире». Ответственный редактор — А. Журавлев. Изд-во «Институт психологии РАН».
А. Ребров, А. Черкасов. Геймификация и автоматизация KPI: очередная управленческая мода или новые методы стимулирования? // Российский журнал менеджмента. 2017. №3.
И. Девятко, Д. Лебедев. «Глазами интервьюера, глазами респондента: контуры нового подхода к оценке когнитивной нагрузки при проведении опроса» // Мониторинг. 2017. №5 (141).
Н. Азаренок. «Клиповое сознание и его влияние на психологию человека в современном мире».

Надежность и валидность в исследованиях

Надежность и валидность — это концепции, используемые для оценки качества исследования. Они показывают, насколько хорошо метод, техника или тест что-то измеряет. Надежность — это постоянство меры, а достоверность — ее точность.

Важно учитывать надежность и валидность при разработке дизайна исследования, планировании методов и оформлении результатов, особенно в количественных исследованиях.

Надежность и действительность
	Надежность	Срок действия
Что он вам говорит?	Степень, в которой результаты могут быть воспроизведены при повторении исследования в тех же условиях.	Степень, в которой результаты действительно измеряют то, что они должны измерять.
Как это оценивается?	Путем проверки согласованности результатов во времени, разными наблюдателями и по частям самого теста.	Путем проверки того, насколько хорошо результаты соответствуют установленным теориям и другим критериям той же концепции.
Как они связаны?	Надежное измерение не всегда верно: результаты могут быть воспроизводимыми, но не обязательно правильными.	Действительное измерение обычно надежно: если тест дает точные результаты, они должны быть воспроизводимыми.

Понимание надежности и действительности

Надежность и достоверность тесно связаны, но означают разные вещи.Измерение может быть надежным, но не действительным. Однако, если результат измерения верен, он обычно также надежен.

Что такое надежность?

Надежность означает, насколько последовательно метод что-то измеряет. Если один и тот же результат может быть стабильно достигнут с помощью одних и тех же методов при одних и тех же обстоятельствах, измерение считается надежным.

Вы измеряете температуру жидкой пробы несколько раз в одинаковых условиях. Термометр каждый раз показывает одну и ту же температуру, поэтому результаты надежны.

Врач использует анкету по симптомам, чтобы поставить диагноз пациенту с длительным заболеванием. Несколько разных врачей используют одну и ту же анкету с одним и тем же пациентом, но ставят разные диагнозы. Это указывает на низкую надежность анкеты как показателя состояния.

Что такое срок действия?

Действительность означает, насколько точно метод измеряет то, что он предназначен для измерения. Если исследование имеет высокую достоверность, это означает, что оно дает результаты, соответствующие реальным свойствам, характеристикам и вариациям в физическом или социальном мире.

Высокая надежность — один из индикаторов правильности измерения. Если метод ненадежен, вероятно, он недействителен.

Если термометр каждый раз показывает разные температуры, даже если вы тщательно контролировали условия, чтобы температура образца оставалась неизменной, возможно, термометр неисправен, и, следовательно, его измерения недействительны.

Если вопросник по симптомам дает надежный диагноз, если ответы на него даны в разное время и у разных врачей, это означает, что он имеет высокую достоверность для измерения состояния здоровья.

Однако одной надежности недостаточно для обеспечения действительности. Даже если тест надежен, он может неточно отражать реальную ситуацию.

Термометр, который вы использовали для проверки образца, дает надежные результаты. Однако термометр не откалиброван должным образом, поэтому результат на 2 градуса ниже истинного значения. Следовательно, измерение недействительно.

Группа участников проходит тест, предназначенный для измерения рабочей памяти. Результаты надежны, но оценки участников сильно коррелируют с их уровнем понимания прочитанного. Это указывает на то, что метод может иметь низкую валидность: тест может измерять понимание прочитанного участниками вместо их рабочей памяти.

Достоверность оценить сложнее, чем надежность, но она даже важнее. Чтобы получить полезные результаты, методы, которые вы используете для сбора данных, должны быть действительными: исследование должно измерять то, что, по его утверждению, измеряется. Это гарантирует, что ваше обсуждение данных и сделанные вами выводы также будут правильными.

Как оцениваются надежность и достоверность?

Надежность можно оценить, сравнивая разные версии одного и того же измерения.Валидность оценить сложнее, но ее можно оценить, сравнив результаты с другими соответствующими данными или теорией. Методы оценки надежности и достоверности обычно делятся на разные типы.

Виды надежности

Различные типы надежности можно оценить с помощью различных статистических методов.

Виды надежности
Тип надежности	Что оценивает?	Пример
Повторное испытание	Стабильность меры во времени : получаете ли вы те же результаты, когда повторяете измерение?	Группа участников заполняет анкету, предназначенную для измерения личностных качеств. Если они повторяют анкету с интервалом в несколько дней, недель или месяцев и дают одинаковые ответы, это указывает на высокую надежность повторного тестирования.
Интеррейтер	Согласованность показателя между оценщиками или наблюдателями : получаете ли вы одинаковые результаты, когда разные люди проводят одно и то же измерение?	На основании контрольного списка критериев оценки пять экзаменаторов представляют существенно разные результаты по одному и тому же студенческому проекту. Это указывает на то, что контрольный список оценки имеет низкую межэкспертную надежность (например, потому, что критерии слишком субъективны).
Внутренняя согласованность	Последовательность самого измерения : получаете ли вы одинаковые результаты в разных частях теста, которые предназначены для измерения одного и того же?	Вы разрабатываете анкету для измерения самооценки. Если вы случайным образом разделите результаты на две половины, между двумя наборами результатов должна быть сильная корреляция. Если два результата сильно различаются, это указывает на низкую внутреннюю согласованность.

Виды действия

Достоверность измерения можно оценить на основе трех основных типов свидетельств.Каждый тип можно оценить с помощью экспертных оценок или статистических методов.

Виды действия
Срок действия	Что оценивает?	Пример
Конструкция	Приверженность меры существующей теории и знаниям измеряемой концепции.	Анкета самооценки может быть оценена путем измерения других черт, которые, как известно, или предположительно связаны с концепцией самооценки (например, социальные навыки и оптимизм).Сильная корреляция между оценками самооценки и связанных с ними черт может указывать на высокую валидность конструкта.
Содержание	Степень, в которой измерение охватывает все аспекты измеряемой концепции.	Тест, целью которого является определение уровня испанского языка учащимися, содержит компоненты чтения, письма и говорения, но не аудирование. Эксперты согласны с тем, что понимание на слух является важным аспектом языковых способностей, поэтому тесту недостает валидности содержания для измерения общего уровня владения испанским языком.
Критерий	Степень, в которой результат меры соответствует другим действительным показателям той же концепции.	Опрос проводится для измерения политических взглядов избирателей в регионе. Если результаты точно предсказывают более поздний исход выборов в этом регионе, это указывает на то, что опрос имеет высокую достоверность критериев.

Чтобы оценить достоверность причинно-следственной связи, вам также необходимо учитывать внутреннюю валидность (план эксперимента) и внешнюю валидность (обобщаемость результатов).

Что вычитка может сделать для вашей статьи?

Редакторы

Scribbr не только исправляют грамматические и орфографические ошибки, но и укрепляют ваше письмо, убеждаясь в том, что в вашей статье нет нечетких слов, лишних слов и неудобных формулировок.

См. Пример редактирования

Как обеспечить обоснованность и надежность вашего исследования

Надежность и достоверность ваших результатов зависит от создания четкого плана исследования, выбора подходящих методов и образцов, а также тщательного и последовательного проведения исследования.

Гарантия действительности

Если вы используете баллы или рейтинги для измерения вариаций чего-либо (например, психологических черт, уровней способностей или физических свойств), важно, чтобы ваши результаты как можно точнее отражали реальные вариации. Достоверность следует учитывать на самых ранних этапах вашего исследования, когда вы решаете, как вы будете собирать свои данные.

Выберите подходящие методы измерения

Убедитесь, что ваш метод и техника измерения имеют высокое качество и позволяют точно измерять то, что вы хотите знать. Они должны быть тщательно изучены и основаны на существующих знаниях.

Например, для сбора данных о чертах личности вы можете использовать стандартизированный вопросник, который считается надежным и действительным. Если вы разрабатываете свой собственный вопросник, он должен основываться на установленной теории или результатах предыдущих исследований, а вопросы должны быть тщательно и точно сформулированы.

Для получения достоверных обобщаемых результатов четко определите исследуемую популяцию (например,люди определенного возраста, географического положения или профессии). Убедитесь, что у вас достаточно участников и что они репрезентативны для населения.

Обеспечение надежности

Надежность следует учитывать на протяжении всего процесса сбора данных. Когда вы используете инструмент или методику для сбора данных, важно, чтобы результаты были точными, стабильными и воспроизводимыми.

Применяйте свои методы последовательно

Тщательно спланируйте свой метод, чтобы убедиться, что вы выполняете одни и те же шаги одинаково для каждого измерения. Это особенно важно, если задействовано несколько исследователей.

Например, если вы проводите интервью или наблюдения, четко определите, как будут учитываться конкретные действия или ответы, и убедитесь, что вопросы каждый раз формулируются одинаково.

Стандартизируйте условия вашего исследования

При сборе данных старайтесь, чтобы обстоятельства были как можно более согласованными, чтобы уменьшить влияние внешних факторов, которые могут привести к изменению результатов.

Например, в экспериментальной установке убедитесь, что всем участникам предоставлена одинаковая информация и они протестированы в одинаковых условиях.

Где написать о надежности и обоснованности в диссертации

Уместно обсуждать надежность и обоснованность в различных разделах вашей диссертации или диссертации. Демонстрация того, что вы приняли их во внимание при планировании своего исследования и интерпретации результатов, делает вашу работу более достоверной и заслуживающей доверия.

Надежность и обоснованность в дипломной работе
Раздел	Обсудить
Обзор литературы	Что сделали другие исследователи для разработки и улучшения надежных и действенных методов?
Методология	Как вы планировали свое исследование, чтобы гарантировать надежность и обоснованность используемых мер? Это включает в себя выбранный набор и размер образца, подготовку образца, внешние условия и методы измерения.
Результаты	Если вы рассчитываете надежность и достоверность, укажите эти значения вместе с основными результатами.
Обсуждение	Это момент, чтобы поговорить о том, насколько надежными и достоверными были ваши результаты. Были ли они последовательны и отражали истинные ценности? Если нет, то почему?
Заключение	Если надежность и достоверность были большой проблемой для ваших выводов, было бы полезно упомянуть об этом здесь.

4 типа достоверности

В количественном исследовании вы должны учитывать надежность и достоверность ваших методов и измерений.

Validity показывает, насколько точно метод что-то измеряет. Если метод измеряет то, что, по его утверждению, измеряется, и результаты близко соответствуют реальным значениям, то его можно считать действительным. Выделяют четыре основных типа действительности:

Обратите внимание, что в этой статье рассматриваются типы проверки достоверности, которые определяют точность фактических компонентов меры.Если вы проводите экспериментальное исследование, вам также необходимо учитывать внутреннюю и внешнюю валидность, которая связана с планом эксперимента и обобщаемостью результатов.

Срок действия конструкции

Construct validity оценивает, действительно ли инструмент измерения представляет то, что мы хотим измерить. Это важно для определения общей валидности метода.

Что такое конструкция?

Конструкт относится к понятию или характеристике, которую нельзя непосредственно наблюдать, но можно измерить, наблюдая за другими связанными с ней индикаторами.

Конструкции могут быть характеристиками людей, такими как интеллект, ожирение, удовлетворенность работой или депрессия; они также могут быть более широкими концепциями, применяемыми к организациям или социальным группам, например, гендерное равенство, корпоративная социальная ответственность или свобода слова.

Пример

Не существует объективной, наблюдаемой сущности, называемой «депрессией», которую мы могли бы измерить напрямую. Но, основываясь на существующих психологических исследованиях и теории, мы можем измерить депрессию на основе набора симптомов и показателей, таких как низкая уверенность в себе и низкий уровень энергии.

Что такое конструктивная валидность?

Достоверность конструкции — это гарантия того, что метод измерения соответствует конструкции, которую вы хотите измерить. Если вы разрабатываете анкету для диагностики депрессии, вам необходимо знать: действительно ли анкета измеряет конструкт депрессии? Или это на самом деле измерение настроения, самооценки респондента или какой-то другой конструкт?

Для достижения достоверности построения вы должны убедиться, что ваши индикаторы и измерения тщательно разработаны на основе соответствующих существующих знаний. Анкета должна включать только релевантные вопросы, которые измеряют известные индикаторы депрессии.

Остальные типы валидности, описанные ниже, могут рассматриваться как формы свидетельства конструктивной валидности.

Срок действия

Достоверность содержимого определяет, является ли тест репрезентативным для всех аспектов конструкции.

Для получения достоверных результатов содержание теста, опроса или метода измерения должно охватывать все относящиеся к делу части предмета, который он нацелен на измерение.Если некоторые аспекты отсутствуют в измерении (или если включены нерелевантные аспекты), достоверность оказывается под угрозой.

Пример

Учитель математики разрабатывает в конце семестра тест по алгебре для своего класса. Тест должен охватывать все формы алгебры, изучаемые в классе. Если исключить некоторые виды алгебры, то результаты могут не точно указывать на понимание учащимися предмета. Точно так же, если она включает вопросы, не связанные с алгеброй, результаты больше не являются действительной мерой знаний алгебры.

Срок действия

Face validity учитывает, насколько подходящим содержание теста кажется на первый взгляд. Это похоже на валидность содержания, но фактическая валидность — это более неформальная и субъективная оценка.

Пример

Вы создаете опрос, чтобы измерить регулярность пищевых привычек людей. Вы просматриваете пункты опроса, в которых задаются вопросы о каждом приеме пищи в течение дня и перекусах, которые вы съели в перерывах на каждый день недели. На первый взгляд, опрос кажется хорошим представлением того, что вы хотите протестировать, поэтому вы считаете, что он имеет высокую достоверность.

Поскольку фактическая достоверность является субъективной мерой, ее часто считают самой слабой формой достоверности. Однако это может быть полезно на начальных этапах разработки метода.

Срок действия критерия

Criterion validity оценивает, насколько близко результаты вашего теста соответствуют результатам другого теста.

Что такое критерий?

Критерий — это внешнее измерение того же самого. Обычно это установленный или широко используемый тест, который уже считается действительным.

Что такое критерий действительности?

Чтобы оценить достоверность критерия, вы вычисляете корреляцию между результатами вашего измерения и результатами измерения критерия. Если существует высокая корреляция, это свидетельствует о том, что ваш тест измеряет то, что он намеревается измерять.

Пример

Профессор университета создает новый тест для измерения уровня владения английским языком абитуриентов. Чтобы оценить, насколько хорошо тест действительно измеряет способность студентов к письму, она находит существующий тест, который считается действительным измерением способности письма на английском языке, и сравнивает результаты, когда одна и та же группа студентов сдает оба теста.Если результаты очень похожи, новый тест имеет высокий критерий достоверности.

Срок действия — Методология исследования

Валидность исследования в опросах относится к степени, в которой опрос измеряет правильные элементы, которые необходимо измерить. Проще говоря, валидность означает, насколько хорошо инструмент измеряет то, что он предназначен для измерения.

Одной надежности недостаточно, меры должны быть надежными и действительными. Например, если весы для измерения веса неверны на 4 кг (из них вычитается 4 кг фактического веса), их можно указать как надежные, поскольку весы показывают один и тот же вес каждый раз, когда мы измеряем конкретный предмет.Однако весы недействительны, потому что они не отображают фактический вес предмета.

Исследования по валидности можно разделить на две группы: внутренние и внешние. Можно указать, что «внутренняя валидность относится к тому, насколько результаты исследования соответствуют действительности, в то время как внешняя валидность относится к степени, в которой результаты исследования могут быть воспроизведены в других средах» (Pelissier, 2008, p.12).

Причем срок действия также можно разделить на пять типов:

1.Face Validity — это самый основной тип достоверности, связанный с высочайшим уровнем субъективности, поскольку он не основан на каком-либо научном подходе. Другими словами, в этом случае исследователь может признать тест действительным, потому что он может казаться таким же достоверным, без глубокого научного обоснования.

Пример: дизайн анкеты для исследования, в котором анализируются вопросы производительности сотрудников, может быть оценен как действительный, поскольку может показаться, что каждый отдельный вопрос касается конкретных и значимых аспектов производительности сотрудников.

2. Construct Validity относится к оценке пригодности измерительного инструмента для измерения изучаемого явления. Применение конструктной валидности может быть эффективно облегчено с привлечением группы «экспертов», хорошо знакомых с мерой и явлением.

Пример: с применением конструкта валидности уровни лидерской компетентности в любой данной организации можно эффективно оценить, разработав анкету, на которую должны отвечать сотрудники операционного уровня, и задав вопросы об уровнях их мотивации выполнять свои обязанности в повседневной жизни.

3. Валидность, связанная с критериями включает сравнение результатов тестов с результатами. Этот конкретный тип валидности коррелирует результаты оценки с другим критерием оценки.

Пример: характер восприятия клиентом имиджа бренда конкретной компании можно оценить путем организации фокус-группы. Эту же проблему можно оценить, разработав анкету, на которую будут отвечать текущие и потенциальные клиенты бренда. Чем выше уровень корреляции между результатами фокус-группы и анкетированием, тем выше уровень критериальной валидности.

4. Формирующая валидность относится к оценке эффективности меры с точки зрения предоставления информации, которая может быть использована для улучшения конкретных аспектов явления.

Пример: при разработке инициатив по повышению уровней эффективности организационной культуры, если мера способна выявить конкретные слабые стороны организационной культуры, такие как коммуникационные барьеры между сотрудником и менеджером, то уровень формирующей валидности меры можно оценить как адекватный.

5. Действительность выборки (аналогично достоверности содержания) гарантирует, что область охвата меры в рамках области исследования обширна. Ни одна мера не может охватить все элементы и элементы явления, поэтому важные элементы и элементы выбираются с использованием определенного метода выборки в зависимости от целей и задач исследования.

Пример: при оценке стиля лидерства, применяемого в конкретной организации, недостаточно оценки стиля принятия решений и других вопросов, связанных со стилем лидерства, таких как организационная культура, личность лидеров, характер отрасли и т. Д.также необходимо учитывать.

Моя электронная книга, Полное руководство по написанию диссертации в области бизнес-исследований: пошаговая помощь предлагает практическую помощь в завершении диссертации с минимальным стрессом или без него. Электронная книга охватывает все этапы написания диссертации, начиная от выбора и заканчивая областью исследования и сдачей завершенной версии работы в установленные сроки. Иоанн Дудовский

Что такое валидность в психологии

Методы исследования
Валидность

Что такое валидность?

Саул МакЛеод, опубликовано в 2013 г.

В чем смысл валидности в исследованиях?

Концепция действительности была сформулирована Келли (1927, стр.14), который заявил, что тест действителен, если он измеряет то, что, по его утверждению, измеряется.

Например, тест на интеллект должен измерять интеллект, а не что-то еще (например, память).

Различают внутреннюю и внешнюю действительность. Эти типы валидности имеют отношение к оценке валидности исследовательского исследования / процедуры.

Что такое внутренняя и внешняя валидность в исследовании?

Внутренняя валидность относится к тому, вызваны ли эффекты, наблюдаемые в исследовании, манипулированием независимой переменной, а не каким-либо другим фактором.

Другими словами, существует причинно-следственная связь между независимой и зависимой переменной.

Внутренняя достоверность может быть улучшена за счет контроля посторонних переменных, использования стандартизированных инструкций, противовеса и исключения характеристик спроса и эффектов исследователя.

Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены для других условий (экологическая валидность), других людей (популяционная валидность) и во времени (историческая валидность).

Внешнюю валидность можно улучшить, поставив эксперименты в более естественную обстановку и используя случайную выборку для отбора участников.

Оценка валидности теста

Существуют две основные категории валидности, используемые для оценки валидности теста (например, анкета, интервью, тест IQ и т. Д.): Содержание и критерий.

Что такое фактическая валидность в исследованиях?

Признание достоверности — это просто то, появляется ли тест (по номинальной стоимости) для измерения того, на что он претендует. Это наименее изощренная мера достоверности.

Тесты, цель которых ясна даже для наивных респондентов, считаются имеющими высокую достоверность. Соответственно, тесты, цель которых неясна, имеют низкую валидность (Nevo, 1985).

Прямое измерение валидности лица получают, когда людей просят оценить валидность теста, как им кажется. Этот оценщик может использовать шкалу Лайкерта для оценки достоверности лица. Например:

тест очень подходит для данной цели
тест очень подходит для этой цели;
тест соответствует требованиям
тест не соответствует требованиям
тест не имеет отношения к делу и, следовательно, не подходит

Важно выбрать подходящих людей для оценки теста (например.грамм. анкета, интервью, IQ тест и т. д.). Например, люди, которые действительно проходят тест, будут иметь все возможности для оценки его достоверности.

Также люди, которые работают с тестом, могут высказать свое мнение (например, работодатели, администраторы университетов, работодатели). Наконец, исследователь может использовать представителей широкой общественности, интересующихся тестом (например, родителей испытуемых, политиков, учителей и т. Д.).

Фактическая валидность теста может считаться надежной конструкцией только в том случае, если между оценщиками существует разумный уровень согласия.

Следует отметить, что следует избегать использования термина «достоверность лица», когда оценка проводится «экспертом», поскольку достоверность содержимого является более подходящей.

Наличие фактической валидности не означает, что тест действительно измеряет то, что исследователь намеревается измерить, а только по мнению рейтеров, которые, по-видимому, делают это. Следовательно, это грубая и основная мера обоснованности.

Такой тестовый элемент, как « Я недавно подумал о самоубийстве », имеет очевидную внешнюю валидность как элемент для измерения суицидальных мыслей и может быть полезен при измерении симптомов депрессии.

Однако результаты тестов с явной валидностью заключаются в том, что они более уязвимы для предвзятости социальной желательности. Люди могут манипулировать своей реакцией, чтобы отрицать или скрывать проблемы, или преувеличивать свое поведение, чтобы представить себя в позитивном свете.

Элемент тестирования может не иметь достоверности лица, но все же иметь общую достоверность и измерять то, что, по его утверждению, измеряется. Это хорошо, потому что снижает характеристики спроса и затрудняет манипулирование респондентами своими ответами.

Например, элемент теста « Я верю во Второе пришествие Христа » будет недействительным как мера депрессии (поскольку цель элемента неясна).

Этот элемент появился в первой версии Миннесотского многофазного опросника личности (MMPI) и загружен в шкалу депрессии.

Поскольку большинство первоначальной нормативной выборки MMPI были хорошими христианами, только христианин в депрессии мог подумать, что Христос не вернется. Таким образом, для данного конкретного религиозного образца пункт имеет общую действительность, но не является действительным.

Что такое конструктная валидность в исследованиях?

Конструктивная валидность была изобретена Корнболлом и Милом (1955). Этот тип валидности относится к степени, в которой тест охватывает конкретную теоретическую конструкцию или признак, и перекрывается с некоторыми другими аспектами валидности

Конструктивная валидность не касается простого фактического вопроса о том, измеряет ли тест атрибут .

Напротив, речь идет о сложном вопросе о том, согласуются ли интерпретации результатов тестов с номологической сетью, включающей теоретические и наблюдательные термины (Cronbach & Meehl, 1955).

Для проверки достоверности конструкции необходимо продемонстрировать, что измеряемое явление действительно существует. Так, например, конструктивная валидность теста на интеллект зависит от модели или теории интеллекта.

Конструктивная валидность влечет за собой демонстрацию силы такой конструкции для объяснения сети результатов исследований и прогнозирования дальнейших взаимоотношений.

Чем больше доказательств валидности тестовой конструкции сможет продемонстрировать исследователь, тем лучше.Однако не существует единого метода определения валидности конструкции теста.

Вместо этого различные методы и подходы объединяются, чтобы представить общую конструктивную валидность теста. Например, можно использовать факторный анализ и корреляционные методы.

Что такое одновременная валидность в исследованиях?

Это степень, в которой тест соответствует внешнему критерию, который известен одновременно (т. Е. Происходит одновременно).

Если новый тест подтвержден сравнением с существующим в настоящее время критерием, у нас есть одновременная валидность.

Очень часто новый IQ или личностный тест можно сравнить с более старым, но похожим тестом, который, как известно, уже имеет хорошую валидность.

Что такое прогностическая достоверность в исследованиях?

Это степень, в которой тест точно предсказывает критерий, который будет применяться в будущем.

Например, на основе нового теста интеллекта можно сделать прогноз, что люди с высокими показателями в возрасте 12 лет с большей вероятностью получат университетскую степень через несколько лет.Если предсказание оправдывается, значит, тест имеет прогностическую достоверность.

Ссылки на стиль APA

Кронбах, Л. Дж., И Мил, П. Э. (1955) Конструируйте валидность в психологических тестах. Психологический бюллетень , 52, 281-302.

Hathaway, S. R., & McKinley, J. C. (1943). Руководство по многофазной инвентаризации личности в Миннесоте . Нью-Йорк: Психологическая корпорация.

Келли Т. Л. (1927). Интерпретация образовательных измерений.Нью-Йорк, : Макмиллан.

Нево, Б. (1985). Повторная проверка достоверности лица. Журнал образовательных измерений , 22 (4), 287-293.

Как ссылаться на эту статью:

McLeod, S. A. (2013). Что такое действительность? . Просто психология. https://www.simplypsychology.org/validity.html

Срок действия — решения для статистики

Четыре основных типа:

1. Внутренняя достоверность: Когда связь между переменными является причинной. Этот тип относится к отношениям между зависимыми и независимыми переменными. Это связано с планом эксперимента и имеет значение только в исследованиях, которые пытаются установить причинно-следственную связь. Например, его можно использовать для случайного назначения лечения.

2. Внешняя достоверность: Когда существует причинная связь между причиной и следствием, которая может быть передана людям, лечению, переменным и различным переменным измерения, которые отличаются друг от друга.

3. Достоверность статистического заключения: Сделанный вывод или вывод о степени взаимосвязи между двумя переменными. Например, его можно найти, когда мы стремимся найти силу взаимосвязи между любыми двумя переменными, которые находились под наблюдением и анализом. Если мы действительно придем к правильному выводу, то это будет считаться достоверным статистическим выводом. Существует два типа достоверности статистического заключения. Они следующие:

а. Ошибка первого типа: Ошибка первого типа возникает, когда мы заключаем, что существует связь между двумя переменными, и отклоняем истинную нулевую гипотезу, когда на самом деле связи между двумя переменными нет. На самом деле это очень опасно.

г. Ошибки второго типа: Если мы не можем отклонить ложную нулевую гипотезу, которая верна, это называется ошибкой второго типа.

При достоверности статистического заключения для выявления взаимосвязи используется метод анализа мощности.При статистическом заключении возникает ряд проблем. Например, если используется небольшой размер выборки, есть вероятность, что результат будет неверным. Чтобы этого избежать, размер выборки должен быть значительным. Статистической достоверности также угрожает нарушение статистических допущений. Однако результаты могут быть неточными, если значения в анализе смещены и утвержден неправильный статистический тест.

4. Действительность конструкции: Степень, в которой измерение фактически представляет конструкцию, которую оно измеряет.Например, при моделировании структурным уравнением, когда мы рисуем конструкцию, мы предполагаем, что факторная нагрузка для конструкции больше, чем 0,7. Для определения достоверности конструкции используется альфа Кронбаха. Для исследовательских целей принято .60, для подтверждающих целей .70, и .80 считается хорошим. Если конструкция удовлетворяет вышеуказанным предположениям и ожиданиям, то конструкция может быть полезна для прогнозирования взаимосвязи для зависимых переменных. Конвергентная / дивергентная проверка и факторный анализ также используются для проверки валидности конструкции.

Взаимосвязь между надежностью и действительностью: Ненадежный тест не может считаться действительным. Опять же, любой действительный тест должен быть надежным. С помощью этого утверждения мы можем сделать вывод, что достоверность играет важную роль в анализе, поскольку обеспечивает получение точных результатов.

Всего угроз:

1. Собрано недостаточно данных, чтобы сделать верный вывод
2. Измерения выполнены с использованием слишком небольшого количества переменных
3.Слишком большой разброс данных или выбросы в данных
4. Неправильный выбор образцов
5. Неточный метод измерения, выбранный для анализа

Ресурсы

Багоцци, Р. П., Йи, Ю., и Филлипс, Л. В. (1991). Оценка конструктной валидности в организационных исследованиях. Administrative Science Quarterly, 36 (3), 421-458.

Бринкман, W. -P., Haakma, R., & Bouwhuis, D.G. (2009). Теоретическая основа и валидность вопросника юзабилити на основе компонентов. Поведение и информационные технологии, 28 (2), 121-137.

Карминес, Э. Г., и Целлер, Р. А. (1979). Оценка надежности и достоверности . Таузенд-Оукс, Калифорния: Sage Publications. Посмотреть

Кронбах, Л. Дж. (1971). Проверка теста. В Р. Л. Торндайке (ред.), Образовательное измерение (2-е изд., Стр. 443-507). Вашингтон, округ Колумбия: Американский совет по образованию.

Cronbach, L. J., & Meehl, P. E. (1955). Постройте валидность в психологических тестах. Психологический бюллетень, 52 , 281-302.

Форнелл, К., Ларкер, Д. Ф. (1981). Оценка моделей структурных уравнений с ненаблюдаемыми переменными и ошибкой измерения. Журнал маркетинговых исследований, 18 (1), 39-50.

Гилфорд, Дж. П. (1946). Новые стандарты оценки тестов. Образовательные и психологические измерения , 6 (5), 427-439.

Краузе, М. С. (1972). Значение конвергентных и дискриминантных данных о валидации для валидации инструмента. Психометрика, 37 (2), 179-186.

Либерман, Д. З. (2008). Оценка стабильности и достоверности образцов участников, набранных через Интернет. CyberPsychology & Behavior, 11 (6), 743-746.

Лосано, Л. М., Карсия-Куэто, Э. и Муньос, Дж. (2008). Влияние количества категорий ответов на надежность и валидность рейтинговых шкал. Методология, 4 (2), 73-79.

Мессик, С. (1989). Срок действия. В Р. Л. Линне (Ред.), Измерение образования (3-е изд., Стр. 13-103). Вашингтон, округ Колумбия: Американский совет по образованию.

Морет, М., Ройзель, Р., ван дер Уилт, Г. Дж., И Грин, Дж. (2007). Достоверность и надежность качественного анализа данных: согласие между наблюдателями при восстановлении интерпретационных рамок. Полевые методы, 19 (1), 24-39.

Розенбаум П. Р. (1989). Критерийная валидность конструкции. Психометрика, 54 (4), 625-659.

Шепард, Л.А.(1993). Оценка достоверности теста. Обзор исследований в области образования, 19 , 405-450.

Администрирование, анализ и отчетность

Statistics Solutions состоит из группы профессиональных методологов и статистиков, которые могут помочь студенту или профессиональному исследователю в управлении инструментом исследования, сборе данных, проведении анализа и объяснении результатов.

Для получения дополнительной информации об этих услугах щелкните здесь.

связанные страницы :

Моделирование структурными уравнениями

Проведение и интерпретация факторного анализа

границ | Применимость методов оценки питания по сравнению с методом дважды маркированной воды: систематический обзор у взрослых

Введение

Точность измерения количества потребляемой пищи и питательных веществ с использованием различных методов оценки питания имеет решающее значение для интерпретации взаимосвязи между развитием хронических заболеваний, связанных с питанием, включая сахарный диабет 2 типа, сердечно-сосудистые заболевания и некоторые виды рака (1). Эти хронические заболевания вносят значительный вклад в глобальное бремя болезней (2). Достоверность методов оценки рациона питания играет важную роль в точном описании моделей питания и потребления питательных веществ населением, сравнении рациона питания с рекомендованными диетическими рекомендациями и отслеживании тенденций в потреблении рациона населения с течением времени (3–5). Хотя самооценки EI подвергались критике, были сделаны рекомендации по минимизации систематической ошибки при сборе, анализе и интерпретации диетических данных, оцененных с использованием методов самооценки (6).

Внедрение технологий для оценки диетического питания, в том числе с помощью смартфона и Интернета, способствовало ключевым разработкам в области сбора, анализа и интерпретации данных о диетическом потреблении (7). Это включает сокращение затрат, связанных со сбором и анализом данных, снижение нагрузки на субъектов и исследователей и содействие более своевременным подходам к анализу данных (7). Однако появление новых методов оценки питания с технологическими компонентами, такими как методы на основе изображений и носимые устройства (например,g., микрокамера), которые включают технологию для сбора данных, означает, что также своевременна проверка достоверности методов, основанных на технологиях (8, 9).

Существует множество общепризнанных методов оценки питания по самооценке, в том числе суточные отзывы, истории питания, анкеты по частоте приема пищи (FFQ) и записи о питании. Многие методы подвержены ошибочному сообщению, которое часто классифицируется как завышение или занижение информации (10, 11), с дополнительной систематической ошибкой отбора с точки зрения типа людей, которые добровольно участвуют в этих исследованиях, из-за высокой нагрузки на участников. (12, 13).Другие потенциальные отклонения в оценке диетического питания могут быть связаны с проблемами, связанными с памятью, восприятием и концептуальной концепцией размеров порций, знаниями и уверенностью в технологиях — все это может отрицательно повлиять на точность сообщаемого EI (14, 15).

Методы, основанные на изображениях, требуют, чтобы участники делали цифровые изображения продуктов питания и напитков до и после потребления с помощью устройства камеры, и в этом качестве аналогичны записи продуктов питания (7). Методы, основанные на изображениях, могут быть подвержены ошибкам из-за предвзятости реактивности, поскольку знание того, что нужно сделать снимок продуктов, которые собираются съесть, может повлиять на то, какие продукты человек выберет для употребления в этом случае (9).Кроме того, измерение с использованием метода диетического питания, основанного на технологиях, зависит от присущих технологическим подходам ограничений и зависит от них; идентификация пищи и ее компонентов и учет внутри- и межиндивидуальной вариабельности, а также сложности (7), связанные с тем, потребляется ли пища из собственной тарелки или из общих тарелок (16) и / или потребляется с дополнительными приправами.

Измерение достоверности инструментов оценки питания требует объективной меры, которая не сталкивается с теми же внутренними ошибками, которые обнаруживаются в оцениваемом инструменте оценки питания. Метод дважды меченой воды (DLW) является объективным методом измерения общего расхода энергии (TEE) и считается эталонным методом для оценки достоверности самооценки EI у людей с относительно стабильным весом (3, 4, 12). Это также не зависит от самооценки ошибки (17, 18). Начальная доза DLW определяется стандартными уравнениями в соответствии с массой тела. После потребления образцы мочи собираются в течение периода от семи до 14 дней, чтобы учесть краткосрочные ежедневные колебания физической активности (19).

Предыдущий обзор (2001 г.) дает ценную информацию о том, что EI постоянно занижается по сравнению с DLW, при этом в большинстве исследований на момент публикации использовались записи продуктов питания или дневники (17). В дополнительном обзоре, проведенном Хиллом и Дэвисом в 2001 году, были описаны характеристики, связанные с занижением сведений, в том числе: (1) ограничение питания, (2) социально-экономический статус и (3) пол (занижение сведений чаще встречается у женщин, чем у мужчин. ) (20). В дополнительном обзоре Ливингстона и Блэка (21) подробно описаны дополнительные факторы, касающиеся репортеров с низким энергопотреблением, в том числе возможные культурные влияния.Тем не менее, не было обзоров у взрослых с тех пор, как они исследовали неправильное представление данных о потреблении энергии. Именно в этом контексте данный обзор направлен на оценку валидности методов оценки питания по самооценке при оценке ежедневного EI взрослых (≥18 лет) по сравнению с TEE, измеренным DLW.

Материалы и методы

Стратегия поиска

Первоначально поиск в онлайн-базе данных проводился в Cochrane, CINAHL, MEDLINE, EMBASE, Scopus, Cumulative Index to Nursing and Allied Health Literature, ProQuest, PubMed и Excerpta Medica Database.Ключевые слова и комбинации использованных ключевых слов включали взрослый, оценка диеты, опросник по частоте приема пищи, отзыв питания, 24-часовой отзыв о питании, запись о диете, запись о питании, дневник питания, потребление энергии, расход энергии, вода с двойной маркировкой, достоверно ^*, точность ^*, точный ^* и комбинация всего вышеперечисленного, см. Дополнительные материалы для примера стратегии поиска. Были извлечены только статьи, опубликованные в англоязычных журналах в период с 1973 по февраль 2019 года.Списки литературы, удовлетворяющие критериям включения, были просмотрены вручную, а ключевые статьи, найденные, были использованы для дальнейшего поиска с помощью функции цитируемых ссылок в базе данных Web of Science. С авторами не связывались по поводу недостающей информации, а поиск серой литературы не проводился. Протокол этого обзора был разработан и зарегистрирован в PROSPERO — международном проспективном реестре систематических обзоров под регистрационным номером CRD42017064545.

Выбор исследования

Последовательность исследований на каждом этапе обзора представлена на Рисунке 1.После первоначального поиска в базе данных были проверены заголовки и аннотации, чтобы определить, какие исследования требовали полнотекстового поиска. Полученные полнотекстовые статьи оценивались на соответствие критериям включения. Скрининг проводился двумя независимыми рецензентами (Y.H и T.B). Статьи были признаны релевантными, если они были исследованиями, направленными на сравнение диетического потребления с ЧВЭ, если в них были включены взрослые участники (в возрасте ≥18 лет), если они сообщили об EI, измеренном с помощью метода оценки питания, если DLW использовался для оценки ЧВЭ и если Основная цель исследования заключалась в проверке правильности метода оценки питания.Полные статьи были извлечены, если они соответствовали критериям включения или если право на включение было неясным после просмотра тезисов. Статьи были рецензированы двумя независимыми рецензентами (YH и TB). Любые разногласия между двумя рецензентами разрешались путем обсуждения с третьим независимым рецензентом (MR).

Рисунок 1 . Блок-схема метода определения исследований, которые будут включены в этот систематический обзор оценки методов оценки питания по сравнению с золотым стандартом метода воды с двойной меткой (DLW).

Извлечение данных и оценка качества

Все соответствующие статьи были затем независимо оценены на предмет качества с использованием контрольного списка качества Американской диетической ассоциации для первичных исследований, как указано в Руководстве по анализу доказательств (22). Качество исследования оценивалось как «положительное», если оно удовлетворяло большинству критериев качества, в том числе четырем приоритетным критериям, относящимся к (1) отбору участников исследования, (2) сопоставимости исследовательских групп, (3) описанию вмешательства и (4) Итоги.Исследование было оценено как имеющее «нейтральное» или «отрицательное» качество на основании количества критериев, которые были выполнены / не выполнены. Никакие исследования не были исключены из обзора на основании оценок качества.

Данные, относящиеся к этому обзору, были извлечены с использованием стандартизированного инструмента, который первоначально был опробован с использованием четырех исследований с небольшими изменениями формулировок, внесенными для ясности рецензента. Затем двумя независимыми рецензентами (YH, TB) были извлечены данные, включая характеристики участников исследования, использованные методы оценки питания и результаты DLW.Любое несоответствие устранялось путем обсуждения с третьим рецензентом (MR). Методы оценки питания были классифицированы с использованием определений, приведенных в Праймере по оценке питания Национального института рака (23). Также регистрировались методы оценки питания с технологическими компонентами, если использовались какие-либо формы коммуникации и / или информационные технологии, такие как мобильный телефон или смартфон, Интернет или датчики, собирающие изображения, движения или слуховые данные. Эту технологию можно использовать либо для сбора, анализа или интерпретации диетического метода.

Результаты

Население

Стратегия поиска выявила 572 записи (рисунок 1). После обзора полных текстов статей было включено 59 статей, которые прошли критическую оценку и извлечение данных. Основными причинами исключения были: в исследовании не сообщалось о результатах проверки питания ( n = 12), не об исследовании ( n = 3) или не проводилось на взрослой популяции ( n = 1). В таблице 1 обобщены детали исследования, включая количество участников и антропометрию, используемые методы оценки питания и отчетный период DLW.Всего в 59 включенных исследованиях приняли участие 6298 взрослых. Большинство исследований проводилось в условиях свободного проживания: одно — среди военнослужащих (78), одно — в клинической группе населения с синдромом короткой кишки (36), одно — среди беременных женщин с ожирением (60) и одно — среди борцов (71). . Среднее количество участников в исследовании составляло 107 (от 6 до 1075) с возрастом участников от 18 до 96 лет.

Таблица 1 . Характеристики исследований, выявленные в систематическом обзоре валидности методов оценки питания, используемых у взрослых (≥18 лет), по сравнению с методом воды с двойной меткой (DLW).

Большинство исследований было проведено в Соединенных Штатах Америки ( n = 25) (5, 25, 27, 28, 31–33, 38, 41, 42, 44, 50, 54, 55, 58–60). , 63, 67, 72, 74, 75, 79, 80) у взрослых кавказской национальности. Десять исследований включали участников из различных этнических групп, в том числе; Афроамериканец ( n = 6) (25, 41, 50, 54, 55, 73), коренной американец ( n = 1) (41) латиноамериканец ( n = 3) (31, 41, 59) , Азиатский ( n = 6) (31, 39, 41, 50, 54, 73), шведский ( n = 1) (61), скандинавский ( n = 1) (61), маори ( n = 1) или не указано ( n = 5) (31, 50, 54, 59, 67).В большинстве исследований участвовали как мужчины, так и женщины ( n = 26), при этом в 23 исследованиях участвовали только женщины, а в четырех исследованиях — только мужчины (47, 68, 71, 78). В двух исследованиях пол участников не сообщался (48, 55). В большинстве исследований (> 70%) измеряли массу тела до и после исследования, в 13 исследованиях измеряли массу тела участников только на исходном уровне (25, 28, 29, 33, 34, 37, 49, 51, 53, 66, 67). , 70, 77), а масса тела была неясной или не сообщалась в пяти исследованиях (38, 46, 60, 74, 75).В большинстве исследований сообщалось о незначительном изменении веса, в то время как степень изменения веса не была статистически значимой в 22 исследованиях.

Оценка качества

Сорок три из 59 исследований были оценены как имеющие положительное качество, а 16 — как имеющие нейтральное качество (таблица 2). Основными причинами, по которым качество было оценено как нейтральное, было отсутствие подробностей в описании вмешательства / терапевтических режимов / факторов воздействия и / или процедур или компараторов ( n = 9) (25, 35, 38, 46, 49, 50, 54, 64, 71), статистический анализ не описан должным образом ( n = 6) (35, 38, 48, 49, 59, 71), возможная систематическая ошибка при отборе участников ( n = 5) (38, 64, 71, 74, 79), возможная предвзятость из-за финансирования и спонсорства ( n = 5) (25, 42, 43, 47, 50), заключение не подтверждено результатами или отсутствие описания ограничений ( n = 3 ) (27, 54, 74).

Таблица 2 . Оценка качества включенных исследований.

Дизайн исследования

Отчетный период для DLW измерения TEE составлял от 7 до 22 дней (дополнительные материалы) 24 часа. В пяти исследованиях были собраны дополнительные образцы слюны для целей DLW (31, 33, 42, 45, 56), а в двух также были собраны образцы крови (5, 64).

Всего в 59 исследованиях использовалось пять различных методологий оценки питания. Наиболее часто используемым методом оценки питания был пищевой рекорд (FR) ( n = 36), 12 из которых были взвешенными пищевыми записями (WFR) (26, 27, 29, 30, 33, 41, 51, 56, 69). , 71, 72, 76).Диапазон дней регистрации составлял 2 и 16 дней, при этом в большинстве ( n = 12) исследований отчетный период составлял 7 дней. Следующим наиболее часто используемым методом были 24-часовые повторения ( n = 24) с многопроходным методом (MPR), используемым в 13 исследованиях с количеством дней отзыва от двух до семи. В семи исследованиях MPR отчетный период составлял 2 дня, а в дополнительных шести исследованиях — 3 дня. В исследованиях, в которых использовался подход 24-часового отзыва ( n = 24), диапазон был от двух (42) до 14 отзывов (41).В общей сложности 18 исследований четко описали, что они использовали непоследовательные дни для отзыва (5, 25, 27, 31, 38, 39, 42, 44, 49, 50, 52, 53, 59, 66, 67, 72, 74 , 79, 82).

Следующим по популярности методом был FFQ ( n = 21) (5, 24, 25, 27, 31, 34, 37, 38, 48–50, 54, 61, 62, 66, 72–74, 76 , 77, 81) с отчетным периодом от 1 месяца до 1 года, причем наиболее частый отчетный период составляет 1 год ( n = 8) (5, 24, 25, 48, 50, 66, 72, 77) . Для исследований, в которых использовался метод истории питания ( n = 5) (26, 30, 35, 40, 70), отчетный период составлял 1 месяц в двух исследованиях (40, 70), 1 год в одном исследовании (30), а в двух других исследованиях отчетный период не указывался (26, 35).В одном исследовании использовался краткий диетический опросник (SDQ) с отчетным периодом 3 месяца (77). В 27 исследованиях использовался один метод оценки питания, в 25 исследованиях использовались два метода питания в рамках одного исследования, а в дополнительных семи исследованиях (27, 30, 31, 63, 72, 73, 81) использовались как минимум три метода оценки питания.

В восемнадцати исследованиях для оценки EI использовался технологический компонент в методе оценки питания, наиболее распространены записи о пищевых продуктах ( n = 10) (43, 45, 55, 58, 60, 65, 67–69, 71), за которыми следовали через 24 часа отзыва ( n = 3) (25, 31, 48) и FFQ ( n = 3) (34, 39, 57).Компоненты технологии включали носимую камеру ( n = 4) (39, 65, 68, 71), цифровые фотографии, фотографию еды ( n = 4) (55, 60, 67, 69), компьютер / Интернет. напоминает ( n = 4) (25, 31, 43, 48) и портативный персональный цифровой помощник (КПК) ( n = 1) (58). Еще два исследования (29, 45) не использовали метод, основанный на технологиях, как определено в этом обзоре, но метод оценки питания был записан на кассету, которая затем была расшифрована.Два исследования напрямую сравнивали традиционный метод оценки питания с одним с технологическим компонентом. Результаты исследования представлены в таблице 3.

Таблица 3 . Результаты и исходы исследований включены в систематический обзор валидности методов оценки питания, используемых у взрослых (≥18 лет), по сравнению с методом воды с двойной меткой (DLW) ^A.

Результаты по категории оценки питания

Пищевой рекорд

Из исследований, в которых сообщалось о точности записей о пищевых продуктах на групповом уровне, в большинстве исследований ( n = 19) было обнаружено значительное занижение EI, от 11 до 41% (26, 35, 42, 43, 46 , 53, 54, 61, 65, 73, 78, 80), причем только в одном исследовании было выявлено завышение данных на 8% (64).В трех исследованиях не было обнаружено существенной разницы между абсолютным EI, оцененным по данным пищевой записи, и TEE, измеренным DLW (31, 47, 58).

В шести исследованиях с использованием записей о продуктах питания сообщалось о результатах с разбивкой по полу (26, 29, 41, 53, 76, 83), в трех исследованиях (26, 29, 53) сообщалось об отсутствии значительных различий между полами, в то время как по одному исследованию для мужчин (76) и женщины (83) идентифицированы как имеющие меньшую степень искажения данных. Одно исследование (41) показало, что женщины занижали данные, а мужчины немного завышали.

Два дополнительных исследования сообщили об отрицательной корреляции (35, 46) между точностью отчетности EI и BMI, в то время как в двух исследованиях не сообщалось о связи с BMI (56, 72).Два исследования показали, что люди с избыточным весом и ожирением чаще занижали данные по сравнению с людьми с нормальным весом (54, 80), хотя только одно исследование показало, что это различие является статистически значимым ( p = 0,032) (80).

Food Record с технологической составляющей

Технология была применена к методу записи пищи, наиболее часто с использованием цифровой камеры ( n = 4) (45, 67, 68, 71), мобильного телефона (на основе изображений) ( n = 3) (55, 60 , 69), переносная камера ( n = 1) (65), Интернет ( n = 1) (43) и КПК ( n = 1) (58).Из исследований, в которых использовалась цифровая камера, в трех исследованиях сообщалось о занижении 6, 17 и 24% соответственно (45, 68, 71), а в одном исследовании не было обнаружено значительных различий между EI и TEE (67). Однако люди с избыточной массой тела или ожирением чаще сообщали об EI. Методы на основе изображений с использованием смартфона для оценки EI были занижены по сравнению с DLW от 20 до 37% (54), а в одном исследовании, где носимая камера использовалась в дополнение к записи о еде по сравнению с одной записью о еде, использование носимая камера снизила уровень занижения сведений с 34 до 30% (65).

24-часовой отзыв

Было обнаружено, что

EI занижается на 8–30% (5, 25, 38, 39, 44, 50, 53, 59, 66, 73, 79) в семи исследованиях, оценивающих отчетность EI с разбивкой по полу. Женщины, как правило, занижали больше, чем мужчины во всех исследованиях (5, 38, 39, 50, 53, 59, 66, 74). В двух исследованиях была обнаружена взаимосвязь между точностью отчетов EI и статусом веса, при этом большее количество заниженных значений EI, выраженное в процентах у взрослых с избыточным весом / ожирением, чем у взрослых с нормальным весом (50, 73). Одно исследование показало, что ЭИ был завышен в клинической группе людей с синдромом короткой кишки (36).

24-часовой MPR с технологической составляющей

Технология

в основном была добавлена к 24-часовому отзыву за счет использования веб-системы, чтобы помочь в стандартизации многопроходного подхода (25, 31, 63). В одном исследовании метод 24 MPR сравнивался с тем же методом, но с добавлением носимой камеры (39). Хотя было обнаружено, что оба метода занижают EI по сравнению с DLW, метод на основе камеры имел меньшую степень занижения (13 и 7% для женщин и 17 и 9% для мужчин для 24 MPR и 24 MPR с камеры соответственно) (39).В этом исследовании использовалась носимая камера, носимая на шее, с датчиками движения, тепла и света.

Исследования с использованием нескольких методов

В семи исследованиях использовались и сообщались результаты неверной отчетности EI с использованием трех различных диетических методов в одном исследовании. Наиболее часто используемыми методами оценки питания были 24-часовой отзыв, FFQ и записи о питании ( n = 5) (27, 31, 63, 72, 73). В трех исследованиях сообщалось, что занижение данных было самым низким для метода MPR (31, 63, 73), в одном сообщалось, что данные о пищевых продуктах были самыми низкими (72), а в одном сообщалось, что FFQ был самым низким (27).

Опросник по частоте пищевых продуктов

Значительное занижение EI было обнаружено на уровне группы во всех исследованиях с использованием FFQ по сравнению с методом DLW. Занижение EI варьировалось от 4,6 до 42% (5, 24, 25, 27, 31, 34, 37, 38, 48, 50, 54, 61, 62, 66, 72–74, 76, 77). Одно исследование не показало существенной разницы между зарегистрированными EI и TEE в среднем при использовании адаптированной версии FFQ из проверенного FFQ среди женщин с низким доходом в Бразилии, однако на индивидуальном уровне сохранялись значительные неверные данные (49).

В трех исследованиях сравнивалась валидность различных FFQ (например, блок FFQ по сравнению с опросником по истории питания (DHQ) Национального института рака) (72) и полный и краткий FFQ, то есть Meal-Q и MiniMeal-Q (28, 34, 72, 77). Не было обнаружено существенной разницы в достоверности между блоком FFQ и DHQ, при этом оба имели сходное, значительное занижение EI на ~ 27% у 20 взрослых женщин (72). Другое исследование показало значимое ( P <0,001) занижение на 30% и 36% для Meal-Q и MiniMeal-Q, соответственно.Разница между EI, оцененной с помощью Meal-Q и MiniMeal-Q, оказалась значительной ( P <0,001) (34). В исследовании Sawaya et al. (72), было обнаружено, что оба FFQ занижают EI у молодых женщин.

Половые различия в EI для FFQ описаны в семи исследованиях (5, 37, 38, 50, 62, 66, 76). В трех исследованиях сообщалось о том, что о мужчинах неверно сообщали в меньшей степени, чем о женщинах (50, 66, 76), в двух исследованиях сообщалось о неверных данных о женщинах в меньшей степени (37, 62), а в двух исследованиях сообщалось об аналогичных количествах или об отсутствии значимых различий (5, 38). ).

Одно исследование с использованием FFQ выявило, что люди с ожирением занижают данные в большей степени, чем их коллеги, не страдающие ожирением (50). Другое исследование показало, что разница между EI по методам FFQ и DLW достоверно коррелировала с ИМТ ( r = 0,50) (48). В одном исследовании использовался FFQ, известный как Краткий диетический вопросник (SDQ), и было установлено, что EI был значительно ( P <0,001) занижен на ~ 26%, а женщины с избыточной массой тела / ожирением занижали больше, чем обычно. вес самки (77).

История диеты

В четырех из пяти исследований было обнаружено, что ЭИ занижается на 1,3–47% (26, 30, 35, 70). Одно исследование показало, что женщины занижают больше, чем мужчины, на 47 и 1,3% соответственно (26).

Обсуждение

Целью настоящего обзора было оценить достоверность самооценок методов оценки питания, используемых для оценки EI взрослых, по сравнению с TEE, измеренным методом DLW. Всего было включено 59 исследований, в которых использовался ряд методов оценки питания, из которых записи о питании были наиболее часто используемым методом ( n = 36).Главный вывод из обзора заключается в том, что EI был занижен для большинства методов оценки питания, в диапазоне 11–41% для записей о пищевых продуктах, 1,3–47% для историй питания и 4,6–42% для FFQ. Было обнаружено, что метод с наименьшим общим количеством и наименьшим уровнем вариации — это 24-часовые повторения с недооценкой EI в пределах 8–30%. Это изменение может быть связано с предвзятостью воспоминаний, продолжительностью отчетного периода и использованием наглядных пособий для оценки размера порции.

Методы, использующие технологический компонент, относительно новы по сравнению с традиционными методами.Они часто более подходят для некоторых групп населения по сравнению с более традиционными методами, такими как люди с языковым барьером (84). Они также могут помочь уменьшить зависимость от памяти респондентов и оценить размер порции путем регистрации поступлений в режиме реального времени с помощью изображений и / или аудиозаписей (85). Текущий обзор включал 15 исследований, в которых использовался технологический компонент, и только два исследования проводили прямые сравнения с традиционными методами. Было обнаружено, что карманный КПК и метод удаленной фотографии еды (RFPM), которые относятся к категории записей о продуктах питания, имеют меньшую степень искажения, однако эти технологии были поддержаны только одним исследованием каждый (55, 58).Во многих исследованиях в текущем обзоре технологический компонент в основном использовался на этапе сбора (31, 34, 39, 43), однако во многих исследованиях это было неясно. На сегодняшний день исследования по оценке EI с использованием носимых устройств ограничиваются небольшими размерами выборок, ограниченным разнообразием пищевых продуктов и контролируемой средой (8, 86). Для определения эффективности методов, основанных на технологиях, в том числе тех, которые используют датчики или носимые устройства, требуется объективное измерение поступления в выборки большего размера и у свободных людей (7).

Текущий обзор также выявил половые различия в достоверности EI, при этом женщины имеют большую тенденцию, чем мужчины, неверно сообщать EI при использовании MPR (38, 39, 53), истории питания (26) и FFQ. Однако для записей о продуктах питания и FFQ различия по полу по самооценке EI были несовместимыми (37, 76). В исследуемых популяциях взрослых с избыточным весом или ожирением занижение сведений об EI было выявлено в большей степени по сравнению со взрослыми с нормальным весом при сравнении MPR (50, 73), истории питания и данных о питании с TEE с использованием DLW.Эти результаты могут отражать ряд причин, в том числе: сложность определения рациона питания с использованием вышеупомянутых методов в этой группе населения, например, различия в размере порции или частоте потребления, а также диетические практики этих людей, о которых сообщалось ранее. (87).

В этом систематическом обзоре 32 исследования использовали метод триад (т.е. 2+ измерения диеты + DLW) для оценки валидности методов оценки питания (например, FFQ, 24-часовое напоминание, DLW).В девяти из этих исследований использовался метод с технологической поддержкой (25, 31, 39, 48, 57, 65, 67, 69, 71). Метод триад — это статистический подход, который иногда используется в исследованиях по оценке питания (88–90). Этот метод начал использоваться для валидации методов оценки питания в двадцатом веке и включает в себя три отдельных метода измерения потребления пищи. Они могут включать первичный метод, эталонный метод и биомаркер (90). Метод предполагает линейность между тремя измерениями и истинное потребление и независимость между тремя ошибками измерения.Известно несколько ограничений и системных ошибок, влияющих на этот подход, включая появление коэффициентов корреляции> 1 или отрицательных коэффициентов, которые ограничивают применение (90).

Интересно, что FFQ был наиболее распространенным методом, используемым во включенных валидационных исследованиях ( n = 12) (5, 25, 38, 48–50, 54, 61, 66, 74, 76, 77). Подобно другим методам, FFQ значительно занижает EI, и его надежность низкая из-за степени вариации недооценки в исследованиях с заниженными данными в диапазоне от 4.От 6 до 42%. Это может быть вызвано вариациями внутри самого метода FFQ, такими как продолжительность отчетного периода и количество продуктов питания и напитков в анкете. Несмотря на это, другие диетические оценки, включая анамнез диеты, FR, WFR, 24-часовой отзыв, 24-часовой MPR и SDQ, также занижали EI. Необходимо изучить способы повышения точности оценок EI, и методы, основанные на технологиях, могут помочь лучше определить размер порций и снизить нагрузку на участников (84).

Об ограничениях использования самооценки EI из методов оценки питания сообщалось ранее (6, 91).Это включает в себя временные рамки измерений DLW, которые не обязательно перекрываются с периодом времени, охватывающим измерение EI. Если бы общий EI участников был нетипичным в период измерения DLW, степень недооценки или завышения была бы выше, чем обычно. Следует также признать, что TEE, измеряемый DLW, не всегда равен или почти равен потребляемой энергии у людей с нестабильным весом (92, 93). Истинное неверное сообщение об EI могло иметь место во включенных исследованиях. Несогласованность между методами может быть результатом предвзятости репортера или реактивности, которая возникает, когда люди меняют свое диетическое поведение из-за большей осведомленности об измерении своего рациона.Реактивность может быть связана с желанием человека снизить нагрузку за счет упрощения процесса отчетности (например, употребление отдельных продуктов, а не комбинированных продуктов) или соблюдения социально желаемых норм (т. Е. Иметь видимость здорового питания, сообщая о потреблении в соответствии с рекомендациями в диетические рекомендации).

Заключение

Было обнаружено, что большинство методов оценки питания, включенных в текущий обзор, значительно занижают EI по сравнению с TEE, измеренным с помощью метода DLW.Степень занижения сведений сильно различалась по всем методам, однако 24-часовые отзывы были связаны с меньшей степенью ошибочной отчетности и меньшими вариациями в степени неполной отчетности по сравнению с другими методами оценки питания.

Авторские взносы

TB, MR и CC разработали обзор. YH выполнила большую часть работы в рамках своего дипломного проекта за последний год. Все авторы участвовали на всех этапах проверки названия, извлечения данных и критического обзора рукописи.

Конфликт интересов

Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могут быть истолкованы как потенциальный конфликт интересов.

Дополнительные материалы

Дополнительные материалы к этой статье можно найти в Интернете по адресу: https://www.frontiersin.org/articles/10.3389/fendo.2019.00850/full#supplementary-material

Список литературы

1. Афшин А., Форузанфар М.Х., Рейцма МБ, Сур П., Эстеп К., Ли А. и др.Влияние избыточного веса и ожирения на здоровье в 195 странах за 25 лет. N Engl J Med. (2017) 377: 13–27. DOI: 10.1056 / NEJMoa1614362

PubMed Аннотация | CrossRef Полный текст | Google Scholar

2. Форузанфар М., Александр Л., Андерсон Х. Р., Бахман В. Ф., Бирюков С., Брауэр М. и др. Глобальная, региональная и национальная сравнительная оценка рисков 79 поведенческих, экологических, профессиональных и метаболических рисков или групп рисков в 188 странах, 1990–2013 гг .: систематический анализ для исследования глобального бремени болезней 2013 г. Ланцет. (2015) 386: 2287–323. DOI: 10.1016 / S0140-6736 (15) 00128-2

PubMed Аннотация | CrossRef Полный текст | Google Scholar

4. Берроуз Т., Мартин Р., Коллинз С. Систематический обзор валидности методов оценки питания детей по сравнению с методом воды с двойной меткой. J Am Diet Assoc. (2010) 110: 1501–10. DOI: 10.1016 / j.jada.2010.07.008

CrossRef Полный текст | Google Scholar

5. Субар А.Ф., Кипнис В., Троиано Р.П., Мидтюн Д., Шоллер Д.А., Бингхэм С. и др.Использование биомаркеров потребления для оценки степени неправильного питания в большой выборке взрослых: исследование OPEN. Am J Epidemiol. (2003) 158: 1–13. DOI: 10.1093 / aje / kwg092

PubMed Аннотация | CrossRef Полный текст | Google Scholar

6. Фридман Л.С., Комминс Дж. М., Молер Дж. Э., Уиллетт В., Тинкер Л. Ф., Субар А. Ф. и др. Объединенные результаты 5 проверочных исследований инструментов самоотчета о питании с использованием биомаркеров восстановления для потребления калия и натрия. Am J Epidemiol. (2015) 181: 473–87. DOI: 10.1093 / AJE / kwu325

PubMed Аннотация | CrossRef Полный текст | Google Scholar

7. Ролло М., Уильямс Р.Л., Берроуз Т.Л., Киркпатрик С.И., Бухер Т., Коллинз К. Что они на самом деле едят? Обзор новых подходов к оценке и проверке диетического питания. Curr Nutr Rep. (2016) 5: 307–14. DOI: 10.1007 / s13668-016-0182-6

CrossRef Полный текст | Google Scholar

8. Ву Т., Линь Ф., Альшурафа Н., Сюй В. Технологии мониторинга потребления пищи с помощью носки: всесторонний обзор. Компьютеры. (2017) 6: 4. DOI: 10.3390 / computers6010004

CrossRef Полный текст | Google Scholar

10. Харрисон Г.Г., Галал О.М., Ибрагим Н., Хоршид А., Стормер А., Лесли Дж. И др. Занижение количества потребляемой пищи из-за отзыва о питании не является универсальным: сравнение данных египетских и американских женщин. J Nutr. (2000) 130: 2049–54. DOI: 10.1093 / jn / 130.8.2049

CrossRef Полный текст | Google Scholar

11. Йоханссон Г., Викман А., Арен А. М., Халльманс Г., Йоханссон И.Занижение количества потребляемой энергии в повторяющихся 24-часовых воспоминаниях, связанных с полом, возрастом, весом, днем интервью, уровнем образования, сообщаемым количеством потребляемой пищи, привычками курения и местом проживания. Public Health Nutr. (2001) 4: 919–27. DOI: 10.1079 / PHN2001124

PubMed Аннотация | CrossRef Полный текст | Google Scholar

12. Герсовиц М., Мэдден Дж., Смициклас-Райт Х. Срок действия 24-часового периода. диетические воспоминания и семидневные записи для групповых сравнений. J Am Diet Assoc. (1978) 73: 48–55.

PubMed Аннотация | Google Scholar

13. Томпсон Ф., Субар А. Питание в профилактике и лечении заболеваний . 3-е изд. Bethesda, MD: Academic Press (2013).

PubMed Аннотация | Google Scholar

14. Фробишер С., Максвелл М. Оценка размеров порций еды: сравнение использования описаний размеров порций и фотографического атласа еды детьми и взрослыми. J Hum Nutr Diet. (2003) 16: 181–8.DOI: 10.1046 / j.1365-277X.2003.00434.x

PubMed Аннотация | CrossRef Полный текст | Google Scholar

15. Томпсон Ф. Е., Субар А. Ф., Лориа С. М., Риди Дж. Л., Барановски Т. Потребность в технологических инновациях в оценке питания. J Am Diet Assoc. (2010) 110: 48–51. DOI: 10.1016 / j.jada.2009.10.008

PubMed Аннотация | CrossRef Полный текст | Google Scholar

17. Trabulsi J, Schoeller DA. Оценка инструментов оценки питания по сравнению с водой с двойной меткой, биомаркером привычного потребления энергии. Am J Physiol Endocrinol Metab. (2001) 281: E891–9. DOI: 10.1152 / ajpendo.2001.281.5.E891

PubMed Аннотация | CrossRef Полный текст | Google Scholar

18. Блэк А.Е., Коул Т.Дж. Предвзятое завышение или занижение сведений характерно для отдельных лиц, будь то с течением времени или с помощью различных методов оценки. J Am Diet Assoc. (2001) 101: 70–80. DOI: 10.1016 / S0002-8223 (01) 00018-9

CrossRef Полный текст | Google Scholar

19. Блэк А.Е., Коул Т.Дж.Различия между субъектами и участниками в расходе энергии, измеренные с помощью метода воды с двойной меткой: значение для проверки достоверности данных о потреблении энергии с пищей. Eur J Clin Nutr. (2000) 54: 386–94. DOI: 10.1038 / sj.ejcn.1600970

PubMed Аннотация | CrossRef Полный текст | Google Scholar

22. Американская диетическая ассоциация. Руководство по анализу доказательств: этапы процесса анализа доказательств ADA . Чикаго, Иллинойс: Академия питания и диетологии (2016).

Google Scholar

23. Томпсон Ф. Е., Киркпатрик С. И., Кребс-Смит С. М., Риди Дж., Шап Т. Е., Уилсон М. М. и др. Учебник по оценке питания Национального института рака: ресурс для исследования диеты. J Acad Nutr Diet. (2015) 115: 1986–95. DOI: 10.1016 / j.jand.2015.08.016

PubMed Аннотация | CrossRef Полный текст | Google Scholar

24. Андерсен Л.Ф., Томтен Х., Хаггарти П., Лово А, Хустведт BE. Подтверждение потребления энергии, оцененного с помощью вопросника о частоте приема пищи: исследование воды с двойной маркировкой. Eur J Clin Nutr. (2003) 57: 279–84. DOI: 10.1038 / sj.ejcn.1601519

PubMed Аннотация | CrossRef Полный текст | Google Scholar

25. Араб Л., Ценг Ч., Энг А., Джардак П. Достоверность многопроходного, круглосуточного самоуправляемого отзыва через Интернет для оценки общего потребления энергии у чернокожих и белых. Am J Epidemiol. (2011) 174: 1256–65. DOI: 10.1093 / aje / kwr224

PubMed Аннотация | CrossRef Полный текст | Google Scholar

26. Барнард Дж. А., Тапселл Л.С., Дэвис П.С., Бреннингер В.Л., Сторлиен Л.Х.Взаимосвязь высоких затрат энергии и вариаций в рационе с точностью отчетности в 7-дневных записях о питании и историях питания в группе здоровых взрослых добровольцев. Eur J Clin Nutr. (2002) 56: 358–67. DOI: 10.1038 / sj.ejcn.1601341

PubMed Аннотация | CrossRef Полный текст | Google Scholar

27. Баталон Г.П., Такер К.Л., Хейс Н.П., Винкен А.Г., Гринберг А.С., МакКрори М.А. и др. Психологические показатели пищевого поведения и точность 3 распространенных методов оценки питания у здоровых женщин в постменопаузе. Am J Clin Nutr. (2000) 71: 739–45. DOI: 10.1093 / ajcn / 71.3.739

PubMed Аннотация | CrossRef Полный текст | Google Scholar

28. Бизли Дж. М., Юнг М., Тасевска Н., Вонг В. У., Сига-Риз А. М., Сотрес-Альварес Д. и др. Прогнозируемое биомаркером потребление сахара по сравнению с самооценкой у латиноамериканцев / латиноамериканцев США: результаты исследования HCHS / SOL SOLNAS. Public Health Nutr. (2016) 19: 3256–64. DOI: 10.1017 / S1368980016001580

PubMed Аннотация | CrossRef Полный текст | Google Scholar

29.Блэк А.Е., Бингхэм С.А., Йоханссон Г., Трус В.А. Валидация диетического потребления белка и энергии по сравнению с суточным расходом азота в моче и DLW у женщин среднего возраста, пенсионеров и субъектов с ожирением: сравнение с валидацией с предполагаемыми потребностями в энергии. Eur J Clin Nutr. (1997) 51: 405–13. DOI: 10.1038 / sj.ejcn.1600425

PubMed Аннотация | CrossRef Полный текст | Google Scholar

30. Блэк А.Е., Уэлч А.А., Бингхэм С.А. Валидация диетических поступлений, измеренных на основе диетического анамнеза, в сравнении с суточной экскрецией азота с мочой и расходом энергии, измеренными методом воды с двойной меткой у женщин среднего возраста. Br J Nutr. (2000) 83: 341–54. DOI: 10.1017 / S0007114500000441

PubMed Аннотация | CrossRef Полный текст | Google Scholar

31. Blanton CA, Moshfegh AJ, Baer DJ, Kretsch MJ. Автоматический многопроходный метод USDA точно оценивает общее потребление энергии и питательных веществ в группе. J Nutr. (2006) 136: 2594–9. DOI: 10.1093 / jn / 136.10.2594

PubMed Аннотация | CrossRef Полный текст | Google Scholar

32. Boushey CJ, Spoden M, Delp EJ, Zhu F, Bosch M, Ahmad Z, et al.Сообщенная точность потребления энергии по сравнению с водой с двойной маркировкой и удобство использования мобильного регистратора пищевых продуктов среди взрослых, проживающих в сообществах. Питательные вещества. (2017) 9:22. DOI: 10.3390 / nu

PubMed Аннотация | CrossRef Полный текст | Google Scholar

33. Шампанское CM, Брей Г.А., Курц А.А., Монтейро Дж. Б., Такер Е., Волауфова Дж. И др. Потребление энергии и расход энергии: контролируемое исследование, в котором сравнивают диетологов и не диетологов. J Am Diet Assoc. (2002) 102: 1428–32.DOI: 10.1016 / S0002-8223 (02)-0

PubMed Аннотация | CrossRef Полный текст | Google Scholar

34. Кристенсен С.Е., Моллер Э., Бонн С.Е., Плонер А., Райт А., Шоландер А. и др. Два новых интерактивных опросника по частоте приема пищи и онлайн-опроса: проверка потребления энергии и макроэлементов. J Med Internet Res. (2013) 15: e109. DOI: 10.2196 / jmir.2458

PubMed Аннотация | CrossRef Полный текст | Google Scholar

35. Фаруки Н., Слинде Ф., Хаглин Л., Сандстром Т.Оценка потребления энергии у женщин с хронической обструктивной болезнью легких: исследование методом воды с двойной маркировкой. J Nutr Health Aging. (2015) 19: 518–24. DOI: 10.1007 / s12603-014-0575-4

PubMed Аннотация | CrossRef Полный текст | Google Scholar

36. Фассини П.Г., Дас С.К., Пфример К., Суен ВММ, Сержио Марчини Дж., Ферриолли Э. Потребление энергии при синдроме короткой кишки: оценка по 24-часовому отзыву о питании по сравнению с методом воды с двойной меткой. Br J Nutr. (2018) 119: 196–201. DOI: 10.1017 / S0007114517003373

PubMed Аннотация | CrossRef Полный текст | Google Scholar

37. Ферриолли Э., Пфример К., Моригути Дж.С., Лима Н.К., Моригути Е.К., Формигьери П.Ф. и др. Среди бразильских свободно живущих пожилых людей часто заниженные сведения о потреблении пищи: исследование воды с двойным названием. Масс-спектрометр Rapid Commun. (2010) 24: 506–10. DOI: 10.1002 / RCM.4333

PubMed Аннотация | CrossRef Полный текст | Google Scholar

38.Фридман Л.С., Мидтюн Д., Кэрролл Р.Дж., Кребс-Смит С., Субар А.Ф., Троиано Р.П. и др. Поправки для улучшения оценки распределения обычного рациона питания среди населения. J Nutr. (2004) 134: 1836–43. DOI: 10.1093 / jn / 134.7.1836

PubMed Аннотация | CrossRef Полный текст | Google Scholar

39. Гемминг Л., Раш Е., Мэддисон Р., Доэрти А., Гант Н., Аттер Дж. И др. Носимые камеры могут уменьшить количество заниженных сведений о питании: двойная маркировка воды для 24-часового отзыва с помощью камеры. Br J Nutr. (2015) 113: 284–91. DOI: 10.1017 / S0007114514003602

PubMed Аннотация | CrossRef Полный текст | Google Scholar

40. Хагфорс Л., Вестертерп К., Скольдстам Л., Йоханссон Г. Достоверность заявленных затрат энергии и заявленных поступлений энергии, белка, натрия и калия у пациентов с ревматоидным артритом в исследовании диетических вмешательств. Eur J Clin Nutr. (2005) 59: 238–45. DOI: 10.1038 / sj.ejcn.1602064

PubMed Аннотация | CrossRef Полный текст | Google Scholar

41.Хайз М.Э., Салливан Д.К., Якобсен Д.И., Джонсон С.Л., Доннелли Д.Э. Проверка достоверности измерений потребления энергии, определенных на основе записанных наблюдателями записей о пищевых продуктах и методов отзыва, по сравнению с методом воды с двойной меткой у людей с избыточным весом и ожирением. Am J Clin Nutr. (2002) 75: 263–7. DOI: 10.1093 / ajcn / 75.2.263

PubMed Аннотация | CrossRef Полный текст | Google Scholar

42. Ховат П.М., Мохан Р., Шампанское С., Монлезун С., Возняк П., Брей Г.А. Достоверность и надежность представленных данных о потреблении пищи. J Am Diet Assoc. (1994) 94: 169–73. DOI: 10.1016 / 0002-8223 (94)-9

PubMed Аннотация | CrossRef Полный текст | Google Scholar

43. Хатчессон М.Дж., Труби Х., Каллистер Р., Морган П.Дж., Дэвис П.С., Коллинз К.Э. Может ли онлайн-запись о продуктах питания точно оценить потребление энергии у женщин с избыточным весом и ожирением? Пилотное исследование. J Hum Nutr Diet. (2013) 26 (Дополнение 1): 140–4. DOI: 10.1111 / jhn.12094

PubMed Аннотация | CrossRef Полный текст | Google Scholar

44.Джонсон Р.К., Соултанакис Р.П., Мэтьюз Д.Е. Грамотность и ожирение связаны с занижением количества потребляемой энергии у американских женщин с низким доходом, использующих многократное 24-часовое повторение: исследование воды с двойной маркировкой. J Am Diet Assoc. (1998) 98: 1136–40. DOI: 10.1016 / S0002-8223 (98) 00263-6

PubMed Аннотация | CrossRef Полный текст | Google Scholar

45. Kaczkowski CH, Jones PJ, Feng J, Bayley HS. Рекорды четырехдневной мультимедийной диеты недооценивают энергетические потребности женщин среднего и пожилого возраста, определяемые водой с двойной маркировкой. J Nutr. (2000) 130: 802–5. DOI: 10.1093 / jn / 130.4.802

PubMed Аннотация | CrossRef Полный текст | Google Scholar

46. Koebnick C, Wagner K, Thielecke F, Dieter G, Hohne A, Franke A, et al. Простой в использовании полуколичественный отчет о пищевых продуктах, подтвержденный на предмет потребления энергии с помощью метода воды с двойной маркировкой. Eur J Clin Nutr. (2005) 59: 989–95. DOI: 10.1038 / sj.ejcn.1602200

PubMed Аннотация | CrossRef Полный текст | Google Scholar

47.Koehler K, Braun H, De Marees M, Fusch G, Fusch C, Mester J, et al. Параллельная оценка питания и активности у спортсменов: проверка относительно воды с двойной меткой, 24-часовая экскреция мочевины и непрямая калориметрия. J Sports Sci. (2010) 28: 1435–49. DOI: 10.1080 / 02640414.2010.513482

PubMed Аннотация | CrossRef Полный текст | Google Scholar

48. Кроке А., Клипштейн-Гробуш К., Восс С., Мозенедер Дж., Тилеке Ф., Ноак Р. и др. Валидация самостоятельно заполняемого опросника по частоте приема пищи, проведенного в рамках исследования European Prospective Investigation of Cancer and Nutrition (EPIC): сравнение потребления энергии, белка и макроэлементов, оцененных с помощью воды, азота в моче и повторного суточного питания. методы отзыва. Am J Clin Nutr. (1999) 70: 439–47. DOI: 10.1093 / ajcn / 70.4.439

PubMed Аннотация | CrossRef Полный текст | Google Scholar

49. Линс, Иллинойс, Буэно Н.Б., Гротти Клементе А.П., Пфример К., Савая А.Л., де Менезес Толедо Флоренсио TM. Потребление энергии у социально уязвимых женщин, проживающих в Бразилии: оценка точности двух методов регистрации диетического питания с использованием воды с двойной маркировкой. J Acad Nutr Diet. (2016) 116: 1560–7. DOI: 10.1016 / j.jand.2016.02.023

PubMed Аннотация | CrossRef Полный текст | Google Scholar

50.Лисснер Л., Троиано Р.П., Мидтюн Д., Хейтманн Б.Л., Кипнис В., Субар А.Ф. и др. ОТКРЫТЬ о ожирении: биомаркеры выздоровления, ошибки в отчетах о питании и ИМТ. Int J Obes. (2007) 31: 956–61. DOI: 10.1038 / sj.ijo.0803527

PubMed Аннотация | CrossRef Полный текст | Google Scholar

51. Ливингстон М.Б., Прентис А.М., Штамм Дж. Дж., Кауард В.А., Блэк А.Е., Баркер М.Э. и др. Точность взвешенных диетических записей при изучении диеты и здоровья. BMJ. (1990) 300: 708–12. DOI: 10.1136 / bmj.300.6726.708

PubMed Аннотация | CrossRef Полный текст | Google Scholar

52. Лоф М., Форсум Э. Подтверждение потребления энергии с помощью отзыва о питании по сравнению с различными методами оценки расхода энергии. J Hum Nutr Diet. (2004) 17: 471–80. DOI: 10.1111 / j.1365-277X.2004.00554.x

PubMed Аннотация | CrossRef Полный текст | Google Scholar

53. Лопес Т.С., Луис Р.Р., Хоффман Д.Д., Ферриолли Э., Пфример К., Моура А.С. и др. Ошибочные данные о потреблении энергии, оцененные с помощью записей о продуктах питания и 24-часовых отзывов, по сравнению с общими расходами энергии, оцененными с помощью DLW. Eur J Clin Nutr. (2016) 70: 1259–64. DOI: 10.1038 / ejcn.2016.85

PubMed Аннотация | CrossRef Полный текст | Google Scholar

54. Махабир С., Баер Д. Д., Гиффен С., Субар А., Кэмпбелл В., Хартман Т. Дж. И др. Ошибочные данные о потреблении калорий в записях о диете и опросе о частоте приема пищи по сравнению с водой с двойной меткой среди женщин в постменопаузе. Eur J Clin Nutr. (2006) 60: 561–5. DOI: 10.1038 / sj.ejcn.1602359

PubMed Аннотация | CrossRef Полный текст | Google Scholar

55.Мартин С.К., Корреа Дж.Б., Хан Х., Аллен Х.Р., Руд Дж.С., Шампанское С.М. и др. Применимость метода удаленной фотографии еды (RFPM) для оценки потребления энергии и питательных веществ в режиме, близком к реальному времени. Ожирение . (2012) 20: 891–9. DOI: 10.1038 / oby.2011.344

PubMed Аннотация | CrossRef Полный текст | Google Scholar

56. Мартин Л.Дж., Су В., Джонс П.Дж., Локвуд Г.А., Тритчлер Д.Л., Бойд Н.Ф. Сравнение потребления энергии, определенного на основании данных о пищевых продуктах, и воды с двойной меткой у женщин, участвовавших в исследовании диетических вмешательств. Am J Clin Nutr. (1996) 63: 483–90. DOI: 10.1093 / ajcn / 63.4.483

PubMed Аннотация | CrossRef Полный текст | Google Scholar

57. Медин А.С., Карлсен М.Х., Хэмбли С., Спикман Дж. Р., Стромайер С., Андерсен Л. Ф. Достоверность сетевого FFQ оценивается по дважды помеченной воде и многократным 24-часовым отзывам. Br J Nutr. (2017) 118: 1106–17. DOI: 10.1017 / S0007114517003178

PubMed Аннотация | CrossRef Полный текст | Google Scholar

58. McClung HL, Sigrist LD, Smith TJ, Karl JP, Rood JC, Young AJ, et al.Мониторинг потребления энергии: портативный персональный цифровой помощник обеспечивает точность, сопоставимую с письменными записями. J Am Diet Assoc. (2009) 109: 1241–5. DOI: 10.1016 / j.jada.2009.04.015

PubMed Аннотация | CrossRef Полный текст | Google Scholar

59. Moshfegh AJ, Rhodes DG, Baer DJ, Murayi T., Clemens JC, Rumpler WV, et al. Автоматизированный многопроходный метод министерства сельского хозяйства США снижает систематическую ошибку при сборе потребляемой энергии. Am J Clin Nutr. (2008) 88: 324–32.DOI: 10.1093 / ajcn / 88.2.324

PubMed Аннотация | CrossRef Полный текст | Google Scholar

60. Most J, Vallo PM, Altazan AD, Gilmore LA, Sutton EF, Cain LE, et al. Фотосъемка еды не является точным показателем потребления энергии беременными женщинами, страдающими ожирением. J Nutr. (2018) 148: 658–63. DOI: 10.1093 / jn / nxy009

CrossRef Полный текст | Google Scholar

61. Nybacka S, Berteus Forslund H, Wirfalt E, Larsson I, Ericson U, Warensjo Lemming E, et al. Сравнение веб-инструмента учета пищевых продуктов и вопросника о частоте приема пищи и объективная проверка с использованием метода воды с двойной маркировкой для населения среднего возраста в Швеции. J Nutr Sci. (2016) 5: e39. DOI: 10.1017 / jns.2016.29

PubMed Аннотация | CrossRef Полный текст | Google Scholar

62. Окубо Х., Сасаки С., Рафамантананцоа Х. Х., Исикава-Таката К., Окадзаки Х., Табата И. Подтверждение самооценки потребления энергии с помощью анкеты по истории питания, которую самостоятельно заполняли, с использованием метода воды с двойной меткой у 140 взрослых японцев. Eur J Clin Nutr. (2008) 62: 1343–50. DOI: 10.1038 / sj.ejcn.1602858

PubMed Аннотация | CrossRef Полный текст | Google Scholar

63.Парк Й., Додд К., Кипнис В., Томпсон Ф., Потишман Н., Шоллер Д. и др. Сравнение самооценки приема пищи из автоматизированных самоуправляемых 24-часовых воспоминаний, 4-дневных записей о приеме пищи и опросников частоты приема пищи с биомаркерами восстановления. Am J Clin Nutr. (2018) 107: 80–93. DOI: 10.1093 / ajcn / nqx002

PubMed Аннотация | CrossRef Полный текст | Google Scholar

64. Persson M, Elmstahl S, Westerterp KR. Валидация режима диетического учета у гериатрических пациентов, использующих воду с двойной меткой. Eur J Clin Nutr. (2000) 54: 789–96. DOI: 10.1038 / sj.ejcn.1601092

PubMed Аннотация | CrossRef Полный текст | Google Scholar

65. Петтитт С., Лю Дж., Квасницки Р.М., Ян Г.З., Престон Т., Фрост Г. Пилотное исследование, направленное на определение того, улучшает ли использование легкой переносной микрокамеры точность оценки диеты и предоставляет информацию о макроэлементах и скорости приема пищи. Br J Nutr. (2016) 115: 160–7. DOI: 10.1017 / S0007114515004262

PubMed Аннотация | CrossRef Полный текст | Google Scholar

66.Пфример К., Вилела М., Резенде С.М., Скаглиуси Ф.Б., Марчини Дж.С., Лима Н.К. и др. Занижение количества потребляемой пищи и ожирения у независимых пожилых людей: исследование воды с двойным названием. Возраст старения. (2015) 44: 103–8. DOI: 10.1093 / старение / afu142

PubMed Аннотация | CrossRef Полный текст | Google Scholar

67. Ptomey LT, Willis EA, Honas JJ, Mayo MS, Washburn RA, Herrmann SD, et al. Достоверность потребления энергии оценивается по цифровой фотографии плюс отзыв у молодых людей с избыточным весом и ожирением. J Acad Nutr Diet. (2015) 115: 1392–9. DOI: 10.1016 / j.jand.2015.05.006

PubMed Аннотация | CrossRef Полный текст | Google Scholar

68. Рафамантананцоа Х. Х., Эбине Н., Йошиока М., Йошитаке И., Танака Х., Сайто С. Эффективность трехдневных диетических записей с помощью усовершенствованной фотосистемы для измерения потребления энергии японскими мужчинами, определенная методом воды с двойной меткой. J Clin Biochem Nutr. (2003) 33: 33–8. DOI: 10.3164 / jcbn.33.33

CrossRef Полный текст | Google Scholar

69.Rollo ME, Ash S, Lyons-Wall P, Russell AW. Оценка метода оценки питания на основе изображений мобильного телефона у взрослых с диабетом 2 типа. Питательные вещества. (2015) 7: 4897–910. DOI: 10.3390 / nu7064897

PubMed Аннотация | CrossRef Полный текст | Google Scholar

70. Ротенберг Э., Босеус I, Лернфельт Б., Ландаль С., Стин Б. Потребление и расход энергии: подтверждение истории диеты с помощью мониторинга сердечного ритма, дневника активности и воды с двойной меткой. Eur J Clin Nutr. (1998) 52: 832–8. DOI: 10.1038 / sj.ejcn.1600655

PubMed Аннотация | CrossRef Полный текст | Google Scholar

71. Сагаяма Х., Кондо Э., Сиосе К., Ямада Й., Мотонага К., Оучи С. и др. Оценка потребности в энергии и оборота воды у японских борцов колледжа с использованием метода воды с двойной маркировкой. J Nutr Sci Vitaminol. (2017) 63: 141–7. DOI: 10.3177 / jnsv.63.141

PubMed Аннотация | CrossRef Полный текст | Google Scholar

72. Савайя А.Л., Такер К., Цай Р., Уиллетт В., Зальцман Е., Даллал Г.Е. и др.Оценка четырех методов определения потребления энергии у молодых и пожилых женщин: сравнение с дважды помеченными водой измерениями общего расхода энергии. Am J Clin Nutr. (1996) 63: 491–9. DOI: 10.1093 / ajcn / 63.4.491

PubMed Аннотация | CrossRef Полный текст | Google Scholar

73. Scagliusi FB, Ferriolli E, Pfrimer K, Laureano C, Cunha CS, Gualano B, et al. Занижение количества потребляемой энергии у бразильских женщин варьируется в зависимости от оценки питания: перекрестное исследование с использованием воды с двойной меткой. J Am Diet Assoc. (2008) 108: 2031–40. DOI: 10.1016 / j.jada.2008.09.012

PubMed Аннотация | CrossRef Полный текст | Google Scholar

74. Schulz LO, Harper IT, Smith CJ, Kriska AM, Ravussin E. Потребление энергии и физическая активность у индейцев пима: сравнение с расходом энергии, измеренным с помощью воды с двойной меткой. Obes Res. (1994) 2: 541–8. DOI: 10.1002 / j.1550-8528.1994.tb00103.x

PubMed Аннотация | CrossRef Полный текст | Google Scholar

75.Шук Р.П., Хэнд Г.А., О’Коннор Д.П., Томас Д.М., Херли Т.Г., Эбер Дж. Р. и др. Потребление энергии, полученное на основе уравнения энергетического баланса, проверенных мониторов активности и двойной рентгеновской абсорбциометрии, может предоставить приемлемые данные о потреблении калорий среди молодых людей. J Nutr. (2018) 148: 490–6. DOI: 10.1093 / jn / nxx029

PubMed Аннотация | CrossRef Полный текст | Google Scholar

77. Свенссон А., Ренстром Ф, Блок Л., Лисснер Л., Фрэнкс П. В., Ларссон С. Оценка рациона питания женщин с разным весом и состоянием беременности с помощью короткого вопросника. Public Health Nutr. (2014) 17: 1939–48. DOI: 10.1017 / S1368980013003042

PubMed Аннотация | CrossRef Полный текст | Google Scholar

78. Тансканен М., Ууситало А.Л., Хаккинен К., Ниссила Дж., Санттила М., Вестертерп К.Р. и др. Аэробная подготовка, энергетический баланс и индекс массы тела связаны с тренировочной нагрузкой, которая оценивается по затратам энергии при физической активности. Scand J Med Sci Sports. (2009) 19: 871–8. DOI: 10.1111 / j.1600-0838.2008.00857.x

PubMed Аннотация | CrossRef Полный текст | Google Scholar

79.Тран К.М., Джонсон Р.К., Соултанакис Р.П., Мэтьюз Д.Е. Многократные 24-часовые отзывы у женщин: проверка с использованием воды с двойной меткой. J Am Diet Assoc. (2000) 100: 777–83. DOI: 10.1016 / S0002-8223 (00) 00227-3

PubMed Аннотация | CrossRef Полный текст | Google Scholar

80. Weber JL, Reid PM, Greaves KA, DeLany JP, Stanford VA, Going SB и др. Достоверность самооценки потребления энергии у худых и полных молодых женщин с использованием двух баз данных по питательным веществам в сравнении с общим расходом энергии, оцененным по воде с двойной меткой. Eur J Clin Nutr. (2001) 55: 940–50. DOI: 10.1038 / sj.ejcn.1601249

PubMed Аннотация | CrossRef Полный текст | Google Scholar

81. Юань С., Шпигельман Д., Римм Э. Б., Роснер Б. А., Штампфер М. Дж., Барнетт Дж. Б. и др. Относительная достоверность потребления питательных веществ, оцененная с помощью анкеты, суточных отзывов и записей о диете, по сравнению с биомаркерами восстановления мочи и концентрации в плазме: результаты для женщин. Am J Epidemiol. (2018) 187: 1051–63. DOI: 10.1093 / AJE / kwx328

PubMed Аннотация | CrossRef Полный текст | Google Scholar

82.Scagliusi FB, Ferriolli E, Pfrimer K, Laureano C, Cunha CSF, Gualano B и др. Занижение количества потребляемой энергии более распространено в группе здорового питания. Br J Nutr. (2008) 100: 1060–8. DOI: 10.1017 / S0007114508971300

PubMed Аннотация | CrossRef Полный текст | Google Scholar

83. Ливингстон М.Б., Прентис А.М., Кауард В.А., Сисей С.М., Штамм Дж.Дж., МакКенна П.Г. и др. Одновременное измерение расхода свободной энергии методом воды с двойной меткой и мониторинг сердечного ритма. Am J Clin Nutr. (1990) 52: 59–65. DOI: 10.1093 / ajcn / 52.1.59

PubMed Аннотация | CrossRef Полный текст | Google Scholar

84. Коутс Дж. К., Колаецци Б. А., Белл В., Шаррондьер У. Р., Леклерк К. Преодоление проблем оценки питания в странах с низким уровнем дохода: технологические решения, предложенные Международным проектом расширения диетических данных (ИНДДЕКС). Питательные вещества. (2017) 9: E289. DOI: 10.3390 / nu

PubMed Аннотация | CrossRef Полный текст | Google Scholar

85.Эшман А.М., Коллинз К.Э., Браун Л.Дж., Рэй К.М., Ролло М.Э. Валидация метода оценки питания беременных женщин на основе изображений со смартфона. Питательные вещества. (2017) 9:73. DOI: 10.3390 / nu73

PubMed Аннотация | CrossRef Полный текст | Google Scholar

86. Hassannejad H, Matrella G, Ciampolini P, De Munari I., Mordonini M, Cagnoni S. Автоматический мониторинг диеты: обзор компьютерного зрения и носимых сенсорных методов. Int J Food Sci Nutr. (2017) 68: 656–70.DOI: 10.1080 / 09637486.2017.1283683

PubMed Аннотация | CrossRef Полный текст | Google Scholar

87. Баллард-Барбаш Р., Граубард И., Кребс-Смит С., Шацкин А., Томпсон Ф. Вклад диеты в обратную связь между потреблением энергии и индексом массы тела. Eur J Clin Nutr. (1996) 50: 98–106.

PubMed Аннотация | Google Scholar

88. Каакс Р. Биохимические маркеры как дополнительные измерения в исследованиях точности показателей диетического опросника: концептуальные вопросы. Am J Clin Nutr. (1997) 65 (Дополнение): 1232s – 9. DOI: 10.1093 / ajcn / 65.4.1232S

CrossRef Полный текст | Google Scholar

89. Kabagambe E, Allan D, Siles X, Spiegelman D, Campos H. Применение метода триад для оценки эффективности опросников частоты приема пищи и биомаркеров в качестве индикаторов долгосрочного диетического потребления. Am J Epidemiol. (2001) 154: 1126–35. DOI: 10.1093 / aje / 154.12.1126

PubMed Аннотация | CrossRef Полный текст | Google Scholar

90.Йокота RTdC, Миядзаки ES, Ито МК. Применение метода триад для подтверждения диетического питания с использованием биомаркеров. Cad Saúde Pública. (2010) 26: 2027–37. DOI: 10.1590 / S0102-311X2010001100004

PubMed Аннотация | CrossRef Полный текст | Google Scholar

91. Субар А, Фридман Л., Туз Дж., Киркпатрик С., Боуши С., Нойхаузер М. и др. Отвечая на текущую критику ценности самооценки диетических данных. J Nutr . (2015) 145: 2639–45. DOI: 10.3945 / jn.115.219634

PubMed Аннотация | CrossRef Полный текст | Google Scholar

93. Международное агентство по атомной энергии. Оценка состава тела и общих затрат энергии у людей с использованием методов стабильных изотопов Серия «Здоровье человека». (2009).

Google Scholar

Обоснованность, надежность и обобщаемость | Знания о здоровье

ОБРАТИТЕ ВНИМАНИЕ:

В настоящее время мы находимся в процессе обновления этой главы и благодарим вас за терпение, пока оно будет завершено.

Срок действия

Действительность — это степень, в которой инструмент, такой как опрос или тест, измеряет то, что он предназначен для измерения (также известный как внутренняя достоверность , ). Это важно, если результаты исследования должны быть значимыми и актуальными для более широких слоев населения. Выделяют четыре основных типа действительности:

Конструктивная валидность
Конструктивная валидность — это степень, в которой прибор конкретно измеряет то, что он предназначен для измерения, и избегает измерения других вещей.Например, показатель интеллекта должен оценивать только факторы, относящиеся к интеллекту, а не, например, то, является ли кто-то трудолюбивым. Конструктивная валидность включает в себя другие типы валидности.
Достоверность содержания
Достоверность содержания описывает, является ли инструмент систематически и всесторонне репрезентативным для характеристики, которую он измеряет. Например, анкета, направленная на оценку тревожности, должна включать вопросы, нацеленные на широкий спектр характеристик тревожности.
Лицевая валидность
Лицевая валидность — это степень, в которой тест субъективно считается измерением того, что он намерен измерить. Другими словами, «похоже» ли он будет измерять то, что должен делать. Субъективное мнение о достоверности лица может исходить от экспертов, от тех, кто управляет инструментом, или от тех, кто использует инструмент.
Критерий достоверности
Критерий достоверности включает сравнение рассматриваемого инструмента с другим критерием, который считается репрезентативным для меры.Это может иметь форму одновременной валидности (когда результаты инструмента коррелируют с результатами установленного или золотого стандарта инструмента) или прогностической валидности (когда результаты инструмента коррелируют с будущими результатами, независимо от того, будут ли они измерены тем же инструментом или другим).

Надежность

Надежность — это общая последовательность меры. Высоконадежный метод измерения дает аналогичные результаты в аналогичных условиях, поэтому при прочих равных условиях повторное тестирование должно давать аналогичные результаты.Надежность также известна как воспроизводимость или повторяемость . Существуют различные средства проверки надежности прибора:

Надежность между экспертами (или несколькими наблюдателями)
Степень согласия между результатами, когда два или более наблюдателя управляют прибором по одному и тому же предмету при одинаковых условиях.
Надежность внутри оценщика (или внутри наблюдателя)
Также известная как надежность повторного испытания, это описывает соответствие между результатами, когда прибор используется одним и тем же наблюдателем в двух или более случаях (при одних и тех же условиях и в та же тестовая популяция).
Надежность между методами
Это степень, в которой два или более инструментов, которые используются для измерения одного и того же, согласуются с результатом. Это также известно как эквивалент .
Надежность внутренней согласованности
Это степень согласия или согласованности между различными частями одного инструмента.

Внутреннюю согласованность можно измерить с помощью альфа (а) Кронбаха — статистики, полученной на основе парных корреляций между элементами, которые должны давать аналогичные результаты.В диапазоне от минус бесконечности до единицы, альфа Кронбаха, равная единице, указывает на совершенную внутреннюю согласованность, а отрицательное значение предполагает, что существует большая вариативность внутри субъекта, чем между субъектами. Значения альфа Кронбаха выше 0,7 обычно считаются приемлемыми.

Надежность между экспертами может быть измерена с помощью статистики Каппа (k) Коэна. Каппа показывает, насколько хорошо сравниваются два набора (категориальных) измерений. Это более надежное, чем простое процентное соглашение, поскольку оно учитывает вероятность того, что повторная мера согласуется случайно.Значения каппа варьируются от -1 до 1, где значения ≤0 указывают на отсутствие согласия, кроме того, которое можно было бы ожидать случайно, а 1 — полное совпадение. Обычно считается, что значения выше 0,6 соответствуют умеренному согласию. Ограничения каппы Коэна заключаются в том, что она может недооценивать согласие для редких результатов и требует, чтобы два эксперта были независимы.

Возможность обобщения

Обобщаемость — это степень, в которой результаты исследования могут быть применимы к другим условиям.Он также известен как внешней действительности . Обобщаемость требует внутренней валидности, а также суждения о том, применимы ли результаты исследования к определенной группе. Делая такое суждение, вы можете учитывать такие факторы, как характеристики участников (включая демографические и клинические характеристики, на которые влияет исходная популяция, частота ответов, критерии включения и т. Д.), Условия исследования и изученные вмешательства или воздействия.Угрозы внешней валидности, которые могут привести к неправильному обобщению, включают ограничения в рамках исходного исследования (критерии приемлемости) и эффекты до / после тестирования (где причинно-следственные связи в рамках исследования обнаруживаются только при предварительных или пост-тесты также проводятся).

3.9. ВАЛИДНОСТЬ ТЕСТА

3.9. ВАЛИДНОСТЬ ТЕСТА

Валидность теста

Валидность теста конструктная

Валидность теста по критерию

Валидность теста по содержанию

Валидность теста прогностическая

Валидность эксперимента

Валидность эксперимента внешняя

Валидность эксперимента внутренняя

Что нужно знать о валидности заказчику оценки — FORMATTA

Какие значения может принимать валидность

Виды валидности и критерии

Что означают показатели валидности на практике

3 уровня проверки валидности

Надежность и валидность тестов

Надежность теста

Валидность теста

ВАЛИДНОСТЬ ПРОЕКТИВНОЙ РИСУНОЧНОЙ МЕТОДИКИ «ДОМ-ДЕРЕВО-ЧЕЛОВЕК» ПРИ ДАГНОСТИКЕ ПСИХОСОМАТИЧЕСКИХ НАРУШЕНИЙ | Опубликовать статью ВАК, elibrary (НЭБ)

Определение валидности теста

Научное обоснование методики | Happy Job

О Happy Job

Научный подход в исследованиях Happy Job

Теория когнитивной нагрузки

Как ведет себя респондент при высокой когнитивной нагрузке?

Восприятие информации респондентом

«Клиповая культура» и когнитивная нагрузка

Применимость теории когнитивной нагрузки при составлении онлайн опросов

Традиционный подход vs Happy Job

Однозначность интерпретации

Объем и продолжительность

Надежность исследования

Визуальная составляющая

Разнообразие форматов

Геймификация в опросах Happy Job

Примеры геймификации:

Прогресс-бар

Ползунки

Звездные рейтинги

Применимость геймификации

Что Happy Job расскажет о ваших сотрудниках

Валидность метода Happy Job

Преимущества платформы

Руководство к действию

Удобство для респондентов

Понятный интерфейс

Вовлечение

Достоверность

Продвижение среди сотрудников

Совместимость с данными других провайдеров

О нас в цифрах

Источники

Надежность и валидность в исследованиях

Понимание надежности и действительности

Что такое надежность?

Что такое срок действия?

Как оцениваются надежность и достоверность?

Виды надежности

Виды действия

Что вычитка может сделать для вашей статьи?

Как обеспечить обоснованность и надежность вашего исследования

Гарантия действительности

Обеспечение надежности

Где написать о надежности и обоснованности в диссертации

4 типа достоверности

Срок действия конструкции

Что такое конструкция?

Пример

Что такое конструктивная валидность?

Срок действия

Пример

Срок действия

Пример

Срок действия критерия

Что такое критерий?

Что такое критерий действительности?

Пример

Срок действия — Методология исследования

Что такое валидность в психологии

Что такое валидность?