Психометрика это: Психометрия — Википедия – психометрика — это… Что такое психометрика?

Автор: | 10.01.2021

Психометрия — Википедия

Психометри́я (психометрика) — дисциплина психологии, изучающая теорию и методику психологических измерений, включая измерение знаний, способностей, взглядов и качеств личности. Психометрия является разделом психодиагностики. В первую очередь, эта область касается создания и валидации измерительных инструментов, таких как опросники, тесты и методики описания (оценки) личности. Она включает в себя две основные исследовательские задачи, а именно:

  1. Создание инструментов и построение процедур измерения;
  2. Развитие и усовершенствование теоретических подходов к измерению.

Те, кто занимаются психометрией, могут быть как клиническими психологами, так и специалистами в области развития или HR. В любом случае, конкретной, отдельной квалификации по психометрии не требуется. В США преподавание психометрии ведётся на уровне бакалавриата, магистратуры и докторантуры.

Большая часть ранних исследований в области психометрии была основана на стремлении измерить интеллект. Фрэнсис Гальтон, известный как «отец психометрии», включил ментальные измерения в антропометрические данные. Зарождение психометрии также связано с психофизикой. Два других начинателя психометрии Джеймс Маккин Кеттел и Чарльз Спирмен получили докторские звания в Лейпцигской лаборатории психофизики Вильгельма Вундта.

Психометрист Луис Тёрстоун, основатель и первый президент Психометрического общества, в 1936 году разработал теоретический подход к измерению, который известен как закон сравнительных суждений. Этот подход тесно связан с психофизическими теориями Эрнста Вебера и Густава Фехнера. Также, Спирмен и Тёрстоун внесли большой вклад в развитие факторного анализа.

Карл Пирсон, Генри Кайзер, Джордж Раш, Джонсон О’Коннор, Фредерик Лорд, Ледьярд Тюкер, Артур Дженсен также внесли большой вклад в развитие психометрии.

Область психометрии связана с количественным подходом к анализу тестовых данных. Психометрическая теория обеспечивает исследователей и психологов математическими моделями, используемыми при анализе ответов на отдельные задания или пункты тестов, тесты в целом и наборы тестов. Прикладная психометрия занимается применением этих моделей и аналитических процедур к конкретным тестовым данным. Четырьмя областями психометрического анализа являются нормирование и приравнивание, оценка надежности, оценка валидности и анализ заданий. Каждая из этих областей содержит набор определенных теоретических положений и конкретные процедуры, используемые при оценке качества работы теста в каждом отдельном случае.

Определение понятия «измерение» в социальных науках[править | править код]

Определение измерения в социальных науках имеет долгую историю. В настоящее время широкое определение, предложенное Стэнли Смит Стивенсом (1946), гласит, что измерение «приписывание чисел объектам или событиям по некоторому правилу». Это определение было представлено в работе, в которой Стивенс предложил четыре уровня измерения. Хотя это определение имеет широкое распространение, оно отличается от более классического определения измерения, принятого в физике, которое гласит, что измерение — это численная оценка и выражение одной величины по отношению к другой (Мишель, 1997).

Действительно, определение Стивенса было выдвинуто в ответ Британскому Комитету Фергюсона, председатель которого, А. Фергюсон, был физиком. Комитет был назначен в 1932 году Британской ассоциацией для содействия развитию науки в исследовании возможности количественной оценки сенсорных восприятий. Хотя её председатель и другие члены были физиками, комитет также включал нескольких психологов. Доклад Комитета подчеркнул важность определения измерения. В то время, как ответ Стивенса заключался в том, чтобы предложить новое определение, которое окажет значительное влияние на эту область, это был не единственный ответ на доклад. Другой, кардинально отличающийся, ответ призывал принять классическое определение, как это отражено в следующем заявление: «Измерение в психологии и физике ни в каком смысле не различны. Физики могут проводить измерения тогда, когда они могут найти операции, с помощью которых можно обнаружить необходимый критерий. Психологи могут не беспокоиться о таинственных различиях в значении «измерения» в двух науках «. (Риз, 1943, стр. 49)

Эти различные точки зрения отражены в альтернативных подходах к измерению. Например, методы, основанные на ковариационной матрице, как правило, используют числа, такие как сырые баллы, как измерение. Такой подход неявно влечет за собой определение Стивенса, которое требует только то, что номера присваиваются по некоторому правилу. Таким образом, основной задачей исследований, как правило, считается открытие связей между показателями, и факторов, положенных в основу этих связей.

С другой стороны, когда используется измерительная модель такая, как модель Раша, номера не присваиваются на основе правил. Вместо этого, в соответствии с заявлением Риз выше, конкретные критерии для измерения указаны, а цель состоит в построении процедур или операций, которые предоставляют данные, отвечающие соответствующим критериям. Измерения оцениваются на основе моделей, и испытания проводятся для того, чтобы удостовериться в том, были ли выполнены соответствующие критерии.

Нормирование тестов — составная часть их стандартизации, обычно включает проведение обследования репрезентативной выборки лиц, определение различных уровней выполнения тестов и перевод сырых тестовых оценок в общую систему показателей. Тесты иногда приравнивают, когда существуют различные формы того же самого теста. Приравнивание приводит оценки по всем формам к общей шкале.

Существуют 4 основные стратегии приравнивания. Первый метод предполагает проведение каждой формы теста на эквивалентной (например, случайной отобранной) группе респондентов, а затем оценки по этим различным формам устанавливаются т. о., чтобы равные оценки имели равные процентильные ранги (та же самая пропорция респондентов получает ту же или более низкую оценку). При более точном методе все респонденты заполняют все формы теста, и для определения эквивалентности показателей используются уравнения. Третий часто используемый метод связан с проведением общего теста или части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве «связывающего» теста, который позволяет все последующие измерения привязывать к единой шкале. При проведении обследования с использованием различных форм одного и того же теста в каждую включаются несколько «анкерных заданий», выполняющих функцию такого «связывающего» теста.

Надежность и валидность имеют отношение к обобщаемости показателей тестов — определению того, какие выводы по тестовым показателям являются обоснованными. Надежность касается выводов о согласованности измерения. Согласованность определяется по-разному: как временная устойчивость, как сходство между предположительно эквивалентными тестами, как однородность в рамках одного теста или как сравнимость оценок, выносимых экспертами. При использовании метода «тест-ретест» надежность теста устанавливается путём повторного его проведения с той же группой спустя определенный промежуток времени. Затем два полученных набора показателей сравниваются с целью определения степени сходства между ними. При использовании метода взаимозаменяемых форм, на выборке обследуемых проводятся два параллельных измерения. Привлечение экспертов («оценщиков») к оценке качества параллельных форм теста дает меру надежности, наз. надежностью оценщиков. Этот метод часто применяют, когда есть необходимость в экспертной оценке.

Валидность характеризует качество выводов, получаемых на основе результатов проведения измерительной процедуры.

Валидность рассматривается как способность теста отвечать поставленным целям и обосновывать адекватность решений, принятых на основе результата. Недостаточно валидный тест не может считаться инструментом измерения и использоваться на практике, поскольку зачастую полученный результат может серьёзно влиять на будущее тестируемого.

Выделяется три вида валидности тестов.

Конструктная (концептуальная) валидность. Её требуется определить, если тест измеряет свойство, имеющее абстрактный характер, то есть не поддающееся прямому измерению. В таких случаях необходимо создание концептуальной модели, которая бы объясняла данное свойство. Эту модель и подверждает или опровергает тест.

Критериальная (эмпирическая) валидность. Показывает, насколько соотносятся результаты теста с неким внешним критерием. Эмпирическая валидность существует в двух видах: текущая критериальная валидность — корреляция результатов теста с выбранным критерием, существующим в настоящее время; прогностическая критериальная валидность — корреляция результатов с критерием, который появится в будущем. Определяет, насколько тест предсказывает проявление измеряемого качества в будущем, учитывая влияние внешних факторов и собственной деятельности тестируемого.

Содержательная валидность. Определяет, насколько соответствует тест его предметной области, то есть измеряет ли он качество, для измерения которого предназначен, у репрезентативной выборки. Чтобы поддержать содержательную валидность теста, необходимы его регулярные проверки на соответствие, так как реальная картина проявления определённого качества может меняться у выборки с течением времени. Оценка содержательной валидности должна производиться экспертом в предметной области теста.

Процесс валидизации теста должен представлять собой не сбор доказательств его валидности, а комплекс мер по повышению этой валидности.

Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых, давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность»). Долю испытуемых, справившихся с заданием теста, наз., возможно не вполне точно, трудностью задания. Способ улучшить задания — подсчитать процент выбора каждого варианта ответа на задание с множественным выбором; полезно также вычислить средний тестовый показатель испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать, чтобы варианты ответов выглядели правдоподобными для неподготовленных испытуемых, но не казались правильными наиболее знающим. Отбор заданий, которые сильно коррелируют с показателем полного теста, максимизирует надежность как внутреннюю согласованность теста, тогда как отбор заданий, которые сильно коррелируют с внешним критерием, максимизирует его прогностическую валидность. Описательная аналоговая модель этих корреляций называется характеристической кривой задания; в типичных случаях — это график зависимости доли испытуемых, правильно отвечающих на вопрос, от их суммарного тестового показателя. Для эффективных заданий эти графики представляют собой положительные восходящие кривые, не снижающиеся по мере прироста способности.

  • Р. Корсини, А. Ауэрбах. «Психологическая энциклопедия».
  • В. С. Ким. «Тестирование учебных достижений». — Уссурийск: УГПИ, 2007.

психометрика — это… Что такое психометрика?

(или психометрия) — совокупность теоретико-математических моделей и процедурно-методических правил организации сбора и обработки эмпирических данных, позволяющих выразить психические свойства и параметры психических процессов в числовой или квазичисловой (ранговой, категориальной) форме. Без знания психометрических правил современный специалист (не только исследователь, но и практик) не может корректно применять разнообразные измерительные методы в психологии (см. измерение). Низкая надежность единичных измерительных проб в психологии (наличие высокого уровня случайных колебаний измеряемого свойства и помех) обусловила объективную необходимость многократного повторения измерительных проб и статистического анализа повторяющихся наблюдений, т.е. возникло тесное объединение П. с прикладной математической статистикой. Бурное развитие П. в XX в. обусловило значительный вклад, который внесли именно психометристы в общенаучный арсенал современных статистических и нестатистических методов анализа данных. В качестве примера таких данных можно назвать многие разновидности корреляционного, факторного, кластерного анализа, многомерного шкалирования и т. п. В наибольшей степени П. разработана на сегодня в таких областях психологии, как психофизика и дифференциальная психология (см. психодиагностика). Соответственно этим областям целесообразно разделять П. на «общую» и «дифференциальную». Первая устанавливает числовые соответствия между каким-то свойством стимула (например, интенсивностью света, звука) и соответствующим ощущением определенной силы (яркостью, громкостью и т. п.). Дифференциальная же П. выражает в количественной форме индивидуальные психологические различия между людьми. В этой второй области П. разработаны основные критерии качества психологического измерения — такие свойства психологических тестов, как надежность, валидность, репрезентативность. В области дифференциальной психологии П. является технологической основой для измерительной психодиагностики (см. тестирование).

Что такое психометрика

А вы знаете, что такое психометрика? Вот и мы представляли себе эту дисциплину крайне смутно — до того, как Дмитрий Аббакумов, эксперт-психометрик, рассказал нам, как и зачем измеряют уровень знаний.

person_image

Дмитрий Аббакумов

руководитель Центра психометрических исследований в онлайн-образовании ВШЭ

Мир всё дальше и дальше идёт в сторону цифровизации и автоматизации. Это характерно и для сферы онлайн-обучения, в том числе — оценивания успеваемости студента. В ближайшем будущем мы сможем оценивать студента не только по тестам, но и по совокупности поведения в онлайн-среде: как он смотрел лекции, пересматривал ли их, сколько попыток затратил на выполнение заданий, как общался на форуме — это всё нам говорит об учащемся гораздо больше, чем тест, состоящий из 15 заданий.

Как мне кажется, это весьма гуманистический подход к обучению: по той информации, что есть у нас, мы и оцениваем, и пытаемся помочь. Так, если мы видим, что студент совершил ошибки здесь и здесь, то высока вероятность, что и следующее задание он тоже завалит. Соответственно, мы сможем обеспечить его персональными подсказками.

Очевидно, что в ближайшее время любой тест будет проводиться при помощи компьютера. То, что это пока ещё невозможно, обусловлено лишь отсутствием тотальной компьютеризации. Уже сегодня до 60% магистерского образования США использует онлайн-образование, а топовые университеты тестируют полностью онлайновые магистерские программы. Значит ли это, что компьютер займёт место живого преподавателя? Едва ли. Человек — источник творчества: живую беседу, глаза в глаза, никакая программа не сможет сымитировать. Поэтому нельзя сказать, что технологии заменят человека — скорее, помогут наладить более эффективное взаимодействие, всё больше сокращая расстояние между людьми.

В новой реальности очень остро встают вопросы доверия к онлайн-образованию, контроля и повышения его качества. И в решении этих задач нам на помощь приходит психометрика — научное направление, которое фокусируется на высокоточных измерениях, анализе данных и математическом моделировании педагогических и психологических процессов онлайн-обучения. С 2016 года в Высшей школе экономики действует Центр психометрических исследований в онлайн-образовании, который я возглавляю. Среди задач аналитиков центра — оценка качества тестов, трудности и интересности контента, трекинг подготовленности студентов и многое-многое другое.

Я учился в лицее-интернате для одарённых детей: это такое место, где дети живут отдельно от родителей и только и делают, что занимаются. После лицея я поступил в университет на первый курс. Тогда в моём вузе начинали внедрять оценку знаний по компьютерным тестам, и я их напрочь завалил, и потому попал в приказ на отчисление. И ректор, весьма мудрый человек, поинтересовался: а как остальные лицеисты справились с заданием? И выяснилось, что под угрозой отчисления оказался не только я, но и другие выпускники лицея.

Стало понятно, что дело не в студентах, а в тестах. Поэтому ректор пригласил специалистов из МГУ, чтобы они научили преподавателей моего университета правильно составлять задания. И пока я проводил для них экскурсию, один из профессоров спросил, как я отношусь к системе компьютерного тестирования. Я честно ответил, что бездушная машина не способна оценить уровень знаний — это под силу лишь человеку. И тогда он пригласил меня в Москву, чтобы я смог побывать в лаборатории, в которой создаются «правильные» тесты. Эта поездка действительно изменила моё представление — и определила мою дальнейшую профессиональную судьбу.

Психометрика, по сути, состоит из двух блоков: прежде всего, из разработки самих заданий и определения того, как правильно задавать вопросы, чтобы они измеряли разные аспекты знаний — запоминание, понимание, применение.

Другой аспект психометрики — это математический аппарат. Мы не можем вскрыть человеку черепную коробку и посмотреть, сколько знаний у него хранится в голове, потому что знания, к какой бы области они ни относились, — это латентная характеристика, скрытая от наблюдений. Поэтому мы создаём задачи, которые и являются индикаторами этого знания: его уровень демонстрируется посредством того, как человек справился с заданием — как минимум, верно или неверно.

Все ли тесты испытывают влияние психометрики? Хотелось бы, чтобы так оно и было. Однако если мы говорим о тестах в глянцевых журналах, едва ли можно вести речь о валидности измерения.

Психометрика родилась более века назад, в физической лаборатории Кавендиша в Кембриджском университете Великобритании. Конечно, появилась не по воле случая: к тому моменту учёные уже задумывались над тем, как математический аппарат может помочь в измерении чего-то «бесплотного» вроде знания.

Первые психометрические измерения были довольно примитивными: допустим, студент решил 20 заданий из 22, следовательно, делали вывод, что его знания находятся на хорошем уровне. А другой решил 15 заданий — соответственно, знаний у него меньше. Однако что если второй учащийся справился с меньшим количеством заданий, но зато они были более сложными? Стало очевидно, что подобная система измерений неточна. Потому-то ближе к 50-м годам XX века психометрику настиг первый кризис: можно ли измерить уровень знания так, чтобы он не зависел от сложности теста?

И вот этот экзистенциальный для психометрики вопрос привёл к почти магической истории: в одно и то же время, в двух разных странах, появляются две одинаковые психометрические модели. Датчанин Г. Раш и американец Ф. Лорд предложили рассматривать вероятность ответа на задание как разность двух параметров — уровня трудности задания и уровня подготовленности студента, что позволяло оценивать уровень знания независимо от сложности теста.

Несмотря на такую оптимальную модель, всё же нельзя поспорить с тем, что лучше всего оценивает знания эксперт, сидящий напротив, который видит студента, понимает, что тот волнуется, пытается его подбодрить, а иногда, напротив, «встряхнуть». Стандартом здесь можно считать то, как сдаётся говорение на IELTS: преподаватель подстраивается под уровень каждого экзаменуемого. Если вы, условно, пока можете только в «my name is…», экзаменатор не будет вас мучить экономическими терминами.

Кажется, экспертная модель идеальна — но и тут не обойтись без подводных камней: мы не можем обеспечить каждого студента оценщиком с одинаковым уровнем объективности. Есть, например, такое явление, как гало-эффект: скажем, я преподаю в вузе, и ко мне приходит сдавать экзамен девочка Маша. На вопросы отвечает плохо, но я помню о том, что она ходила на все занятия и выполняла домашнюю работу, и я ставлю ей «5». А другая девочка, Лена, училась неважно, занятия прогуливала, но экзамен сдаёт блестяще, — а я, помня о том, с какой периодичностью она посещала мой предмет, ставлю «3».

В тестировании же мы отказываемся от экспертного оценивания в пользу равного отношения ко всем. Да, у нас есть та самая бездушная машина, но зато она бездушна ко всем. Если же мою работу проверяют эксперты, то моя оценка — это вероятность не только моего уровня знаний и сложности заданий, но ещё и строгости эксперта, который меня проверяет. Мы проводили исследование, которое показало, что за одну и ту же работу, выполненную студентами с одинаковым уровнем подготовленности, оценки экспертов варьировались от «удовлетворительно» до «отлично».

Потому-то задача современной психометрики — приблизиться к экспертной, но объективной модели оценивания. 100 лет назад мы отказались от экспертности в пользу бланковых тестов, теперь же, при помощи математики, статистики, машинного обучения пытаемся к ней вернуться.

Чтобы оценить уровень знаний онлайн-студента, целый отдел наших специалистов учит преподавателей создавать задания правильно. Затем, когда задания созданы, мы начинаем отбраковывать негодные. Например, такие, в которых нет единственно верного ответа. Важна не только сама суть задачи, но и её формальное воплощение. «Как вы думаете, сколько будет дважды два?» — такой вопрос не верен, потому что в нём мы априори исключаем единственно верный ответ. Учащийся может ответить: «я думаю, пять», и засчитать это «я думаю» как неправильное мы, по логике, не можем.

После того, как отобранные задания загружаются на платформу и ещё раз калибруются, происходит анализ полученных от платформы данных: сколько попыток совершил студент, какова была их результативность, сколько времени прошло между двумя попытками, пользовался ли он в этот период какими-либо дополнительными материалами (например, пересматривал ли лекции).

Анализируя эти поведенческие особенности, мы делаем выводы не только об уровне знаний учащихся, но и о том, от каких заданий в дальнейшем нам следует отказаться.

В топе таких проблемных задач — задания с несколькими вариантами ответа и задания с открытым ответом. Первый тип плох тем, что, если мы не напишем в комментарии, что необходимо выбрать несколько пунктов, студент с большей долей вероятности ошибётся, остановившись на одном ответе. Второй тип сложен потому, что при записи ответа словом всегда есть риск ошибиться орфографически, особенно в падежной форме.

Иногда ошибки обеспечены тем, что преподаватели не совсем понятно объясняют некоторые темы: это можно заметить по тому, как студенты начинают гадать при выборе ответа. Если гадает несколько студентов, это ещё можно списать на случайность, но если гадает весь поток, очевидно, что проблема в задаче. Тогда мы идём к преподавателю и начинаем вместе разбираться, почему задание некорректно.

К сожалению, российской школы психометрики пока не существует. Точнее, так: она была в Советском Союзе — носила название педология, и при этом развивалась крайне активно. Но только до того момента, пока в 1936 году её не запретили наряду с генетикой и кибернетикой, выпустив постановление «О педологических извращениях в системе Наркомпросов». Лишь в 70-х годах появились робкие попытки возродить некогда запрещённые идеи, но ведь за это время флагманы психометрики — Нидерланды, Бельгия, США, Великобритания, — усердно работая, добились огромных результатов.

Поэтому к началу нашего века мы пришли с тем, что, в то время как в мире существует множество магистерских программ, и тесты разрабатываются правильно, у нас вот уже который год сдаётся ЕГЭ, а психометрики при этом нет: первая российская магистерская программа по этой дисциплине появилась только 8 лет назад…

Мировая психометрика сегодня — это часть вычислительной науки о поведении (computational behavioral science). Современные психометрические решения находятся на пересечении науки о данных, машинного обучения и теоретической психометрики и фокусируются на моделировании и объяснении поведения человека в реальном времени на основе многообразия его цифровых следов. Мы в «Вышке» стараемся не отставать и разрабатываем свои решения. Одно из таких решений, модель для углубленного анализа попыток студентов, я представил в июне на главном ежегодном научном психометрическом событии — конференции The International Meeting of the Psychometric Society, проходившей в Колумбийском университете в Нью-Йорке. Это первый случай за всю историю Психометрического общества, когда на этой конференции свои исследования представлял психометрик из российского университета, и я считаю это хорошим знаком.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Психометрия — это… Что такое Психометрия?

Психометри́я (психометрика) — дисциплина, изучающая теорию и методику психологических измерений, включая измерение знаний, способностей, взглядов и качеств личности. Психометрия является разделом прикладной статистики[источник не указан 300 дней]. В первую очередь, эта область касается создания и валидизации измерительных инструментов, таких как опросники, тесты и методики описания (оценки) личности. Она включает в себя две основные исследовательские задачи, а именно: 1) создание инструментов и построение процедур измерения; 2) развитие и усовершенствование теоретических подходов к измерению. Те, кто занимаются психометрией, могут быть как клиническими психологами, так и специалистами в области развития или HR. В любом случае, конкретной, отдельной квалификации по психометрии не требуется. В США преподавание психометрии ведётся на уровне бакалавриата, магистратуры и докторантуры.

Начало психометрии

Большая часть ранних исследований в области психометрии была основана на стремлении измерить интеллект. Фрэнсис Гальтон, известный как «отец психометрии», включил ментальные измерения в антропометрические данные. Зарождение психометрии также связано с психофизикой. Два других начинателя психометрии Джеймс Маккин Кеттел и Чарльз Спирмен получили докторские звания в Лейпцигской лаборатории психофизики Вильгельма Вундта.

Психометрист Луис Тёрстоун, основатель и первый президент Психометрического общества, в 1936 году разработал теоретический подход к измерению, который известен как закон сравнительных суждений. Этот подход тесно связан с психофизическими теориями Эрнста Вебера и Густава Фехнера. Также, Спирмен и Тёрстоун внесли большой вклад в развитие факторного анализа.

Карл Пирсон, Генри Кайзер, Джордж Раш, Джонсон О’Коннор, Фредерик Лорд, Ледьярд Тюкер, Артур Дженсен также внесли большой вклад в развитие психометрии.

Область психометрии

Область психометрии связана с количественным подходом к анализу тестовых данных. Психометрическая теория обеспечивает исследователей и психологов математическими моделями, используемыми при анализе ответов на отдельные задания или пункты тестов, тесты в целом и наборы тестов. Прикладная психометрия занимается применением этих моделей и аналитических процедур к конкретным тестовым данным. Четырьмя областями психометрического анализа являются нормирование и приравнивание, оценка надежности, оценка валидности и анализ заданий. Каждая из этих областей содержит набор определенных теоретических положений и конкретные процедуры, используемые при оценке качества работы теста в каждом отдельном случае.

Определение понятия «измерение» в социальных науках

Определение измерения в социальных науках имеет долгую историю. В настоящее время широкое определение, предложенное Стэнли Смит Стивенсом (1946), гласит, что измерение «приписывание чисел объектам или событиям по некоторому правилу». Это определение было представлено в работе, в которой Стивенс предложил четыре уровня измерения. Хотя это определение имеет широкое распространение, оно отличается от более классического определения измерения, принятого в физике, которое гласит, что измерение — это численная оценка и выражение одной величины по отношению к другой (Мишель, 1997).

Действительно, определение Стивенса было выдвинуто в ответ Британскому Комитету Фергюсона, председатель которого, А. Фергюсон, был физиком. Комитет был назначен в 1932 году Британской ассоциацией для содействия развитию науки в исследовании возможности количественной оценки сенсорных восприятий. Хотя ее председатель и другие члены были физиками, комитет также включал нескольких психологов. Доклад Комитета подчеркнул важность определения измерения. В то время, как ответ Стивенса заключался в том, чтобы предложить новое определение, которое окажет значительное влияние на эту область, это был не единственный ответ на доклад. Другой, кардинально отличающийся, ответ призывал принять классическое определение, как это отражено в следующем заявление: «Измерение в психологии и физике ни в каком смысле не различны. Физики могут проводить измерения тогда, когда они могут найти операции, с помощью которых можно обнаружить необходимый критерий. Психологи могут не беспокоиться о таинственных различиях в значении «измерения» в двух науках «. (Риз, 1943, стр. 49)

Эти различные точки зрения отражены в альтернативных подходах к измерению. Например, методы, основанные на ковариационной матрице, как правило, используют числа, такие как сырые баллы, как измерение. Такой подход неявно влечет за собой определение Стивенса, которое требует только то, что номера присваиваются по некоторому правилу. Таким образом, основной задачей исследований, как правило, считается открытие связей между показателями, и факторов, положенных в основу этих связей.

С другой стороны, когда используется измерительная модель такая, как модель Раша, номера не присваиваются на основе правил. Вместо этого, в соответствии с заявлением Риз выше, конкретные критерии для измерения указаны, а цель состоит в построении процедур или операций, которые предоставляют данные, отвечающие соответствующим критериям. Измерения оцениваются на основе моделей, и испытания проводятся для того, чтобы удостовериться в том, были ли выполнены соответствующие критерии.

Нормирование тестов

Нормирование тестов — составная часть их стандартизации, обычно включает проведение обследования репрезентативной выборки лиц, определение различных уровней выполнения тестов и перевод сырых тестовых оценок в общую систему показателей. Тесты иногда приравнивают, когда существуют различные формы того же самого теста. Приравнивание приводит оценки по всем формам к общей шкале.

Существуют 4 основные стратегии приравнивания. Первый метод предполагает проведение каждой формы теста на эквивалентной (например, случайной отобранной) группе респондентов, а затем оценки по этим различным формам устанавливаются т. о., чтобы равные оценки имели равные процентильные ранги (та же самая пропорция респондентов получает ту же или более низкую оценку). При более точном методе все респонденты заполняют все формы теста, и для определения эквивалентности показателей используются уравнения. Третий часто используемый метод связан с проведением общего теста или части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве «связывающего» теста, который позволяет все последующие измерения привязывать к единой шкале. При проведении обследования с использованием различных форм одного и того же теста в каждую включаются несколько «анкерных заданий», выполняющих функцию такого «связывающего» теста.

Требования к тестированию

Надежность и валидность имеют отношение к обобщаемости показателей тестов — определению того, какие выводы по тестовым показателям являются обоснованными. Надежность касается выводов о согласованности измерения. Согласованность определяется по-разному: как временная устойчивость, как сходство между предположительно эквивалентными тестами, как однородность в рамках одного теста или как сравнимость оценок, выносимых экспертами. При использовании метода «тест-ретест» надежность теста устанавливается путем повторного его проведения с той же группой спустя определенный промежуток времени. Затем два полученных набора показателей сравниваются с целью определения степени сходства между ними. При использовании метода взаимозаменяемых форм, на выборке обследуемых проводятся два параллельных измерения. Привлечение экспертов («оценщиков») к оценке качества параллельных форм теста дает меру надежности, наз. надежностью оценщиков. Этот метод часто применяют, когда есть необходимость в экспертной оценке.

Валидность характеризует качество выводов, получаемых на основе результатов проведения измерительной процедуры.

Валидность рассматривается как способность теста отвечать поставленным целям и обосновывать адекватность решений, принятых на основе результата. Недостаточно валидный тест не может считаться инструментом измерения и использоваться на практике, поскольку зачастую полученный результат может серьёзно влиять на будущее тестируемого.

Выделяется три вида валидности тестов.

Конструктная (концептуальная) валидность. Её требуется определить, если тест измеряет свойство, имеющее абстрактный характер, то есть не поддающееся прямому измерению. В таких случаях необходимо создание концептуальной модели, которая бы объясняла данное свойство. Эту модель и подверждает или опровергает тест.

Критериальная (эмпирическая) валидность. Показывает, насколько соотносятся результаты теста с неким внешним критерием. Эмпирическая валидность существует в двух видах: текущая критериальная валидность — корреляция результатов теста с выбранным критерием, существующим в настоящее время; прогностическая критериальная валидность — корреляция результатов с критерием, который появится в будущем. Определяет, насколько тест предсказывает проявление измеряемого качества в будущем, учитывая влияние внешних факторов и собственной деятельности тестируемого.

Содержательная валидность. Определяет, насколько соответствует тест его предметной области, то есть измеряет ли он качество, для измерения которого предназначен, у репрезентативной выборки. Чтобы поддержать содержательную валидность теста, необходимы его регулярные проверки на соответствие, так как реальная картина проявления определённого качества может меняться у выборки с течением времени. Оценка содержательной валидности должна произвдится экспертом в предметной области теста.

Процесс валидизации теста должен представлять собой не сбор доказательств его валидности, а комплекс мер по повышению этой валидности.

Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых, давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность»). Долю испытуемых, справившихся с заданием теста, наз., возможно не вполне точно, трудностью задания. Способ улучшить задания — подсчитать процент выбора каждого варианта ответа на задание с множественным выбором; полезно также вычислить средний тестовый показатель испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать, чтобы варианты ответов выглядели правдоподобными для неподготовленных испытуемых, но не казались правильными наиболее знающим. Отбор заданий, которые сильно коррелируют с показателем полного теста, максимизирует надежность как внутреннюю согласованность теста, тогда как отбор заданий, которые сильно коррелируют с внешним критерием, максимизирует его прогностическую валидность. Описательная аналоговая модель этих корреляций называется характеристической кривой задания; в типичных случаях — это график зависимости доли испытуемых, правильно отвечающих на вопрос, от их суммарного тестового показателя. Для эффективных заданий эти графики представляют собой положительные восходящие кривые, не снижающиеся по мере прироста способности.

См. также

Ссылки

Литература

  • Р. Корсини, А. Ауэрбах. «Психологическая энциклопедия».
  • В. С. Ким. «Тестирование учебных достижений». — Уссурийск: УГПИ, 2007.

Психометрика — Кафедра «Общая психология, психодиагностика и психологическое консультирование»

         Предисловие к русскому изданию
«Если что-то существует, оно обязательно существует в каком-то количестве – и следовательно может быть измерено» — это наблюдение Терстоуна (Thurstone, 1938) десятилетиями вдохновляло развитие теории измерений и одного из наименее очевидных ее подразделов – теории психологических измерений. Психометрика – дисциплина, обобщающаяся практику психологических измерений, за годы выросла из занятия в основном академического в развитую индустрию, с обилием прикладных задач, измерительного инструментария (тестов) и хорошо обоснованными «правилами игры».
Главное предназначение психологических тестов – помогать в принятии решений. От диагностики эмоциональных нарушений у детей до оценки интеллекта и социальных навыков при приеме на работу. Тесты в руках квалифицированного профессионала дают возможность оценить способности и черты личности с уверенностью, недоступной невооруженному наблюдателю.
С другой стороны, исследование человеческих способностей и черт личности, факторов, их определяющих, а также параметров деятельности, зависящих от них, невозможно без создания валидных и надежных методов измерения и диагностики психологических конструктов.
В перечисленных вопросах пересекаются и оказываются неразрывно связанными, с одной стороны, чисто исследовательские интересы, а с другой – сугубо практические, прикладные задачи. Будущее профессионального психологического инструментария – в конструктивном сочетании обоих подходов, когда психодиагностический тест – это не только средство «тиражировать» готовое знание о человеке, но и новый источник такого знания.
Психометрика — это наука, лежащая в основе создания психодиагностических измерительных инструментов , а также в основе анализа качества и оптимизации существующих психологических тестов.
На протяжении многих лет на столе у отечественных разработчиков и пользователей психодиагносического инструментария не было специализированной книги по психометрике[1]. Этот пробел частично восполнялся материалами из разделов по психометрике в отечественных учебниках по психодиагностике и в зарубежных по тестированию. К сожалению, российские специалисты так и не отважились написать полноценную книгу по психометрике. Именно поэтому и возникла необходимость в переводе зарубежной книги.
Выбрать самую подходящую из множества зарубежных монографий и учебников по психометрике нам помог американский коллега Том Окланд (Tom Oaklan). Он попал не в бровь, а в глаз, прислав нам для ознакомления книгу Фера и Бакарака (Furr & Bacharach, 2008) — предугадав таким образом, что нам нужна книга, написанная простым языком о сложных вещах.
В Предисловии к оригиналу авторы так и пишут: «…психометрику не обязательно преподавать сложно. Мы писали эту книгу для того, чтобы представить основы психометрики тем, кто должен понимать суть измерений, используемые в психологии и других науках о поведении. Наша книга предназначена студентам старших курсов, аспирантам и профессионалам из различных областей науки о поведении. Она будет полезна тем, кто хорошо разбирается в основных понятиях и логике психометрики. Она была написана для опытных психометристов и тех, кто только собирается ими стать».
Знакомство с книгой Фера и Бакарака и сравнение ее с тем материалом по психометрике, который обычно фигурирует в отечественных книгах, выявляет существенную разницу как в объеме, так и в разнообразии и тонкости психометрической информации. Многие проблемы с легкостью изложенные в книге, в отечественной психометрике просто никогда не обсуждаются, особенно разработчиками тестов. До сих пор создание тестов в России не стало объектом сколько-нибудь широкого обсуждения психологов. Обучение разработке тестов, а вместе с тем углубленное изучение психометрики не проводится ни на каком уровне обучения отечественных психологов. До сих пор разработка тестов – это либо вид полупрофессионального любительства, либо вынужденное занятие, поскольку исследователь (чаще всего диссертант) не нашел для изучаемой им проблемы профессионально разработанного теста.
Даже прочитав книгу, от начала до конца остается непонятным, в каком жанре она написана: это учебник для начинающих, пособие для «продвинутых» или руководство для опытных психометристов? Авторы правы, она подойдет всем, поскольку начинается с самых простых, базовых понятий измерения (часть I), затем переходит к классическим темам — надежность, валидность и достоверность (части II, III, IV), наполняя их множеством неклассических подходов и примеров, а заканчивается книга главами для опытных специалистов, в которых рассматриваются принципиально новые (особенно для отечественных психодиагностов) темы по «теории генерализуемости» и известной, но кажущейся недоступной в своей сложности Теории ответов на пункты (Item Response Thoery — IRТ).
Читая книгу, ее научные редакторы, авторы этих строк, много лет занимающиеся психодиагностикой и тестированием, не уставали удивляться неожиданным поворотам авторов в разработке давно знакомых тем, неожиданным решениям для задач, остававшихся долгое время без ответа.
Чтобы обратить на такие темы особое внимание отечественных специалистов, в это Предисловие включены краткие резюме по соответствующим главам книги. Эти резюме рассчитаны на то чтобы вызвать читательский интерес к главам, а не заменить их детальное прочтение. В то же время, их можно рассматривать как «взгляд с птичьего полета» на содержание соответствующих глав, который может помочь читателю сформировать индивидуальную последовательность их чтения.
Одним из важнейших достоинств этой книги является простота изложения. Авторы не скрывают своей озабоченности тем, что начинающие психологи плохо знают математику и многие из них боятся всего, что связано с расчётами. Считая себя заядлыми гуманитариями, такие психологи нередко блокируют в себе попытки преодолеть этот страх. Поэтому авторы очень спокойно и терпеливо, подробно разбирая множество различных примеров, разъясняют, что такое «свойство порядка», «свойство количества», «число нуль» в психологии, в чём специфика математических операций при измерении в психологическом мире. Думаем, что такая неторопливость и подробность изложения материала более чем оправдана. Более того, наверно так и надо знакомить с азами измерений в психологии, поскольку они во многом отличаются от более знакомых измерений в физическом мире.
На множестве простых примеров авторы стремятся к тому, чтобы читателям стал понятен так называемый «физический смысл», а в данном случае лучше сказать «психологический смысл» измерения в очень специфической сфере – сфере «объектов», подавляющее большинство из которых относятся к категории ненаблюдаемых психологических характеристик, являясь не очевидными, то есть не доступными обычному восприятию. Их нельзя увидеть, потрогать, а можно только понять и опосредованно измерить.
К сожалению, желание всё объяснить просто и доступно приводит к многочисленным повторам одного и того же содержания разными словами. Специалистам эти повторы могут показаться навязчивыми. Однако дидактическая их ценность для начинающих вряд ли вызовет сомнения.
В последние годы разработано несколько мощных статистических софтвенных пакетов, таких как SPSS, позволяющих проводить обработку, расчёты почти всех мыслимых и не мыслимых статистических показателей. Появились даже книги для «чайников» по статистике, которые позволяют пользоваться этими стат.пакетами, нажимая на последовательность кнопок, изображённых на скриншотах в этих книгах. Складывается впечатление, что обработать экспериментальные данные человеку, плохо знающему статистику, не составит принципиальных проблем.
Печальным последствием этого оказывается то, что психологи перестают понимать, да и интересоваться внутренним смыслом проводимых внутри компьютера расчётов. Это приводит к тому, что ошибки, возникшие на разных этапах исследования — от проведения измерения до распечатки результатов — становятся практически недоступными для обнаружения, а отпечатанные результаты обработки данных, даже самые бессмысленные, интерпретируются психологами нередко без всяких попыток оценить их реальность. Мало кому приходит в голову, что такие оценки просто обязаны предварять содержательную интерпретацию результатов.
Всё это подтверждает необходимость, даже при наличии стат.пакетов, понимания смысла производимой обработки данных, смысла каждого статистического показателя, в том числе параметров, используемых в психометрике. Книга Фера и Бакарака является примером того, как важно учить именно осмысленной работе с данными. Авторы затрачивают много времени и сил для того, чтобы донести до психолога смысл производимых расчётов: среднего, дисперсии, стандартного отклонения, корреляции, ковариации и т.д. (главы 2, 3, 4).
Книга обладает ещё одним важным достоинством: она демонстрирует отечественным психологам возможности куда более строго подхода к планированию, проведению измерения, также интерпретации данных, чем принято у нас. Прекрасные примеры, точные и одновременно простые даже для неискушенных в психометрике, позволяют наблюдать за процессом приложения строгих психометрических подходов к вполне реальным исследованиям. Например, анализ надёжности, основанный на сравнении истинных и наблюдаемых корреляций (см.первый раздел главы 7) или демонстрация того, насколько низкая надёжность даже одного измерительного инструмента ослабляет корреляцию между переменными. Особенно показательно в этом отношении уравнение 7.4., известное как «поправка на затухание», вызванное низкой надёжностью инструментов. Использование уравнения 7.4. дает большое преимущество по сравнению с принятой у нас оценкой статистической значимости корреляции, зависящей только от величины выборки. Это также иллюстрирует более универсальное преимущество оценок величины статистического эффекта и ограниченность анализа статистической значимости любых параметров, долгое время преобладавшего в мировой психологии.
То, что в книге по психометрике три отдельных главы (5, 6 и 7) посвящены анализу надёжности теста может показаться непривычным отечественному читателям. Для многих из них надёжность, это в лучшем случае величина, которая содержится в руководстве к тесту и, если она удовлетворительна, то на нее больше не обращают внимания вообще. Высокие показатели надёжности по умолчанию позволяют исследователю быть уверенным в полученных данных.
Из содержания книги становится очевидно, что отечественные подходы к оценке надежности отличаются от описанных в книге. Во-первых, книгу отличает значительно большее внимание к научной базе анализа надежности теста. Целая глава (5-я) посвящена кропотливому разбору теоретических основ надежности с точки зрения классической теории тестов. При этом авторы показывают, что «надежность – это теоретическое свойство теста, и что она не может быть рассчитана прямо. Она выявляется из истинных баллов и ошибки измерения и может быть лишь примерно оценена на основе реальных данных».
Во-вторых, в отечественных работах по оценке надежности обычно опускают «понятие параллельных (или альтернативных) форм», которому придается ключевое значение в теоретических доказательствах оценки надежности теста.
В-третьих, все привыкли к нескольким интуитивно понятным способам эмпирической проверки надежности, не задумываясь об их теоретическом обосновании, что при сравнении с более строгими подходами даже эмпирических в своей сути методов, описанных в книге, обнаруживает пропуски в понимании природы надежности.
Так, существует убежденность, что увеличение количества пунктов (длины теста или отдельной шкалы) всегда приводит к увеличению надежности теста. Авторы убедительно показывают ограниченность такого подхода : «добавление новых пунктов – это палка о двух концах. С одной стороны, при прочих равных длинные тесты надежнее коротких. С другой стороны, иногда может быть небезопасно предполагать, что все «прочее» (в первую очередь равенство новых пунктов по согласованности с исходными – Ред.) останется постоянным. На само деле, если средняя межпунктовая корреляция более длинного теста достаточно маленькая, тогда более длинный тест будет менее надежным, чем исходный».
Авторы приводят очень полезный график (рис. 6.1.), на котором показаны связи между пунктами теста и надежностью, для теста с межпунктовой корреляцией 0,30, на котором хорошо видно, что надежность существенно возрастает до 0,72 при увеличении пунктов от 2 до 10. После этого добавление еще восми пунктов , увеличивает внутреннюю согласованность только на 0,1 и доводит ее до 0,82. «Польза от добавления новых пунктов уменьшается с количеством добавленных пунктов», делают вывод авторы. Кроме того, увеличение пунктов имеет и практические ограничения – возрастает время на проведение и усталость испытуемых. Аналогичные выводы появлялись в отечественной литературе (Эйдман, Модина, 1992), однако они остались, в целом, незамеченными.
Следующая тема, содержание которой отличается от кажущихся общепринятыми для нас тем – это валидность теста. Авторы книги указывают на то, что понятие валидности развивалось на протяжении более 60 лет, и за это время претерпело существенные изменения. Воспринимаемое как классическое определение валидности звучит так: «валидность это степень того, насколько тест измеряет именно то, для чего он предназначен». Однако Стандарты психологических тестов «The Standards for Educational and Psychological Testing» 1999 года, разработанные американской ассоциацией исследований в области образования (AERA), американской психологической ассоциацией (APA) и национальным советом по измерениям в образовании (NCME), определяют валидность как «степень эмпирической и теоретической поддержки интерпретации тестовых баллов в предполагаемых сферах использования теста». Из этого следует, что валиден тест не сам по себе, а то насколько интерпретации результатов тестирования и способы их использования способствуют применению теста в соответствующих сферах его использования.
Величина валидности теста зависит от дополнительных условий, которые определяют ограничения областей содержательной интерпретации. Например, тест Добросовестности описанный авторами в Главе 8, не претендует на обладание высокой валидностью для всех случаев жизни, всех сфер деятельности и может быть равно пригодным для диагностики на мужской и женской выборках.
Достаточно большой период времени развития психодиагностики (пока это условие было не общепринятым), исследователи, проверяя тест на «своих» выборках и в «своих» условиях могли обнаружить весьма высокие показатели валидности и тогда могли хвалить тест или низкие показатели – и указывать на то, что валидность теста явно недостаточна. Эта книга поможет разработчикам тестов у нас в стране уяснить для себя и разъяснить потребителям, что валидность теста ограничена областью содержательной интерпретации результатов теста.
Обходится молчанием в отечественной психодиагностике и такой аспект валидности как её зависимость от возможных последствий (благоприятных или неблагоприятных), вызываемых самим процессом прохождения тестирования и особенностями интерпретации полученных результатов. Разработчики тестов здесь выходят в область этических или даже политических последствий тестирования.
Еще одна проблема отечественных психологов, которые не хотят углубляться в «дебри» психометрики — это доминирование такого неизвестного в научной психометрике подхода как а «интуитивная валидность» (заметьте, не «очевидная», а именно «интуитивная»). Этот подход означает, что автор-разработчик просто уверен, «ему так кажется», что именно такой перечень пунктов хорошо выявляет исследуемое им свойство. А то, что инструмент должен измерять психологические характеристики в строгом значении этого слова – многие авторы-разработчики даже не задумываются. При этом среди методик, основанных на интуитивной валидности, известны не только простые одношкальные опросники, но и сложные семантические и проективные процедуры.
В книге Фера и Бакарака целая глава (9) посвящена оценке степени конвергентной и дискриминантной валидности теста. Авторы справедливо полагают, что это тема является краеугольным камнем проверки психометрического качества теста. В книге приводятся несколько способов такой проверки: от достаточно простых до весьма сложных. Если простые методы хотя и редко, но всё таки используются в отечественной психометрике , то сложные методы – практически никогда.
Особого внимания, на наш взгляд, заслуживает весьма тонкий анализ сложных взаимных корреляций между различными признаками и различными методами, используемыми при проверке валидности, предложенный еще Кемпбелом и Фиске (1959). В книге он переведён как «Мультипризнаковые мультиметодные матрицы» (МТМММ).
Такой тонкий анализ взаимного и конкурентного влияния множества признаков и множества методов при проверке конструктной валидности совершенно не характерен для отечественных разработчиков психодиагностических методик. Авторы книги вслед за Кемпбелом и Фриске, демонстрируют «высший пилотаж» психометрического анализа, разбирая в качестве примера гипотетический случай проверки валидности учебного опросника «социальной компетентности», который проверяется путем предсказания величины и направления корреляций с другим опросником, измеряющим признаки родственного конструкта «эмоциональной устойчивости», с другими (экспертными) методами измерения тех же самых конструктов. В табл. 9.2. собраны все возможные сочетания четырёх типов корреляции: 1) гетеропризнаковые – гетерометодные; 2) гетеропризнаковые – монометодные; 3) монопризнаковые – гетерометодные и 4) монопризнаковые –монометодные.
И хотя авторы книги сетуют, что в современной психометрике этот метод проверки конвергентной и дискриминантной валидности используется не так часто (в 2-х статьях из 13-и в журнале Psychological Assessment (APA) за 2005 год), тем не менее они делают такой вывод: «…Несмотря на не высокую частоту его применения, анализ МТМММ является важным шагом вперед в теории и методах оценки конвергентной и дискриминантной валидности тестов. Данный подход во многом сформировал само понимание конструктной валидности, и без его рассмотрения невозможно полное понимание психометрии».
В следующем параграфе рассматривается еще один «сложный» метод проверки конструктной (конвергентной и дискриминантной) валидности, который по мнению авторов является еще более точным и более объективным методом «Квантификация конструктной валидности» (QCV).
Этот относительно недавно (2003) разработанный метод безусловно достоин рекомендации для широкого использования. Основная идея метода состоит в проверке уровня соответствия двух паттернов корреляции – между эмпирически полученных корреляций показателей разрабатываемого (проверяемого) теста с совокупностью показателей других тестов (реальные корреляции) и теоретически предсказанных группой экспертов корреляций между конструктами тех же самых тестов или их отдельных показателей. Рассчитанные в итоге два показателя связи между паттернами реальных и теоретически предсказанных корреляций позволяют делать более точные и объективные выводы о конструктной валидности теста.
Новый аспект валидности, редко обсуждаемый в отечественной литературе, представляет анализ совпадения между психологическими процессами, которые респондент в действительности (при выполнении теста) задействуют в процессе выполнения теста и теми процессами, которые они должны задействовать, согласно предположениям разработчиков теста.
Авторы книги ссылаются на ряд экспериментов, в которых было показано различие между действительными (реальными) процессами и планируемыми при создании теста. Это позволяет сделать вывод о необходимости при проверке валидности теста контролировать и такой аспект как различия этих процессов.
Совершенно новой для отечественной психодиагностики является детальное обсуждение проблемы «Необъективности теста» (глава 11). В этой главе авторы продолжают анализ факторов, начатый в Главе 10, представляющих угрозу надежности и валидности в интерпретации и использовании тестовых баллов. Если в Главе 10 рассматривалась погрешность тестового балла, вызванная намеренными или неосознанными стратегиями ответов респондента (установки на ответ), то Глава 11 сфокусирована на источниках такой погрешности внутри самого теста, которые могут приводить к искаженным различиям между группами – например, к иллюзорным гендерным или возрастным различиям при реальном отсутствии таковых. Рассматриваются два важных типа необъективности теста — погрешность конструкта и предсказательная погрешность. Погрешность конструкта связана с возможным смещением в интерпретации смысла измерительного конструкта при переходе от одной группы к другой (например, между мужчинами и женщинами), что может привести к смещению зависимости между «истинным» тестовым баллом и его наблюдаемыми величинами на выборке. Погрешность тестового конструкта диагностируется методами внутреннего анализа теста – такими как оценка силы (дискриминативности) отдельных пунктов, построение полных характеристических кривых пунктов или факторный анализ. Например, если индекс «силы» отдельно взятого пункта рассчитанного на женской выборке, оказывается отличным от того же индекса в мужской выборке – другими словами, этот пункт сильнее (или слабее) дифференцирует женщин чем мужчин – то это свидетельствует о конструктной погрешности теста и, скорее всего, потребует пересмотра или полной замены такого пункта.
До подобных тонкостей в анализе погрешностей теста отечественная психодиагностика еще просто не дошла. Как не дошла и до обсуждения того, что в отличие от конструктной, предсказательная погрешность связана со смещениями во взаимосвязи тестового балла с параметрами жизнедеятельности (внешними критериями), которые этот тест пытается предсказать. Таким внешним критерием может служить успеваемость, здоровье или результаты по другому тесту. Однако в этой главе авторы ограничиваются «результатами по другому тесту» в качестве внешнего критерия. Надо отметить, что это упущение довольно типично – в силу своего удобства, поэтому «результаты по другому тесту» слишком часто предпочитаются более реальным внешним критериям, что является источником хорошо известной проблемы недостаточной «калиброванности» психологических тестов (Sechrest, McKnight & McKnihgt, 1996). Читателям стоит не забывать о важности реальных жизненных критериев не только для снижения предсказательной погрешности, но и повышения качества тестов в целом. Предсказательная погрешность диагностируется методами внешней оценки теста – такими как регрессионный анализ и структурное моделирование, с помощью которых оценивается связь между суммарным баллом или отдельными пунктами теста с внешними по отношению к этому тесту критериями.
Основной смысл выделения и разработки методов выявления необъективности теста заключается в противодействии постоянным ошибкам, которые проявляются в неправомерной разнице в набранных баллах в двух различных по какому-то признаку группах: мужчины и женщины, молодые и старики, европейцы и африканцы и т.д.
При этом очень важно подчеркнуть, что «разница» в тестовых баллах в двух группах не обязательно означает наличие систематической ошибки. Эта разница может быть проявлением реальных различий, существующих между группами.
Необходимость разработки методов такой проверки, реально обнаруживаемых при тестировании различий между группами, вызвана, на наш взгляд, социальной значимостью таких различий и особой чувствительностью развитого общества к безупречной обоснованности выводов о наличии реальных различий между социальными и национальными группами.
Наше общество ещё просто не созрело до контроля за результатами психологических исследований, в которых обнаруживаются (возможно совершенно ошибочно) гендерные различия или различия между этническими и социальными группами. Тематика этой главы является тем более важной, что при контроле за психодиагностическими методиками можно превентивно избежать ошибок тестирования в социально чувствительных зонах.
Заметим, что предсказательная погрешность не зависит от конструктной и, как следствие, требует отдельной проверки. Так, например, существует немало тестов с выраженной предсказательной погрешностью при отсутствии сколько-нибудь заметной конструктной погрешности.
К достоинствам 11 главы, кроме всего прочего, стоит также отнести компактное и очень доступное изложение основ регрессионного анализа.
Завершая обзор 11-ой главы, важно отметить, что само ее название (Test bias) нередко приводит к смешению ключевого понятия систематической ошибки (смещения оценок) с необъективностью или предвзятостью теста. Первое относится к науке о психологических измерениях, второе – к области моральных суждений. С научной точки зрения важно не то, насколько несправедливыми могут показаться различия между группами (хотя и этого игнорировать не стоит), а насколько аккуратно тестовые баллы отражают эти различия (или их отсутствие). К примеру, никому не придет в голову подозревать в предвзятости измерение роста или веса тела только потому, что гендерные различия по этим показателям хорошо известны.
Последние две главы книги выделены в отдельную связку под заголовком «Современные психометрические подходы: высшая психометрика». Это не случайно – в главах представлены современные подходы к психометрике, выходящие за привычные рамки классической теории тестов (на которой основаны все предыдущие главы).
В 12-ой главе описаны основные понятия и задачи теории генерализуемости (Generalizability Theory — GT). Основу GТ составляет понятие «совокупной популяции» всех возможных заданий теста. Как следствие, надежность интерпретируется в терминах способности обобщать результаты с небольшого набора пунктов на всю эту «совокупность». Преимущества GТ над классической теории тестов особенно заметны при сложных измерениях с несколькими источниками ошибки. К примеру, GТ позволяет разделить погрешность наблюдателя, погрешность пункта, и целый ряд других источников погрешности измерения. Долю вариативности, вызванную каждым из этих источников ошибки, можно рассчитать с помощью дисперсионного анализа. Сравнивая эту вариативность с вариативностью, вызванной реальными индивидуальными различиями, можно рассчитать коэффициент генерализуемости измерительной стратегии. Таким способом можно сравнивать генерализуемость разных измерительных стратегий – в самом простом случае это варианты шкалы с разным количеством пунктов. А такие сравнительные данные весьма полезны при дизайне окончательной версии шкалы, при этом, как правило, выбирается минимальное количество пунктов, достигающее заданного уровня генерализуемости – или же находится такое количество пунктов, после которого добавление новых уже почти не улучшает генерализуемость.
Примеры расчетов вариативности и коэффициентов генерализуемости отличает завидная доступность – даже в довольно сложном случае с применением двухфакторного дисперсионного анализа. В случае простого, однофакторного дизайна обращает на себя внимание идентичность рассчитанного коэффициента генерализуемости и классического коэффициента альфа Кронбаха – что подчеркивает преемственность и взаимопереходы между GТ и классической теорией тестов. Как в случае с теорией относительности и классической механикой, классическая теория тестов оказывается частным случаем GТ при достаточно простых источниках ошибки измерения.
В Главе 13 представлен наиболее продвинутый на сегодня подход в психометрике — Item Response Theory (IRT). Однозначного русскоязычного эквивалента самому термину IRT до сих пор не существует. Варианты перевода включают «теория тестовых заданий», «теория ответов на пункты теста», «алгоритмическая теория измерений» и целый рад других. В настоящем издании термин IRT переведен как «Теория ответов на пункты» — с тем, чтобы подчеркнуть сфокусированность этого подхода «на поведении» отдельных пунктов, а не агрегированной шкалы. В то же время, по сложившейся традиции, в книге часто используется уже привычная отечественному читателю англоязычная аббревиатура IRT. Подобное узнавание теории частично снимает проблему адекватности перевода ее названия. Уже только по аббревиатуре IRT становится понятно о чем идет речь.
В основе подхода IRT лежит довольно очевидное наблюдение, что ответ конкретного респондента на данный пункт шкалы определяется как свойствами респондента, так и свойствами пункта.
В разных вариантах IRT разработаны методы расчета вероятностных характеристик отдельных пунктов относительно реальных свойств респондента. Так, сила (или сложность) пунктов в IRT выражается в терминах выраженности измеряемого признака у респондента – точнее, она определена как степень выраженности черты или способности, дающая респонденту 50-процентный шанс справиться с заданием. Самая простая версия IRT – модель Раша – определяет ответ респондента как вероятностную функцию сложности пункта и выраженности измеряемого признака.

       Графическая форма этой функции — характеристическая кривая пункта – является полезным инструментом отбора и оптимизации пунктов.
Здесь необходимо отметить, что долгое время в отечественной психодиагностике использование IRT на практике упиралось в чем-то обоснованное предубеждение, что модель Раша пригодна только для очень ограниченного типа методик. В первую очередь для тестов достижения, в которых довольно очевидна зависимость ответа респондента на пункт (задание) как от его знаний (способностей), так и трудности пункта. Второе ограничение распространения модели Раша связано с требованием только дихотомического формата ответов (да – нет, верно – неверно и т.д.) на пункты тестов. Поэтому очень важно, что авторы, кроме модели Раша, рассматривают и более современные версии IRT, в которых указанные ограничения уже преодолены.
Следующее поколение моделей IRT учитывают другие важные параметры пунктов. Так, такой важный параметр в IRT – дискриминативность пункта – определяется тем, насколько различны ответы на этот пункт у респондентов с высокой и низкой выраженностью измеряемого признака. Добавление дискриминативности пункта как дополнительной детерминанты ответа респондента на пункт расширяет модель Раша до так называемой двух-факторной логистической модели и заметно повышает ее полезность. Дельнейшее расширение возможно как через добавление факторов (например, в трех-факторной логистической модели добавлена третья характеристика пункта – вероятность угадывания), так и через расширение формата ответов: от дихотомического до включения градаций ответа по степени согласия с пунктом (например, полностью согласен – пожалуй не согласен) или по степени корректности ответов (при оценке способностей).
Подобранная модель IRT позволяет правильно оценить информативность как теста в целом, так и отдельных его пунктов – с последующим их отбором и оптимизацией. Более того, в отличие от классического понятия надежности теста, информативность не является константой, а может меняться в зависимости от уровня выраженности измеряемого признака. Например, тест (и даже отдельный пункт) может обладать более высокой информативностью в середине диапазона выраженности измеряемой черты или способности, чем на его краях. В таком случае различимость экстремальных значений выраженности черты ухудшена по сравнению со средними ее значениями.

     Полезность такого рода данных несомненна – как для улучшения качества тестов, так и для повышения адекватности процедур тестирования в целом.
Особенно ценен вклад IRT при диагностике нетипичных или подозрительных паттернов ответов, а также в приложениях компьютеризованного адаптивного тестирования, когда каждый последующий пункт теста подбирается из банка заданий на основании мгновенного анализа всех предыдущих ответов респондента.
Подкупающая доступность изложения довольно сложного материала в Главе 13, достигнутая без излишних упрощений и потери аккуратности, подчеркивает преимущества IRT в детальной оценке и оптимизации психометрических параметров теста. Можно с уверенностью предположить, что этот материал перекочует из категории «продвинутый» в категорию «полезный каждому» значительно скорее, чем может показаться – и во многом благодаря книге, которую вы держите в руках.
Завершая анализ книги Фера и Бакарака, хочется отметить весьма качественную работу ее переводчиков – кандидатов психологических наук Анны Науменко и Алексея Попова, а также огромный труд аспиранта кафедры «Психологическая диагностика и консультирования» ЮУрГУ Татьяны Ким, благодаря которому эта книга увидела свет.
Хочется также от имени всего психодиагностического сообщества поблагодарить Ректора ЮУрГУ д.т.н., проф. А. Л. Шестакова за поддержку в реализации этого не простого проекта.

Научные редакторы перевода:
Профессор Николай Батурин (ЮУрГУ, Россия) и Профессор Евгений Эйдман (Kingston University London & University of Adelaide, Australia)

Что такое психометрия и какие возможности она дает?

Психометрия позволяет развить человеку потрясающую проницательность! По сути, с этой способностью можно узнать обо всем. Узнайте подробнее о ней здесь!

Что такое психометрия?

Изучая феномен времени, ученые вывели определенный закон ускорения. Он гласит о том, что время постоянно ускоряется. К примеру, жизненный уклад во времена Римской империи был совершенно другим, нежели в XVII веке. И точно также сейчас люди живут намного быстрее, чем в XVII веке.

Также это называют повышением уровня частотности пространства: на каком-то глубинном уровне оно меняется, становится «быстрее». И вместе с повышением частоты начинает проявляться все больше разных экстрасенсорных способностей.

Одна из них называется «психометрией», и данная способность может значительно изменить жизнь человека и устройство всего общества в ближайшем будущем.

Психометрия — это способность человека считывать информацию с какого-либо места, человека или вещи. Она заложена в каждом человеке.

Как известно, все обладает памятью. Исследования японских ученых показали, что даже вода имеет память и запоминает все, что произошло или было произнесено около нее. Также и другие вещи, начиная от пуговицы и заканчивая зданием или географическим местом, несут в себе информацию.

Психометрия является одной из форм ясновидения

Прикасаясь к вещам, связанным с неким местом, человеком или событием, психометр (человек с развитой способностью психометрии) открывает энергетические записи происходивших событий и видит образы прошлого, связанного с данным предметом.

Во время проведения сеанса психометрии устанавливается информационная связь между психометром и материальным предметом, содержащим астральные записи: они заключают в себе образы прошлых событий.

Все знания во Вселенной содержатся в особом информационном поле, которое находится вне времени и пространства, то есть везде.

Человек с помощью психометрии подключается к полю и «загружает» в себя информацию, связанную с конкретным предметом или географическим местом.

Вещь может быть любая: камень, ткань, письмо или зеркало. При помощи такого объекта экстрасенс строит психический контакт с заложенными в нем знаниями и может различные события прошлого.

Какие возможности открываются с психометрией?

Человек, который обладает ею, способен на очень многое! Область применения психометрии весьма обширна:

  • криминалистика¹.

С помощью этой способности всегда можно увидеть след преступника по образцу следа или кусочку одежды. Таким образом можно подключиться к ауре разыскиваемого – любой организм, оставляет за собой индивидуальный астральный след.

Следует сказать, что с опытом работы в этой сфере психометрия может проявляться неосознанно. Опытные следователи подтвердят, как им удается увидеть след, дополнительное доказательство, увидеть в простом предмете гораздо больше, чем в нем есть с первого взгляда. Обычно людьми это воспринимается как определённого вида сноровка;

  • экспертиза произведений искусства.

С помощью этой сверхспособности можно легко анализировать и получать информацию о тех или иных произведениях искусства, легко определять истинную стоимость, стать мастером своего дела;

  • реконструкция важных исторических событий и археология.

Психометрия позволяет изучать историю такой, какой она была на самом деле, избежать заблуждений в науке, знать, как действительно происходили события.

По антикварным предметам древности можно восстанавливать образы событий прошлого.

Также эта экстрасенсорная способность позволяет делать новые открытия, находить древние города и другие археологические свидетельства, сокрытые в земле.

О том, как развить способность к психометрии, читайте здесь >>>

 


Примечания и тематические статьи для более глубокого понимания материала

¹ Криминалистика — прикладная юридическая наука, исследующая закономерности приготовления, совершения и раскрытия преступления, возникновения и существования его следов, собирания, исследования, оценки и использования доказательств (Википедия).

² Ясновидение — тип экстрасенсорного восприятия, способность человека получать информацию помимо русел восприятия, известных науке и определяемых современными научными средствами, в том числе сведения о событиях прошлого и будущего (Википедия).

 

Психометрика — это… Что такое Психометрика?

  • психометрика — (или психометрия) совокупность теоретико математических моделей и процедурно методических правил организации сбора и обработки эмпирических данных, позволяющих выразить психические свойства и параметры психических процессов в числовой или… …   Большая психологическая энциклопедия

  • Психометрика — область психологии, которая изучает теоретические и методологические проблемы измерений во всех др. областях психологии; разрабатывает математические модели для методов психологического измерения (напр., модель Терстоуна, модель многомерного… …   Словарь по психогенетике

  • Психометрика (psychometrics) — Область П. (или психометрии) связана с количественным подходом к анализу тестовых данных. П. включает два раздела: теорет. и прикл. Психометрическая теория обеспечивает исследователей и психологов мат. моделями, используемыми при анализе ответов… …   Психологическая энциклопедия

  • психодиагностика — (от греч. psyche душа и diagnostikos способный распознавать) область психологической науки, разрабатывающая методы выявления и измерения индивидуально психологических особенностей личности. Начавшись с попыток «охватить числом операции ума» (Ф.… …   Большая психологическая энциклопедия

  • ЕРЕМЕЕВ Борис Алексеевич — (р. 1947) российский психолог, спец. в обл. социальной и пед. психологии. Докт. психол. наук (2003), проф. В 1972 г. окончил ф т психологии ЛГУ. В 1975 г. окончил аспирантуру ф та психологии ЛГУ. Защитил канд. дис.: «Изучение социальной перцепции …   Психология общения. Энциклопедический словарь

  • Ежегодники психических измерений (mental measurement yearbooks) — Начиная с 1938 г., публиковавшиеся на протяжении 40 лет Е. п. и. (MMY) оказывали неоценимую помощь широкой массе пользователей тестов. По замыслу Буроса, целями Е. п. и. являлись: а) снабжение читателей регулярно обновляемой библиографической… …   Психологическая энциклопедия

  • Измерение (measurement) — Психол. исслед. фокусируется на отношениях между наблюдаемыми переменными. Психол. теория занимается отношениями между конструктами. Эти теорет. конструкты обычно операционально определяются через наблюдаемые переменные. Как в теории, так и в… …   Психологическая энциклопедия

  • Клинический прогноз в сравнении со статистическим (clinical versus statistical prediction) — Традиционная модель клинической терапии включает в себя терапевта в роли диагноста. В соответствии с распространенным представлением в процессе оценки терапевт должен опираться не только на рез ты различного рода стандартизованных тестов, но и на …   Психологическая энциклопедия

  • Конструирование измерительных инструментов (instrument design) — Слово «инструмент» при его употреблении в контексте соц. наук может относиться ко всему, что позволяет осуществлять измерение. Напр., IQ тест инструмент, предназначенный для измерения интеллекта. Др. типы широко используемых инструментов включают …   Психологическая энциклопедия

  • Культурно свободные тесты (culture fair tests) — Термин «К. с. т.» относится к тестам, «справедливым» в отношении любой конкретной культурной группы. И хотя технически невозможно разраб. тест, полностью лишенный систематических ошибок, обусловленных культурными факторами, существует множество… …   Психологическая энциклопедия

  • Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *