Валидность внешняя: Внешняя валидность и виды обобщений за пределами исследовательской ситуации

Автор: | 04.06.2021

Содержание

Внешняя валидность и виды обобщений за пределами исследовательской ситуации

Сущность понятия «валидность»

Определение 1

Валидность – это комплексная характеристика методики, которая включает сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

Данное понятие относится к тому, что эта методика измеряет и как хорошо она это делает. Те тесты, которые не обладают валидностью, для практического использования не годятся.

Уровень валидности – это её коэффициент.

На валидность теста оказывают влияние систематические факторы, привносящие в результаты искажения. К ним относятся другие психические свойства, мешающие в результатах теста проявиться тому свойству, на которое направлен тест.

Например, необходимо измерить потенциал обученности, но время исполнения строго ограничено, и допущенную ошибку исправить невозможно. Таким образом, искомое психическое свойство смешается с другим – «стрессоустойчивостью». Те, у кого стрессоустойчивость высокая, выполнять тест будут лучше. Здесь проявляется эффект систематического искажения. Отсюда, единого и универсального подхода к определению валидности не существует.

Исходя из того, какая сторона валидности будет рассматриваться, будут использоваться и соответствующие способы доказательства.

Замечание 1

Методика имеет столько валидностей, сколько существует критериев.

В первом понимании валидность относится к самой методике – это валидность измерительного инструмента, а проверка получила название теоретической валидизации. Второе понимание относится уже не столько к методике, сколько к цели её использования – это прагматическая валидизация.

Для использования психодиагностических методик в практических целях, они должны быть проверены по ряду формальных критериев, которые являются главным элементом методик и доказывают их эффективность и высокое качество.

Основными критериями оценок являются надежность и валидность.

Критерий валидности представляет собой источник информации об измеряемом психическом свойстве, он не зависит от теста и по отношению к нему является внешним. Говорить о валидности теста можно только тогда, когда его результаты будут сравнимы с источником истиной информации об измеряемом свойстве, т.е. с критерием.

В качестве критерия валидности на практике часто используется прагматический критерий, представляющий собой очевидный признак, проявляемый испытуемым независимо от исследуемого качества. Например, данные о выполнении разных заданий, контрольных проб и данные, полученные при помощи других методик, валидность которых доказана.

Виды валидности

В употребление понятие «валидность» было введено Д. Кемпбеллом, который им обозначил уверенность экспериментатора в том, что с помощью определенной методики, он измеряет именно то, что хотел измерить.

Рисунок 1. Основные виды валидности. Автор24 — интернет-биржа студенческих работ

Валидность эксперимента может быть внутренней и внешней. Признак хорошего эксперимента – это высокая внутренняя валидность и, если экспериментальный эффект вызван изменением независимой переменной, то внутренняя валидность будет выше.

Внутреннюю валидность эксперимента, по мнению Кемпбелла могут нарушить несколько основных факторов:

  • селекция – неэквивалентность, вызывающая систематическую ошибку в результатах;
  • статистическая регрессия является частным случаем селекции;
  • экспериментальный отсев при котором из группы происходит неравномерное выбывание испытуемых;
  • естественное развитие – изменение испытуемых в течение времени.

Теоретическая валидность, определить которую можно по соответствиям показателей исследуемых качеств, получена с помощью созданной методики. Проверить теоретическую валидность можно путем корреляции одного и того же свойства, который измеряется различными методами.

В пределах теоретической валидности выделяют конвергентную, конструктную, эмпирическую, внутреннюю валидность.

Благоприятная ситуация использования конвергентной валидности складывается тогда, когда уже есть в психологии валидная методика, которая проверяет изучаемое качество. Если между показателями этих методик корреляция высокая, то это значит, что для новой методики характерна конвергентная валидность.

Когда для измерения какого-либо свойства тест с известной валидностью не опробирован тогда исследователь выдвигает ряд гипотез – будет ли коррелировать новый тест с другими тестами. В основе выдвигаемых гипотез лежат теоретические представления об измеряемом свойстве. Когда они подтверждаются, то это указывает на валидность выдвигаемого конструкта, т. е. конструктную валидность (предполагаемую).

Что касается эмпирической валидности, то исследователь смотрит, насколько клиент в реальной жизни ведет себя соответственно результатам исследования. Кроме этих видов существует ложная, очевидная валидность, валидность, исходящая из опыта, валидность, основанная на желаниях, валидность всех тестовых методик.

Ложная валидность фиксирует видимость пригодности методики, а очевидная валидность соответствует подлинной только в дидактических тестах и иногда действительно исследует реально существующие факты.

В основе валидности, исходящей из опыта, лежат личные чувства психолога для измерения какого-либо качества испытуемого.

Валидность, основанная на желаниях предполагает желание видеть свою методику валидной, не замечая, при этом, противоречащих этому желанию фактов. Для расчета валидности, как показывает практика, должно быть не меньше 50 человек, но, лучше больше 200.

Внешняя валидность

Замечание 2

Внешняя валидность указывает, на какие популяции, ситуации, независимые переменные, параметры воздействия, переменные измерения можно распространить результаты эксперимента.

Например, можно ли использовать методику обучения плаванию 10-летних детей при обучении студентов.

Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, соответствуют жизненной ситуации.

Кроме того, она характеризует возможность обобщения переноса экспериментальных результатов на все жизненные условия — время, место, условия и группы людей.

Возможность переноса является следствием двух причин:

  1. когда условия эксперимента соответствуют его «первообразной» ситуации (репрезентативность эксперимента), например, исследование мотивации учащихся, есть репрезентативный эксперимент, потому что все они находятся в ситуации учебной деятельности и мотивированы на учебу;
  2. типичности ситуации для реальности (репрезентативность ситуации).

В эксперименте ситуация, выбранная для моделирования, может быть с точки зрения жизни совсем нерепрезентативной для испытуемых, может являться нетипичной, редкой.

Внешняя валидность делится на операциональную валидность и конструктную, которая объясняет поведение человека при прохождении им теста.

Кемпбелл говорит о причинах нарушения внешней валидности:

  • Реактивный эффект или эффект тестирования – это возможное увеличение или уменьшение восприимчивости испытуемых к экспериментальному воздействию. Результаты тех, кто прошел предварительное тестирование, будут нерепрезентативны относительно тех, кто предварительному тестированию не подвергался;
  • Условия, при которых организуется эксперимент, вызывают у испытуемого реакцию, значит, результат эксперимента нельзя переносить на тех, кто участия в эксперименте не принимал;
  • Взаимная интерференция – испытуемые имеют память и обладают обучаемостью, и если эксперимент будет состоять из нескольких серий, то, безусловно, первые воздействия бесследно для них не пройдут и скажутся на появлении эффектов от последующих воздействий.

Провести «правильное» исследование с учетом всех условий и требований в реальной практике невозможно. Чаще бывает так, что невозможно подобрать репрезентативные выборки, исключить эффекты селекции, выбывания и возможность переноса результатов на всю популяцию.

Внутренняя валидность | Что это такое

Пользователи также искали:

операциональная валидность, различия внутренней и внешней валидности исследования, угрозы внутренней валидности, валидность эксперимента, валидность и надежность эксперимента, внешняя валидность это, внутренняя и внешняя валидность, валидность, Внутренняя, эксперимента, внутренняя, валидности, внутренней, внешняя, внутренняя и внешняя валидность, внешняя валидность это, операциональная валидность, валидность эксперимента, валидность и надежность эксперимента, угрозы, угрозы внутренней валидности, операциональная, различия, внешней, исследования, надежность, внешняя валидность, Внутренняя валидность, различия внутренней и внешней валидности исследования, внутренняя валидность, экспериментальная психология.

внутренняя валидность,

Клинические исследования и клиническая практика. Европейский подход к преодолению разрыва эффективность-результативность

В «Еженедельнике АПТЕКА» № 11 (1132) от 19 марта 2018 г. мы рассказали читателям о новых подходах к определению эффективности и безопасности лекарственных средств и таком явлении, как разрыв эффективность-результативность (efficacy-effectiveness gap). В продолжение темы рассмотрим, насколько результаты клинических исследований соответствуют реальной клинической практике и какие подходы к преодолению разрыва эффективность-результативность применяются в странах ЕС.

КЛИНИЧЕСКИЕ ИССЛЕДОВАНИЯ

В последнее время регуляторные органы, агентства по оценке технологий здравоохранения, операторы здравоохранения и фармацевтического сектора ЕС обращают внимание на факторы приемлемости данных клинических исследований, а именно — обобщение и обобщаемость, то есть возможность переноса результатов клинических исследований в реальную клиническую практику.

Обобщение в клинических исследованиях — это возможность применения их результатов для популяции пациентов в конкретной клинической ситуации. Степень, в которой результаты того или иного клинического исследования могут быть соотнесены с конкретной популяцией и с конкретной клинической ситуацией, называется обобщаемость.

Иногда для обозначения обобщаемости используется термин «внешняя валидность». Однако это не совсем корректно. Валидность и обобщаемость требуют отдельного рассмотрения. Валидность должна быть гарантирована в первую очередь, но также должна быть возможность обобщения результатов исследования для более широкой популяции.

Валидность — это степень соответствия методик и результатов исследования поставленным задачам. При организации рандомизированных клинических исследований стоит задача доказать биологический (фармакологический) эффект лекарственного средства. Поэтому такие исследования называют объясняющими (explanatory trials). При их проведении не нужно определять эффективность лекарственного средства в реальной клинической практике. Поэтому даже если качественно проведенное рандомизированное контролируемое клиническое исследование валидно, это не означает, что такие же результаты будут получены в клинической практике.

В связи с этим внимание регуляторов, агентств по оценке технологий здравоохранения, спонсоров клинических исследований привлекли исследования в реальной клинической практике (RWE studies) и доказательства, полученные в реальной клинической практике (Real-World Evidence — RWE).

Доказательства, полученные в реальной клинической практике в результате анализа и/или синтеза данных реальной клинической практики (Real-World Data — RWD) — это общий «зонтичный» термин для данных, полученных в результате терапевтического вмешательства (например данные по безопасности, эффективности, использовании ресурсов и т. д.), которые собираются за пределами строго контролируемых рандомизированных клинических исследований. Предполагается, что RWE применимы к самому терапевтическому вмешательству, пациентам, на которых оно направлено в реальной клинической практике, включая относительную эффективность. Относительная эффективность терапевтического вмешательства — это степень, при которой вмешательство приносит больше пользы, чем вреда, по сравнению с одним или несколькими альтернативными терапевтическими вмешательствами.

Хорошо разработанные обсервационные исследования широко используются для генерирования данных RWE. Обсервационные исследования проводят для исследования эффективности нового препарата или метода лечения в повсе­дневной клинической практике без изменения нормального поведения пациента и врача.

Кокрановский обзор 2014 г. приходит к выводу о том, что существует мало свидетельств в пользу значительных отличий между обсервационными исследованиями и рандомизированными контролируемыми клиническими исследованиями в оценках эффективности и безопасности лекарственных средств. Однако более позднее метаэпидемиологическое исследование показало, что можно получить разные ответы на один и тот же клинический вопрос в исследованиях, основанных на регулярно собираемых данных о состоя­нии здоровья, и последовавших за ними рандомизированных клинических исследованиях. Исследования, основанные на регулярно собираемых данных о состоянии здоровья, могут существенно переоценить лечебные эффекты, несмотря на сложные методы устранения статистических погрешностей.

Поэтому возникла необходимость привнес­ти элемент рандомизации в исследования в реальной клинической практике для получения более валидных данных. Рандомизация в клинических исследованиях — это важный инструмент для гарантии того, что различия между экспериментальной и контрольной группами не повлияют на измерение степени пользы или риска препарата. Рандомизация направлена на устранение различий неизвестных и известных факторов, которые приводят к прогностической несопоставимости результатов между группами пациентов. Так возникла идея о прагматических клинических исследованиях.

Прагматические клинические исследования позволяют объединить преимущества обсервационного исследования в реальной клинической практике с научной строгостью рандомизированного исследования, и тем самым дать более эффективные ответы на вопросы реальной клинической практики. Данные этих исследований особенно актуальны, если уже существуют методы лечения исследуемого заболевания, и когда ситуация в реальной клинической практике, включая посторонние факторы, может повлиять на терапевтический эффект. Идеальное прагматическое клиническое исследование направлено на то, чтобы выявить полный эффект терапии в реальной клинической практике с высокой степенью внешней валидности.

Рандомизированные контролируемые клинические исследования и прагматические клинические исследования представляют собой противоположные стороны одного континуума рандомизированных клинических исследований. В реальной практике исследование может быть ближе к одной или другой стороне континуума и содержать их элементы. И те, и другие исследования — рандомизированные, хотя методы рандомизации отличаются.

Прагматические исследования схожи с обсервационными исследованиями. При обсервационном исследовании, как и при прагматическом, данные собираются путем простого наблюдения событий в реальной клинической практике, без вмешательств в нее. Данные, полученные в результате этих исследований, относятся к данным реальной клинической практики (RWE). Однако обсервационные исследования стоят особняком от прагматических, так как в обсервационных исследованиях нет рандомизации. Поэтому они могут уступать прагматическим исследованиям по уровню достоверности.

ПРЕОДОЛЕНИЕ РАЗРЫВА ЭФФЕКТИВНОСТЬ-РЕЗУЛЬТАТИВНОСТЬ — ЕВРОПЕЙСКИЙ ПОДХОД

Проблемы развития медицинской науки, внедрение новых технологий здравоохранения в реальную медицинскую практику, а также проб­лемы, связанные с этим (в том числе переносимости и валидности данных рандомизированных клинических исследований в реальной клинической практике) привлекли внимание Европейской Комиссии и фармацевтической промышленности ЕС.

Сейчас происходит смена парадигмы доказательной медицины, которая основывалась исключительно на данных рандомизированных контролируемых клинических исследований как вершины и «золотого стандарта» доказательности.

В 2007 г. Комиссия ЕС предложила проект государственно-частного партнерства между Европейским Союзом, представленным Комиссией ЕС и EFPIA (Европейская федерация ассоциаций фармацевтических производителей — European Federation of Pharmaceutical Industries and Associations), который называется Инициатива инновационных лекарственных средств (Innovative Medicines Initiative Joint Undertaking — IMI). Основная цель этого проекта — существенно улучшить эффективность и результативность процесса разработки лекарственных средств.

Благодаря солидному бюджету IMI (более 2 млрд евро) поддержку получили совместные исследовательские проекты, реализуемые в ЕС. Кроме того, появились эксперты, которые могут форсировать процесс внедрения инноваций в секторе здравоохранения ЕС.

Действуя как нейтральная третья сторона в создании инновационных партнерств, IMI построила совместную экосистему для сотрудничества в области фармацевтических исследований и разработок. Она предоставила социальные и экономические преимущества гражданам ЕС, усилила конкурентоспособность Европы в глобальном масштабе и сделала данный регион одним из самых привлекательных для фармацевтических исследований и разработок.

Исследовательский консорциум, который принимает участие в проектах IMI, состоит из крупных биофармацевтических компаний — членов EFPIA и ряда других партнеров, таких как малые и средние предприятия, пациентские организации, университеты и исследовательские организации, больницы, регуляторные агентства ЕС и др.

Благодаря успеху первой программы IMI Комиссия ЕС и EFPIA предприняли шаги по продолжению этой инициативы в рамках программы исследований и инноваций Горизонт 2020 (Horizon 2020), которая охватывает период с 2014 по 2020 г.

Вторая часть программы — IMI2 — законодательно оформлена Европейским парламентом и государствами — членами ЕС в первой половине 2014 г. IMI2 официально стартовала в июле 2014 г. Бюджет программы составляет 3,276 млрд евро. Половина бюджета поступает от программы ЕС Горизонт-2020, вторая половина — от EFPIA и ее компаний-членов.

В рамках инициативы IMI в октябре 2013 г. стартовал 3-летний проект GetReal — государственно-частный консорциум, в который входят фармацевтические компании, академические учреждения, агентства по оценке технологий здравоохранения, регуляторные органы (например Европейское агентство по лекарственным средствам — ЕМА), пациентские организации, представители малого и среднего бизнеса.

Основная цель проекта GetReal — разработка, рассмотрение и внедрение новых надежных методов сбора и синтеза доказательств реальной клинической практики для их более раннего включения в процесс разработки инновационных лекарственных средств. То есть проект направлен на ускорение процесса внедрения новых лекарств в клиническую практику, принятия решений в сфере здравоохранения, включая возмещение (реимбурсацию) новых препаратов.

Проект требует консенсуса в отношении наилучшей практики использования данных реальной клинической практики для принятия решений в области регулирования и реимбурсации лекарственных средств. Для этого были разработаны и представлены альтернативные стратегии получения доказательств эффективности и безопасности лекарственных средств, включая обоснования их реимбурсации. Эти наработки позволят лицам, принимающим решения по экономически обоснованному внедрению технологий здравоохранения в государствах ЕС, более уверенно и быстро предоставлять пациентам доступ к новым методам лечения в реальной клинической практике. Причем методам, которые адаптированы к системам здравоохранения и существующим медицинскими практикам конкретных государств ЕС.

Проект GetReal состоит из нескольких частей (workpackages), а именно:

  • комплекс работ 1 (Workpackage 1), в результате чего была разработана рамочная методология для принятия решений в сфере здравоохранения и фармацевтических исследований и разработаны методические рекомендации, которые позволяют оценить приемлемость и полезность инновации с использованием анализа данных реальной клинической практики;
  • комплекс работ 2 (Workpackage 2), в ходе которого были разработаны точные, научно обоснованные инструменты и методические рекомендации для проектирования клинических исследований лекарственных средств в реальной клинической практике;
  • комплекс работ 3 (Workpackage 3), который дал понимание операционных проблем при разработке ранних исследований в реальной клинической практике (таких как прагматические исследования), и инструментов для их преодоления.
  • комплекс работ 4 (Workpackage 4), в процессе которого были разработаны всеобъемлющие и удобные для пользователей методы синтеза доказательств и техник прогностического моделирования, программное обеспечение и соответствующие учебные материалы для поддержки лучших практик;
  • комплекс работ 5 (Workpackage 5) — проектный менеджмент, в рамках которого осуществлялось управление консорциумом GetReal путем предоставления научных и управленческих услуг.

Для разработки дизайна прагматических клинических исследований и оценки протоколов клинических исследований на предмет их прагматичности был разработан инструмент для принятия решений PragMagic.

PragMagic позволяет оценить возможные последствия выбора прагматического дизайна клинического исследования, операционные сложности, связанные с этим, обобщаемость (переносимость) данных в реальную клиническую практику, риски систематических ошибок оценки результатов исследования, точность данных, приемлемость с этической точки зрения и с точки зрения заинтересованных лиц и организаций, влияние на стоимость и длительность исследования.

Для образовательных и практических целей был создан ресурс Real-world evidence Navigator, который помогает пользователям больше узнать о потенциальных проблемах при демонстрации относительной результативности новых лекарственных средств (проблемы разрыва эффективность-результативность) и препаратов с хорошо изученным медицинским применением. Кроме того, ресурс предоставляет специальные типы анализа и дизайна исследований, основанных на данных о применении лекарственных средств в реальной клинической практике, для разработки новых препаратов или при необходимости исследований эффективности хорошо изученных лекарств. Real-world evidence Navi­gator предоставляет результаты многочисленных работ в рамках проекта GetReal, а также другие авторитетные источники информации по реальной клинической практике.

Одним из продуктов проекта GetReal стала серия из 8 публикаций на общую тему «Прагматические клинические исследования и реальная клиническая практика» («Pragmatic trials and real world evidence»), которые были опубликованы в журнале «Клиническая эпидемиология» («Journal of Clinical Epidemiology») c августа по ноябрь 2017 г. Эта серия публикаций включает литературные обзоры, интервью с заинтересованными сторонами из академических учреждений, научно-исследовательских институтов, контрактных исследовательских организаций, представителями фармацевтической промышленности, страховщиков медицинских услуг, агентств по оценке технологий здравоохранения, врачей и пациентских организаций. Серия включает следующие публикации:

  • введение в прагматические клинические исследования и доказательства реальной клинической практики;
  • выбор и включение сайтов для исследований лекарственных средств в реальной клинической практике;
  • набор, включение, удержание пациентов в прагматических клинических исследованиях;
  • проблемы и сложности при оформлении информированного согласия для прагматических клинических исследований;
  • вопросы, возникающие при проведении прагматических клинических исследований и использовании доказательств реальной клинической практики, препараты сравнения, выбор стратегий лечения для сравнения;
  • выбор и измерение результатов лечения в прагматических клинических исследованиях;
  • мониторинг безопасности и правила проведения, контроль качества прагматических клинических исследований;
  • сбор и управление данными прагматических клинических исследований.

Исследования в реальной клинической практике могут использоваться при принятии решений по реимбурсации. К таким методам относится мультикритериальный анализ принятия решений (Multiple-criteria decision analysis — MCDA). Для технологий на основе принципов MCDA разработано специальное программное обеспечение, кроме того, эти технологии могут быть адаптированы для систем искусственного интеллекта. Подобные научные методы принятия решений (при их правильном применении) позволяют агентствам по оценке технологий здравоохранения принимать решения с учетом соотношения польза/риск и состояния системы здравоохранения.

Виталий Усенко,
магистр управления международным бизнесом,
магистр по управлению качеством

Цікава інформація для Вас:

Оценка конструктной валидности хирургического лапароскопического симулятора

Э.М. МакДугалл

Состояние проблемы. Мы представляем первоначальные данные о конструктной, содержательной и внешней ва­лидности хирургического лапароскопического симулятора LAPMentor (компания Simbionix) со средствами виртуаль­ного отображения.

Дизайн исследования. Студенты-медики (MS), ординаторы и стипендиаты (R/F), а также опытные лапароскопические хирурги (ES), проводившие <30 лапароскопических вме­шательств ежегодно (ES<30), а также те, которые проводи­ли >30 лапароскопических операций в год (ES>30), выпол­няли 9 заданий, направленных на формирование базовых навыков (SK), включая управление 0° и 30° камерами (SK1, SK2), зрительно-моторную координацию (SK3), клипирование (SK4), захват и клипирование (SK5), маневриро­вание двумя руками (SK6), рассечение (SK7), коагуляцию (SK8) и перемещение объектов (SK9).

Результаты. Средний возраст MS (n=23), R/F (n=24), ES<30 (n=26) и ES>30 (n=30) составил 26 (21-32), 31 (27-39), 49 (31-70) и 47 (34-69) лет соответственно. При выполнении заданий низшего порядка (SK3, SK4, SK5 и SK6) ES>30, ES<30 и R/F показали схожие результаты, которые были все же значительно лучше, чем в группе MS. При выполне­нии сложных заданий (SK7, SK8 и SK9) показатели ES>30 имели тенденцию к превосходству над результатами групп R/F и ES<30, которые были примерно равными, но в свою очередь существенно превосходили данные группы MS. Параметры качества выполнения SK8 в группе ES>30 были заметно выше, чем в группах R/F и ES<30, которые были сопоставимы друг с другом и явно опережали результаты, полученные участниками группы MS.

Заключение. По результатам работы на хирургическом симуляторе LAPMentor в области приобретения навыков, не имеющих отношения к работе с камерой (SK3-9), можно отличить испытуемых из групп ES от тех, которые ранее не работали с лапароскопическими инструментами. Результаты выполнения задания SK8 выявили наивысший уровень конструктной валидности за счет точной дифференциации групп MS, R/F, ES<30 и ES>30.


Сокращения

ES — опытные лапароскопические хирурги

MS — студенты-медики

R/F — ординаторы и стипендиаты

SK — учебные задания по формированию базовых навыков

Лапароскопия представляет неотъемле­мый компонент современной повсед­невной урологической практики. Это на­правление быстро развивается в крупных медицинских центрах, однако медленно внедряется в общую практику урологии, поскольку в большинстве случаев пред­полагает весьма крутую кривую обучения. Сниженное восприятие глубины, двухмер­ное изображение, ослабленные тактиль­ные ориентиры и ощущение конечного усилия, сообщаемого инструменту при ра­боте в контринтуитивной среде, крайне за­трудняют процесс обучения. Но по этим же причинам в отличие от открытой хирурги­ческой операции условия лапароскопиче­ского вмешательства можно воспроизвести компьютерными средствами виртуального отображения (виртуальной реальности). Необходимость постоянного обновления этих непростых лапароскопических на­выков сделали базовую лапароскопию до­ступной для симуляционного обучения [1]. Таким образом, хирургические симуляторы помогут хирургам-новичкам приоб­рести навыки управления лапароскопическими инструментами, компенсации угла расположения камеры и фалькрум-эффекта инструментов, а также отработать манипуляции обеими руками [2].

Перед началом работы на хирурги­ческом симуляторе его следует тщатель­но и объективно проверить на предмет научной надежности и валидности [3]. Из 5 признанных типов валидности [со­держательная, внешняя, конструктная, конкурентная и предсказательная (про­гностическая)] мы остановились на 3 основных видах валидности: содержа­тельной, внешней, конструктной. Одной из наиболее важных считается конструктная валидность, поскольку она подтверж­дает способность симулятора по резуль­татам анализа качества работы отличить опытного хирурга от неопытного. Со­держательная валидность характеризует применимость симулятора как средства обучения и оценивается по данным офи­циального заключения специалистов, ко­торые хорошо в нем разбираются. Этот параметр позволяет определить реальную способность симулятора выполнять за­явленные задачи обучения. Как правило, внешняя валидность произвольно оцени­вается неспециалистами и используется для оценки, насколько создаваемые симулятором условия близки к реальным, т.е. на каком уровне симулятор воспроизводит то, что он должен воспроизводить [3].

Цель настоящего исследования — пред­ставление начальной оценки конструктной, содержательной и внешней валидности хирургического симулятора LAPMentor (Simbionix) при его использовании для фор­мирования базовых навыков лапароскопи­ческой работы. Только после определения всех этих видов валидности целесообразно продолжать анализ с оценкой конкурент­ной (степень соответствия симулятора «золотому стандарту» технической подго­товки) и прогностической (подтверждение возможности прогнозировать будущий уро­вень навыков стажера при переходе к реаль­ной работе в операционной по показателям качества хирургической деятельности на симуляторе) валидности.

Материал и методы

После получения одобрения от Эксперт­ного совета Калифорнийского университета (Ирвин) студенты-медики (MS), ординато­ры, стипендиаты в области общей хирургии и акушерства и гинекологии (R/F) и опыт­ные лапароскопические хирурги (ES) были приглашены для участия в исследовании, проведенном с августа 2004 по январь 2005 г. Группу ES составили практикующие уро­логи, общие хирурги и гинекологи, прово­дящие лапароскопические вмешательства. Эта группа была разделена на 2 подгруппы: хирурги, проводящие <30 лапароскопиче­ских вмешательств в год (ES<30), и хирурги, ежегодно проводящие >30 лапароскопиче­ских операций (ES>30). В большинстве слу­чаев врачи группы ES>30 приняли участие в исследовании добровольно, во время 13-го Международного конгресса и Ежегодной конференции «EndoExpo» Общества лапароэндоскопических хирургов в Нью-Йорке (штат Нью-Йорк).

Система LAPMentor представляет компьютерный симулятор со средствами виртуального отображения, предназна­ченный для формирования основополага­ющих навыков лапароскопической работы. В его состав входят 2 симуляторных ра­бочих инструмента и камера. Движения инструмента и камеры передавали в вир­туальную рабочую среду, включая тактиль­ный регулятор, и отображали на 17-дюй­мовом плоском жидкокристаллическом мониторе. Задания по формированию базовых навыков (SK) включали работу с 0° камерой (SK1), работу с 30° камерой (SK2), зрительно-моторную координацию (SK3), клипирование кровоточащих участ­ков (SK4), захват и клипирование источ­ников кровотечения (SK5), работу обеими руками (SK6), рассечение (SK7), коагуля­цию (SK8) и перемещение объектов (SK9) (табл. 1).


Каждое базовое SK было разделено на компоненты, которые варьировали соот­ветственно характеру задания. Оценивали общее время выполнения каждого упраж­нения. Показатель точности в процентном выражении был определен как число «по­раженных» красных шариков, общее число снимков (SK1) и (SK2) или оба показателя, число корректных контактов с шариками, общее число «выбранных» шариков (SK3) или оба показателя, число правильно на­ложенных скобок, общее число наложен­ных скобок (SK4) или оба показателя, число случаев рассечения без посторонних повреждений, общее число рассечений (SK7) или оба показателя, а также количе­ство коагулированных выделенных струк­тур, их общее число (SK8) или оба показа­теля. Результаты по каждому базовому SK автоматически регистрировали в соответ­ствии с заложенным в системе алгоритмом и сохраняли в виде электронных таблиц в защищенном паролем каталоге. Общие результаты анализа качества деятельности системы LAPMentor представляли по всем 9 заданиям.

Шкалы SK и их компонентов сравни­вали между 3 группами участников. Затем заданные изготовителем показатели каче­ства выполнения заданий, включающие данные о скорости и точности работы, сравнивали между собой с определени­ем коэффициента корреляции каждого компонента с остальными. После пер­сонального практического инструктажа по каждому задания, который включал определение ожидаемых показателей, ре­гистрируемых переменных и штрафов за ошибки и проводился опытным специа­листом, участникам предоставлялась воз­можность выполнить одну попытку, после которой регистрировалось качество их деятельности. Участники выполняли зада­ния на симуляторе LAPMentor, последова­тельно переходя от задания 1 к заданию 9. Непосредственно по окончании работы на симуляторе проводили опрос каждого участника исследования (демографические данные, опыт хирургической работы и впечатления от работы на симуляторе). В анализ включали данные опроса ES, ка­сающиеся содержательной валидности, и MS, касающиеся внешней валидности.

Анализ данных включал в себя описа­тельную статистику, подсчет коэффициен­тов корреляции и сравнительный анализ средних показателей качества работы меж­ду 3 группами. Статистическую значимость различий определяли с помощью однофакторного дисперсионного анализа (ANOVA) или г-теста для независимых выборок. Зна­чимые результаты ANOVA обрабатывали методом парных сравнений с применением теста Стьюдента-Ньюмана-Кейлса (для гомогенных дисперсий) или теста Геймса-Хоуэлла (для гетерогенных групповых дисперсий). В качестве критерия стати­стической значимости был установлен номинальный α-уровень <0,05, не сдела­но никакой поправки для контроля ошиб­ки первого рода в случае множественных сравнений. Все расчеты проводили с по­мощью пакета статистических программ SPSS, версия 12.0 (SPSS Inc).

Результаты

Всего в исследовании участвовали 103 человека: 23 — MS, 24 — R/F, 26 — ES<30 и 30 — ES>30. Средний возраст участ­ников по группам: MS — 26 лет (21-32), R/F — 31 год (27-39), ES<30-49 лет (31-70) и ES>30-47 лет (34-69). Возраст участников обеих групп ES был пример­но одинаковым, но существенно выше, чем у лиц группы R/F, участники которой были, в свою очередь, заметно старше лиц группы MS. В группе MS было 25% жен­щин, в группе R/F — 21% и в группе ES — 4%. К моменту исследования все участники из группы R/F принимали участие в <30 лапароскопических вмешательств в качестве ассистентов, за исключением 1 старшего ординатора-общего хирурга и 1 стипендиата-уролога, которые при­нимали участие в >50 вмешательствах. Ни один из участников группы MS на мо­мент начала исследования не имел опыта лапароскопической работы.

Существенных различий показателей качества работы с камерами (SK1 и SK2) между участниками 4 групп не обнаружено (табл. 2, 3). В группах ES>30, ES<30 и R/F результаты при выполнении заданий SK3, SK4, SK5 и SK6 также были примерно одинаковыми, но они были существенно выше, чем у лиц группы MS. Результаты выполнения заданий SK7 (рассечение) и SK9 (перемещение объектов) в группах ES>30 и R/F были схожими, но при этом значительно превышали данные (p<0,01 для SK7, p<0,001 для SK9), выявленные у участников групп ES<30 и MS, которые, в свою очередь, немногим отличались между собой. Примечательно, что качество выполнения задания SK8 (коагуляция) в группах ES<30 и R/F было примерно одинаковым, но в целом существенно ме­нее высоким, чем в группе ES>30 (p<0,01), данные которой, в свою очередь, оказались заметно выше по сравнению с группой MS (p<0,001). При анализе общих и совокуп­ных данных было выявлено, что участни­ки групп ES>30 и R/F получили примерно одинаковые результаты (p=0,95), которые были значительно выше результатов, по­лученных участниками группы ES<30 (p=0,0001). Аналогично этому совокупные данные группы ES<30 были существенно лучше, чем в группе MS (p=0,0001).


Данные, касающиеся выполнения за­дания SK8 (коагуляция), были проанали­зированы повторно. Среднее и медиана качества выполнения для группы ES>30 составили 86 и 93 соответственно (рис. 1). В группе R/F было несколько случаев пре­вышения средних показателей SK8 группы ES>30, а в группе ES<30 их не было совсем. Аналогично этому в группе MS было мало случаев превышения показателей SK8 групп R/F и ES<30, а в сравнении с груп­пой ES>30 их не было совсем. Все средние показатели в группах MS, R/F и ES<30 были ниже самого низкого показателя группы ES>30.


Было отмечено, что одна из стипендиа­тов группы R/F прежде имела значитель­ный опыт лапароскопической работы в об­ласти общей хирургии в Южной Америке до начала специализации в данной области. В связи с этим ее результаты были перене­сены из группы R/F в более подходящую для нее группу ES<30, а данные выполне­ния задания SK8 подвергнуты повторному анализу. Таким образом средний показа­тель качества выполнения SK8 в группе ES>30 (86±14) оказался выше, чем в груп­пе ES<30 (79±15), правда, это различие было статистически незначимым. В этих группах индексы выполнения задания SK8 были значимо выше (p<0,0005) по срав­нению с группой R/F после проведенных изменений (52±17) и в группе MS (43±16). Хотя в пересмотренной группе R/F пока­затели SK8 были выше, чем в группе MS, различия были незначимы. Представляет интерес и тот факт, что 2 наивысших пока­зателя выполнения SK8 в группе R/F при сравнении с группой ES>30 существенно не различались (91±2,5 и 86±14 соответ­ственно). У одного участника из группы R/F был внушительный опыт лапароско­пической работы, а 2 других целенаправ­ленно специализировались в данной обла­сти. Показатель качества выполнения SK8 этих участников группы R/F (91±2,5) был значительно выше, чем у всей группы R/F при анализе без 4 самых высоких результа­тов (52±17; p<0,0005). Показатели качества деятельности также анализировали в виде процентных квартилей: 76% — 100%, 51% — 75%, 26% — 50% и 0% — 25% (рис. 2).

Показатели SK8 85% участников груп­пы ES>30 находились в квартиле 76-100, а 15% — в квартиле 51-75%. Ни у одного участника группы ES>30 показатель SK8 не превышал 50%. В группе ES<30 25% участ­ников были классифицированы в квартиль 76-100, 70% — в квартиль 51-75 и 26% — в квартиль 50 (по 35% в каждую квартильную группу), а 5% — в квартиль 0-25%. В группе R/F 27,5% участников были от­несены в квартиль 76-100, 27,5% — в квар­тиль 51-75, 45% — в квартиль 26-50 и ни одного в квартиль 0-25%. В группе MS 77% участников были отнесены в квартиль 26-50, 14% — в квартиль 51-75 и по 4,5% — в квартили 76-100 и 0-25%.

Показатели качества выполнения за­даний по каждой группе представлены в табл. 2. Участники группы MS были наи­менее точны при выполнении заданий SK3, SK5, SK6 и SK9. Важно отметить, что лица из группы MS не превзошли участни­ков группы R/F ни по одному заданию.

Участники групп MS и R/F оцени­вали внешнюю валидность (реалистич­ность воспроизведения ситуации) системы LAPMentor. Из них 94% оценили симулятор как среднюю систему по простоте использования и выполнения различных практических заданий. 89% участников сочли, что симулятор LAPMentor в практи­ческом плане реалистично воспроизводит рабочую ситуацию (табл. 4).


Участников группы ES>30 попросили оценить содержательную валидность симулятора LAPMentor (табл. 5). Большинство из них (91%) сочло систему LAPMentor по­лезным учебным средством, а 87% ответили, что симулятор так же хорош или даже лучше обычного тазового тренажера для обучения навыкам лапароскопической ра­боты. 91% участников группы ES>30 наме­рены рекомендовать систему LAPMentor для применения в рамках программы ла­пароскопической подготовки (см. табл. 5), а 74% считают, что она предоставляет хоро­шие условия для подготовки ординаторов перед началом реальной лапароскопиче­ской работы в операционной. 35% опро­шенных из группы ES>30 назвали симулятор LAPMentor адекватным средством сертификации, однако 39% не были уве­рены, что его можно использовать в этом качестве (см. табл. 5).

Обсуждение

Результаты заданий по работе с каме­рами (SK1 и SK2) хирургического симулятора LAPMentor не различаются в группах стажеров, как это ожидалось для заданий представляющих основные (фундамен­тальные) способности. По результатам заданий более высокого уровня, но од­новременно менее сложных, таких как зрительно-моторная координация (SK3), клипирование источников кровотечения (SK4), захват и клипирование кровоточа­щих участков (SK5), а также манипуля­ции обеими руками (SK6) предоставляли информацию, с помощью которой можно было различить хирургов, не имеющих и имеющих опыт лапароскопической ра­боты. Однако эти задания не позволяли дифференцировать хирургов в зависимо­сти от их прежнего опыта лапароскопиче­ских вмешательств.

Задания более высокого уровня и уме­ренной сложности, включая рассечение (SK7) и перемещение объектов (SK9), также предоставляли информацию, с по­мощью которой можно было различить хирургов, не имеющих и имеющих опыт лапароскопической работы. Интересно, что при выполнении этих заданий пока­затели качества работы в группах ES>30 и R/F были примерно одинаковыми, рав­но как в группах ES30 и R/F были заметно выше, чем в группах ESЗадание, связанное с коагуляцией (SK8), требует квалификации очень высо­кого уровня. Оно предполагает одновре­менную работу с инструментами обеими руками, сходную с диссекцией, и пользо­вание ножным приводом коагулирующего инструмента. Кроме того, правая педаль используется в сочетании с инструментом правой руки, а левая — с инструментом, управляемым левой рукой. С учетом этих особенностей данная задача, будучи более сложной, может быть и более ценной при выявлении хирургического опыта работы.

Действительно, показатели выполне­ния этого задания в группе ES>30 были значительно лучше по сравнению с други­ми группами. Примечательно, что резуль­таты выполнения SK8 участниками групп ES30, но самый низкий резуль­тат SK8 в группе ES>30 не был ниже сред­него показателя группы R/F. Следует отме­тить, что максимальный результат в группе ES30, а показатели группы ES30. Таким образом, несколько участников групп MS и R/F очень хорошо справились с этим заданием высокого уровня, но ни один из их результатов не был лучше среднего показателя в группе ES>30. Эти данные подтверждают вывод о конструктной валидности SK8 системы LAPMentor.

Любопытно, что хирурги, обладающие некоторым опытом лапароскопической работы (R/F, ES30) демонстриро­вали схожие результаты при работе с каме­рой по сравнению с испытуемыми группы MS. Это может быть следствием того, что ES редко используют камеры, а R/F поль­зуются ими чаще. Навыки работы с каме­рами по сути отражают основополагающие способности, поэтому трудно ожидать яр­ких различий по этому показателю между новичками и ES. Таким образом, опыт в области выполнения этих манипуляций отражался на результатах деятельности, подтверждая гипотезу о том, что навы­ки работы с камерой имеют низкую конструктную валидность, если тестируются на симуляторе LAPMentor. R/F устойчиво работали лучше, чем MS, и их результаты были аналогичны результатам ES. Лицам группы MS требовалось больше времени на выполнение большинства базовых SK по сравнению с другими группами.

Ограничение настоящего исследова­ния, которое может стать причиной для критики достоверности результатов, со­стоит в том, что участникам предостав­лялась только одна практическая попыт­ка для выполнения заданий. По данным Gallagher и соавт. [4] в небольших груп­пах (6 опытных хирургов и 6 хирургов, не имеющих опыта в области лапароскопии) показатели качества деятельности отдель­ных лиц и группы в целом существенно улучшаются при проведении нескольких (до 3) зачетных попыток. Другие исследователи утверждают, что люди с более бога­тым опытом виртуальных игр лучше дей­ствуют (работают) в условиях виртуальной реальности и при использовании модель­ных лапароскопических симуляторов по сравнению с теми, кто регулярно не игра­ет в подобные игры [5]. Это также может приводить к систематической ошибке, по­скольку в исследовании участвовали опыт­ные хирурги старшего возраста (медиана возраста — 45 лет по сравнению с 26 годами в группе MS и 32 — R/F). У участников этих 2 групп, естественно, опыт видеоигр боль­ше, так как они моложе, что теоретически может способствовать их успехам при ра­боте на симуляторе.

Система LAPMentor обеспечивала реалистичный формат воспроизведения и была названа участниками относительно простой в работе, т.е. данный симулятор обладает внешней валидностью. Наличие содержательной валидности симулятора LAPMentor также получило подтвержде­ние. В большинстве случаев участники группы ES>30 сочли симулятор ценным средством обучения и подготовки и реко­мендовали включить его в программу под­готовки по лапароскопии. Наиболее инте­ресным следует признать тот факт, что на данный момент отсутствуют данные, под­тверждающие наличие прогностической и конкурентной валидности у симулятора LAPMentor, однако треть ES назвали его адекватным инструментом сертификации. Правда, это может отражать недостаточ­ное понимание важности оценки научной валидности хирургических симуляторов. При другом подходе, по аналогии с под­готовкой пилотов, оценка симуляторов может быть настолько интуитивной, что некоторые хирурги признают ее необходи­мость в направлении привилегий и серти­фикации.

Компьютерные средства воспроизведе­ния быстро развиваются и могут стать по­лезными инструментами хирургической подготовки и аттестации хирургов. Досто­верных подтверждений их превосходства над тазовыми тренажерами пока нет, но компьютерные лапароскопические симуляторы способствуют объективной оценке хи­рургических навыков, относительно свобод­ны от преднамеренных или систематических ошибок, позволяют снизить внутри- и меж­личностные различия между испытуемы­ми, к тому же они более надежны [2, 6, 7]. Показатели индивидуальной деятельности регистрируются автоматически, исключая затратное по времени и средствам участие человека, а также противоречивые оценки, связанные с его необъективностью или не­внимательностью. Эти средства могут стать ценными инструментами контроля процес­са обучения с оценкой результатов по ходу работы. Несомненно, объективный анализ точности и эффективности формирования навыков является уникальной характеристи­кой компьютерных систем. Однако хирур­гические симуляторы в том виде, в котором они существуют, менее гибкие по сравнению с тазовыми тренажерами в отношении вве­дения новых задач и дороги при эксплуата­ции в рамках учебных программ [7].

При должном внимании к развитию данного направления медицинской про­мышленности гибкость симуляторных систем, несомненно, будет повышаться, а дополнительные программные средства и модули со временем сделают их приме­нение междисциплинарным. Следует при­знать, что поначалу вопросы стоимости бу­дут препятствовать этому развитию, однако сильным аргументом в пользу применения симуляторов в специализированных учеб­ных центрах станет перспектива повыше­ния качества хирургической подготовки.

Согласно данным, приводимым Seymour с соавт. [1], ординаторы, отобранные для мини-инвазивной хирургической подго­товки с использованием средств виртуаль­ного отображения (MIST-VR), выполняют диссекцию желчного пузыря на 29% бы­стрее и в 6 раз реже допускают ошибки по сравнению с не проходившими подготовку на симуляторах. Кроме того, симуляторы устраняют внутри- и межиндивидуальные различия между испытуемыми, что может оправдывать высокую стоимость компью­терных симуляторов. Среди их других до­стоинств можно назвать снижение затрат рабочего времени преподавателей. По за­вершении базовой подготовки по встро­енной в систему программе стажер может получать инструкции и работать на симуляторе один.

Ряд других компьютерных лапароско­пических симуляторов с набором заданий, анатомическим воспроизведением и на­личием (или отсутствием) тактильного ре­гулятора обладают высокой конструктной валидностью. Среди них можно назвать MIST-VR (Mentice AB) [8-10], LapSim (Immersion Medical) [11], MISTELS (SAGES FLS program) [12] и Xitact LS500 (Xitact SA) [13]. Следует признать, что современные валидные хирургические симуляторы работают только в области формирования базовых лапароскопиче­ских навыков. Симуляторы, предназна­ченные для приобретения навыков более высокого уровня и отдельных лапароско­пических вмешательств, пока не имеют полной валидации. Важно также сравнить симуляторы между собой, используя один и тот же процесс валидации. Такие иссле­дования в настоящее время проводятся при содействии Комитета хирургической подготовки Общества лапароэндоскопических хирургов.

Несмотря на то что конструктная валидность является важной характеристи­кой и ее следует оценить до того, как симулятор будет использоваться в качестве инструмента анализа, пока что исследо­вание данного средства обучения только начинается. Планируется провести более продолжительные исследования 2 других очень важных типов валидности: прогно­стической и конкурентной. Только после определения этих характеристик может быть одобрено применение симулятора в качестве инструмента обучения и ана­лиза. В настоящее время идут испытания, направленные на оценку прогностической валидности системы LAPMentor. Обуче­ние и оценка уровня технических навы­ков в хирургии представляют наименее систематизированные и стандартизован­ные компоненты классического хирурги­ческого обучения. Недавние ограничения продолжительности рабочего дня орди­наторов, рост стоимости операционного времени, внимание общества к медицин­ским ошибкам и вопросы этики обучения хирургическим навыкам в операционной стимулируют разработку учебных про­грамм приобретения основополагающих лапароскопических навыков при отсут­ствии риска. Внедрение хирургических стимуляторов в учебные программы, по-видимому, будет предоставлять возмож­ность обучения при отсутствии риска для максимального увеличения опыта и сни­жения продолжительности обучения слож­ным хирургическим методикам, а также способствовать снижению частоты ослож­нений. Имеются данные, свидетельствую­щие о том, что приобретенные навыки лапароскопической работы на симуляторе способствуют повышению безопасности пациента и минимизации продолжитель­ности вмешательства [1].

Обучение на неодушевленных объектах способствует формированию реальных на­выков лапароскопической работы, однако их объективная количественная оценка затруднена и требует контроля и анализа со стороны человека [2]. Компьютерные симуляторы позволяют объективно оце­нивать уровень формируемого навыка на основе качества деятельности, эффектив­ности движения инструментов, учета оши­бок, а не только по времени, затраченному на выполнение задания. Этот компьютер­ный формат функционирования позво­ляет также контролировать и сравнивать качество индивидуальной работы в ди­намике, что отражает кривую обучения, свойственную определенному навыку или вмешательству, а также обеспечивает воз­можность сравнения результатов работы отдельных лиц с данными квалифициро­ванных коллег и специалистов. При под­тверждении прогностической валидности можно сформулировать критерии уровня квалификации по отдельным навыкам и вмешательствам, а при соответствующих условиях это позволит хирургам перехо­дить к реальной работе в операционной по достижению установленного уровня под­готовки. Пребывание в операционной для ординаторов будет скорее привилегией, заслуженной в процессе обучения. К тому же симуляторы, подобные LAPMentor, регистрируют не только то, что делается, они обладают встроенными программны­ми средствами, которые извещают хирурга о совершенной ошибке, позволяя ему бы­стро исправить ее и продолжить коррект­ную и безопасную работу по выполнению задания, процедуры или того и другого.

В заключение следует отметить, что хи­рургический симулятор LAPMentor облада­ет приемлемой содержательной и внешней, а также подтвержденной конструктной валидностью. А точнее, SK8 — электрохирур­гическая коагуляция, выполняемая обеими руками с применением ножного переклю­чателя — была единственной манипуляци­ей, по результатам выполнения которой можно было четко различить лиц групп MS, R/F, ES30. Чтобы определить, обладает ли данный лапароскопический симулятор прогностической и конкурентной валидностью, требуются дополнительные испытания, прежде чем прибор можно будет рекомендовать для включения в состав курса обучения как валидное и надежное средство подготовки и оценки качества деятельности.


Вклад авторов

Идея и дизайн: McDougall, Boker, Clayman.

Сбор данных: McDougall, Corica, Sala, Stoliar, Borin, Chu.

Анализ и трактовка результатов: McDougall, Corica, Boker, Clayman.

Подготовка рукописи: McDougall, Corica, Boker, Clayman.

Критический анализ: Boker, Clayman.

Статистическая экспертиза: Boker.

Источники финансирования: McDougall, Clayman.

Общий контроль: McDougall, Clayman.


Литература/References

1. Seymour N.E., Gallagher A.G., Roman SA., et al. Virtual reality training improves operating room performance. Results of a randomized, double-blind study. Ann Surg. 2002; Vol. 236: 458-64.

2. Madan A.K., Frantzides C.T., Shervin N., Tebbit C.L. Assessment of individual hand performance in box trainers compared to virtual reality trainers. Ann Surg. 2003; Vol. 69: 1112-4.

3. McDougall E.M. Surgical simulation. AUA Updates (Accepted for publication).

4. Gallagher A.G., Lederman A.B., McGlade K., et al. Discriminative validity of the Minimally Invasive Surgical Trainer in Virtual Reality (MIST-VR) using criteria levels based on experience. Surg Endosc. 2004; Vol. 18: 660-5.

5. Enochsson L., Isaksson B., Tour R., et al. Visuospatial skills and computer game experience influence the performance of virtual endoscopy. J Gastrointest Surg. 2004; Vol. 8: 876-82.

6. Munz Y., Kumar B.D., Moorthy K., et al. Laparoscopic virtual reality and box trainers: is one superior to the other? Surg Endosc. 2004; Vol. 18: 485-94.

7. Kothari S.N., Kaplan B.J., DeMaria E.J., et al. Training in laparoscopic suturing skills using a new computer-based virtual reality simulator (MIST-VR) provides results comparable to those with an established pelvic trainer system. J Laparoendosc Adv Surg. Tech A. 2002; Vol. 12: 167-73.

8. Taffinder N., Sutton C., Fishwick R.J., et al. Validation of virtual reality to teach and assess psychomotor skills in laparoscopic surgery: results from randomized controlled studies using the MIST-VR laparoscopic simulator. Stud Health Technol Inform. 1998; Vol. 50: 124-30.

9. Gallagher A.G., Richie K., McClure N., McGuigan J. Objective psychomotor skills assessment of experienced, junior, and novice laparoscopists with virtual reality. World J Surg. 2001; Vol. 25: 1478-83.

10. McNatt S.S., Smith C.D. A computer-based laparoscopic skill assessment device differentiates experienced from novice laparoscopic surgeons. Surg Endosc. 2001; Vol. 15: 1085-9.

11. Duffy A.J., Hogle N.J., McCarthy H., et al. Construct validity for the LapSim laparoscopic surgical simulator. Surg Endosc. 2005; Vol. 19: 401-5.

12. Fried G.M., Feldman L.S., Vassiliou M.C., et al. Proving the values of simulation in laparoscopic surgery. Ann Surg. 2004; Vol. 240: 518-28.

13. Schijven M., Jakimowicz J. Construct validity. Expert and novices performing on the Xitact LS500 laparoscopy simulator. Surg Endosc. 2003; Vol. 17: 803-10.

Внешняя валидность | Социальная психология

Под внешней валидностью понимается возможность обобщения результатов исследования, то есть генерализации выводов, полученные на экспериментальной выборке, на всю генеральную совокупность. Социальные психологи стремятся к получению выводов, генерализируемых на очень широкую социальную общность, часто исходя из идеи о наличии универсальных закономерностей глобального характера. Результаты исследований с высокой степенью генерализируемости, соответственно, обладают и высоким уровнем внешней валидности. Внешняя валидность существенно зависит от способа формирования выборки.

Существует три основных типа выборки:

Случайная выборка. Например, результаты исследования группы подростков, сформированной случайным способом, будут справедливы с некоторой степенью вероятности для всех подростков данной национальности. Однако такое исследование может оказаться очень сложным и дорогостоящим, так как выборка должна быть многочисленной и однородной.

Гетерогенная (неоднородная) выборка. В соответствии с целями исследования выделяются различные группы населения, на которых предполагается получить результаты исследования. Затем анализируется случайная выборка с тем, чтобы убедиться, что она содержит достаточное количество представителей каждой группы.

Выборка типичного случая. Например, дается определение среднего молодого белоруса. Для исследования используется выборка, состоящая из индивидов, удовлетворяющих этому определению. В этом случае, если проводится эксперимент со студентами университета, например, на способность к ведению переговоров, то нельзя рассчитывать на то, что полученные выводы будут применимы для глав государств. Тем не менее, в той же социальной психологии основные выводы получены именно на студенческих выборках, что создает основания для их критики.

Внешнюю валидность снижает также несоответствие между явлениями, наблюдаемыми в лаборатории, и явлениями в естественных условиях. Трудно определить, имеет ли место выявленная зависимость только в лаборатории или она наблюдается и вне лаборатории. Внешняя валидность обеспечивается неоднократным проведением эксперимента в гетерогенных условиях.

Можно говорить, как минимум, о четырех основных возможностях ограничений генерализации результатов исследований или внешней валидности:

1) Случится ли то же самое с другими группами людей или со всеми людьми то что получено на экспериментальной выборке?

2) Случится ли то же самое в других местах?

3) Будет ли то же самое в другое время?

4) Будет ли то же самое при других типах измерений?

Первый вопрос был связан Брахтом (Bracht) и Глассом (Glass) с популяционной, а второй с экологической валидностью к рассмотрению которых мы и приступим.

Наконец, существует понятие внешней валидности — суммы характеристик

Наконец, существует понятие внешней валидности — суммы характеристик исслед., к-рая позволяет осуществлять обобщение или распространение получаемых в исслед. (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исслед.

Метаанализ. Внешняя валидность результатов исслед. существенно усиливается, когда объединяется и обобщается целый ряд исслед. одной и той же воздействующей переменной. Такая процедура называется метаанализом. В метаанализе определяются величина эффекта, оказываемого эксперим. воздействием и основными условиями исслед. на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, к-рый позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исслед. определяется простым делением разности между средними показателями по критериальной переменной в эксперим. группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исслед., не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.

Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.

См. также Контрольные группы, Экспериментальные методы, Проверка гипотезы, Измерение, Статистика в психологии

Дж. Эшер

Онлайн-тесты на oltest.ru: Экспериментальная психология

Онлайн-тестыТестыФилософия и психологияЭкспериментальная психологиявопросы76-90

76. Внешние переменные в эксперименте могут быть:
побочными и дополнительными

77. Внешние переменные, порождаемые систематическим смешением факторов времени, задачи, индивидуальных особенностей испытуемых, ведущие к появлению неожиданных данных, называются:
побочными

78. Внешним отличительным моментом психологического эксперимента с участием людей от других видов естественнонаучного исследования является наличие
инструкции

79. Внешняя валидность — это мера …
соответствия экспериментальной процедуры реальности

80. Внешняя переменная, которая существенна для изучаемой связи между причиной и следствием, называется:
дополнительной

81. Внутренний психологический склад человека другими словами называется:
эндопсихикой

82. Внутренняя валидность — это мера …
влияния независимой переменной на зависимую переменную по отношению к другим факторам

83. Возможность и право изменять масштаб шкалы, умножая каждое из ее значений на константу, и производить ее сдвиг относительно произвольно выбранной точки на любое расстояние вправо или влево (прибавлять или отнимать константу) имеется только в шкалах
интервалов и равных отношений

84. Возможность переноса экспериментальных результатов на реальную ситуацию, обобщение их для других объектов реальности, составляет суть __________________ валидности.
внешней

85. Возможность эксперимента (теста) по измерению какой-либо психической переменной является валидностью
содержательной

86. Воспроизводящее исследование в психологии проводится с целью
точного повторения исследования предшественников для подтверждения полученных результатов

87. Впервые, основываясь на бихевиористской традиции, теоретическое обоснование психологического эксперимента дал:
В. Вундт

88. Время реакции в основном можно измерить только экспериментом
лабораторным

89. Все методы, применяемые для получения эмпирического материала, можно условно разделить на:
активные и пассивные

90. Все функции, которые имеют максимум, называются:
изотонными



Общие сведения о внутренней и внешней действительности

Внутренняя и внешняя валидность — это концепции, которые отражают достоверность и значимость результатов исследования. В то время как внутренняя валидность связана с тем, насколько хорошо проведено исследование (его структура), внешняя валидность связана с тем, насколько результаты применимы к реальному миру.

Что такое внутренняя действительность?

Внутренняя валидность — это степень, в которой исследование устанавливает заслуживающую доверия причинно-следственную связь между лечением и результатом.Внутренняя валидность также отражает то, что данное исследование позволяет исключить альтернативные объяснения вывода.

Например, если вы реализуете программу отказа от курения с группой лиц, насколько вы можете быть уверены, что любое улучшение, наблюдаемое в экспериментальной группе, связано с лечением, которое вы провели?

Внутренняя валидность во многом зависит от процедур исследования и от того, насколько строго оно проводится.

Внутренняя валидность — это не концепция типа «да или нет».Вместо этого мы рассматриваем, насколько мы можем быть уверены в результатах исследования, основываясь на том, позволяет ли оно избежать ловушек, которые могут сделать результаты сомнительными.

Чем меньше шансов на «смешение» в исследовании, тем выше внутренняя валидность и тем больше мы можем быть уверены в результатах. Под сомнением понимается ситуация, в которой в игру вступают другие факторы, которые искажают результат исследования. Например, исследование может сделать нас неуверенными в том, можем ли мы доверять тому, что мы определили вышеупомянутый «причинно-следственный» сценарий.

Короче говоря, вы можете быть уверены, что ваше исследование внутренне достоверно, только если вы можете исключить альтернативные объяснения своих выводов. Вкратце, вы можете предположить причинно-следственную связь, только если вы соответствуете следующим трем критериям в своем исследовании:

  • Причина предшествовала следствию во времени.
  • Причина и следствие различаются.
  • Других возможных объяснений наблюдаемой вами взаимосвязи нет.

Факторы, улучшающие внутреннюю валидность

Если вы хотите повысить внутреннюю валидность исследования, вы захотите рассмотреть те аспекты дизайна вашего исследования, которые повысят вероятность того, что вы сможете отклонить альтернативные гипотезы.Есть много факторов, которые могут улучшить внутреннюю валидность.

  • Ослепление : участники — а иногда и исследователи — которые не знают, какое вмешательство они получают (например, с помощью плацебо в исследовании лекарств), чтобы избежать искажения этих знаний в их восприятии и поведении и, следовательно, на результатах исследования
  • Экспериментальная манипуляция : Манипулирование независимой переменной в исследовании (например, предоставление курильщикам программы отказа от курения) вместо простого наблюдения ассоциации без проведения какого-либо вмешательства (изучение взаимосвязи между упражнениями и курением)
  • Случайный выбор : Выбор участников случайным образом или таким образом, чтобы они были репрезентативными для популяции, которую вы хотите изучить
  • Рандомизация : случайное распределение участников по экспериментальным и контрольным группам и гарантирует отсутствие какой-либо систематической ошибки между группами
  • Протокол исследования : Следуя специальным процедурам для Проведение лечения таким образом, чтобы не вызвать каких-либо последствий, например, от того, что одна группа людей ведет себя иначе, чем другая группа людей

Факторы, угрожающие внутренней валидности

Подобно тому, как существует множество способов убедиться, что исследование является внутренне достоверным, существует также список потенциальных угроз внутренней достоверности, которые следует учитывать при планировании исследования.Взаимодействие с другими людьми

  • Исчезновение : участники выбывают из исследования или покидают его, что означает, что результаты основаны на предвзятой выборке только людей, которые не решили уйти (и, возможно, у всех есть что-то общее, например, более высокая мотивация)
  • Смешение : Ситуация, в которой можно считать, что изменения в переменной результата являются результатом некоторой третьей переменной, связанной с проведенным вами лечением.
  • Распространение : Это относится к лечению в исследовании, которое распространяется от экспериментальной группы к контрольной группе через группы, взаимодействующие и разговаривающие или наблюдающие друг за другом.Это также может привести к другой проблеме, называемой обиженной деморализацией, при которой контрольная группа старается меньше, потому что чувствует обиду на группу, в которой они находятся.
  • Предвзятость экспериментатора : экспериментатор ведет себя по-разному с разными группами в одной группе.
  • Исторические события : может повлиять на результаты исследований, проводимых в течение определенного периода времени, например, смена политического лидера или стихийное бедствие, которое влияет на то, как участники исследования себя чувствуют и действуют.
  • Инструменты : можно «подготовить» участников исследования определенным образом с помощью мер, которые вы используете, что заставляет их реагировать иначе, чем они бы иметь иначе.
  • Созревание : описывает влияние времени как переменной в исследовании. Если исследование проводится в течение периода времени, когда возможно, что участники каким-то образом естественным образом изменились (стали старше, устали), то может быть невозможно исключить, были ли эффекты, наблюдаемые в исследовании, просто следствием эффекта. времени.
  • Статистическая регрессия : естественный эффект участников на крайних концах меры, падающий в определенном направлении только по прошествии времени, а не эффект вмешательства
  • Тестирование : многократное тестирование участников с использованием тех же мер влияет на результаты.Если вы дадите кому-то один и тот же тест три раза, не кажется ли, что он лучше справится с ним по мере изучения теста или привыкнет к процессу тестирования и будет отвечать по-разному?

Что такое внешняя действительность?

Внешняя валидность относится к тому, насколько хорошо можно ожидать, что результаты исследования будут применимы к другим условиям. Другими словами, этот тип достоверности относится к тому, насколько обобщаемы результаты. Например, применимы ли результаты к другим людям, условиям, ситуациям и временным периодам?

Экологическая валидность, аспект внешней валидности, относится к тому, можно ли обобщить результаты исследования на реальный мир.

В то время как строгие методы исследования могут гарантировать внутреннюю валидность, внешняя валидность, с другой стороны, может быть ограничена этими методами.

Другой термин, называемый переносимостью, относится к внешней валидности и относится к качественному дизайну исследования. Переносимость относится к тому, переносятся ли результаты в ситуации с аналогичными характеристиками.

Факторы, улучшающие внешнюю валидность

Что вы можете сделать, чтобы повысить внешнюю валидность вашего исследования?

  • Учитывайте психологический реализм. : Убедитесь, что участники воспринимают события исследования как реальные события, рассказав им «легенду» о цели исследования.В противном случае в некоторых случаях участники могут вести себя иначе, чем в реальной жизни, если они знают, чего ожидать, или знают, какова цель исследования.
  • Выполните повторную обработку или калибровку. : Используйте статистические методы для устранения проблем, связанных с внешней достоверностью. Например, если в исследовании были неравные группы по какой-либо характеристике (например, возрасту), можно было бы использовать повторное взвешивание.
  • Реплика : повторите исследование с другими образцами или с другими настройками, чтобы увидеть, получите ли вы те же результаты.Когда было проведено много исследований, можно также использовать метаанализ , чтобы определить, является ли эффект независимой переменной надежным (на основе изучения результатов большого количества исследований по одной теме).
  • Попробуйте полевые эксперименты : Проведите исследование вне лаборатории в естественной обстановке.
  • Используйте критерии включения и исключения : Это гарантирует, что вы четко определили популяцию, которую изучаете в своем исследовании.

Факторы, угрожающие внешней действительности

Внешняя валидность находится под угрозой, когда исследование не принимает во внимание взаимодействия переменных в реальном мире.

  • Эффекты до и после тестирования : Когда предварительное или послетестовое тестирование каким-либо образом связано с эффектом, наблюдаемым в исследовании, так что причинно-следственная связь исчезает без этих дополнительных тестов
  • Характеристики выборки : Когда какая-то особенность конкретной выборки была ответственна за эффект (или частично ответственна), что привело к ограниченной обобщаемости результатов
  • Ошибка отбора : Считается угрозой внутренней валидности, систематическая ошибка выбора описывает различия между группами в исследование, которое может относиться к независимой переменной (опять же, что-то вроде мотивации или желания принять участие в исследовании, конкретные демографические данные людей с большей вероятностью примут участие в онлайн-опросе).
  • Ситуационные факторы : Время дня, местоположение, шум, характеристики исследователя и количество используемых мер могут повлиять на обобщаемость результатов.

Внутренняя и внешняя валидность

Внутренняя и внешняя значимость — две стороны одной медали. Вы можете провести исследование с хорошей внутренней достоверностью, но в целом оно может не иметь отношения к реальному миру. С другой стороны, вы можете провести полевое исследование, которое очень актуально для реального мира, но не даст достоверных результатов с точки зрения знания того, какие переменные привели к результатам, которые вы видите.

Сходства

В чем сходство между внутренней и внешней валидностью? Оба эти фактора следует учитывать при разработке исследования, и оба имеют значение с точки зрения того, имеют ли результаты исследования значение. Оба они не являются концепциями «либо / или», и поэтому вы всегда будете решать, в какой степени ваше исследование работает с точки зрения обоих типов достоверности.

Каждая из этих концепций обычно описывается в исследовательской статье, которая публикуется в научном журнале.Это сделано для того, чтобы другие исследователи могли оценить исследование и принять решение о том, являются ли результаты полезными и достоверными.

Отличия

Существенное различие между внутренней и внешней валидностью состоит в том, что внутренняя валидность относится к структуре исследования и его переменным, в то время как внешняя валидность связана с универсальностью результатов. Между ними есть и другие различия.

Внутренняя валидность
  • Выводы гарантированы

  • Управляет посторонними переменными

  • Исключает альтернативные объяснения

  • Ориентация на точность и сильные методы исследования

Внешняя валидность
  • Результаты можно обобщить

  • Результаты применимы к практическим ситуациям

  • Результаты применимы ко всему миру

  • Результаты можно перевести в другой контекст

Внутренняя достоверность фокусируется на демонстрации разницы, обусловленной только независимой переменной, тогда как результаты внешней достоверности могут быть переведены на мир в целом.

Примеры действия

Примером исследования с хорошей внутренней валидностью может быть гипотеза исследователя о том, что использование определенного приложения внимательности снизит негативное настроение. Чтобы проверить эту гипотезу, исследователь случайным образом распределяет выборку участников в одну из двух групп: тех, кто будет использовать приложение в течение определенного периода, и тех, кто занимается контрольной задачей.

Исследователь следит за тем, чтобы не было систематической предвзятости в распределении участников по группам, а также не позволяет своим научным сотрудникам видеть группы, в которых учащиеся находятся во время экспериментов.

Используется строгий протокол исследования, в котором излагаются процедуры исследования. Возможные искажающие переменные измеряются вместе с настроением, например, социально-экономический статус участников, пол, возраст и другие факторы. Если участники выбывают из исследования, их характеристики изучаются, чтобы убедиться в отсутствии систематической ошибки в отношении того, кто остается в исследовании.

Пример исследования с хорошей внешней валидностью может быть в приведенном выше примере, исследователь также удостоверился, что исследование имело внешнюю валидность, заставив участников использовать приложение дома, а не в лаборатории.Исследователь четко определяет интересующую нас совокупность и выбирает репрезентативную выборку, и он / она воспроизводит исследование для различных технологических устройств.

Слово от Verywell

Настройка эксперимента так, чтобы он имел внутреннюю и внешнюю валидность, предполагает с самого начала помнить о факторах, которые могут повлиять на каждый аспект вашего исследования.

Лучше потратить дополнительное время на разработку структурно обоснованного исследования, имеющего далеко идущие последствия, а не торопиться с этапом проектирования только для того, чтобы позже обнаружить проблемы.Только когда и внутренняя, и внешняя валидность высоки, можно сделать убедительные выводы о ваших результатах.

Определение и примеры внешней действительности

Определения статистики> Внешняя достоверность


Определение внешней достоверности

Внешняя достоверность помогает ответить на вопрос: можно ли применить исследование к «реальному миру»? Если ваше исследование применимо к другим экспериментам, условиям, людям и временам, то внешняя валидность высока.Если исследование не может быть воспроизведено в других ситуациях, внешняя валидность низкая. Важно знать, что ваше исследование эффективно (внутренняя валидность) и эффективно в других ситуациях.

Исторически исследователи сосредотачивались на внутренней валидности. Научная строгость рандомизированных контролируемых экспериментов часто считалась более важной, чем обобщение результатов. В последнее время исследователи стремились к исследованиям, которые можно было бы обобщить за пределами лаборатории.Однако это не так просто, как кажется. Внешняя валидность — один из самых сложных для достижения типов валидности. Одна из причин этого заключается в том, что шаги по повышению внешней достоверности часто приводят к снижению внутренней достоверности. Другая причина — множество скрытых и сбивающих с толку переменных, которые могут повлиять на результат вашего эксперимента.


Население и экологическая ценность

Популяционная валидность и экологическая валидность — это типы внешней валидности.

  • Популяционная валидность отвечает на вопрос: насколько хорошо исследование выборки может быть обобщено на популяцию в целом?
  • Экологическая достоверность отвечает на вопрос: можно ли обобщить результаты вашего исследования в различных условиях?

Угрозы внешней действительности

Скрытые переменные и факторы в эксперименте могут испортить ваши результаты, сделав их не поддающимися обобщению.

Угрозы внешней достоверности подрывают вашу уверенность в том, что результаты вашего исследования применимы к другим ситуациям.Они объясняют, как вы могли ошибаться, делая обобщения. Например, ваш вывод может быть неверным, изменения в зависимой переменной могут быть вызваны не изменениями в независимой переменной, а изменение зависимой переменной может быть вызвано другими причинами. Например, посторонние переменные могут конкурировать с независимой переменной, чтобы объяснить результат исследования.

Некоторые конкретные примеры угроз внешней действительности:

  • Ваша выборка выбрана случайным образом? В противном случае это может привести к смещению выборки.
  • Вы включили предварительный тест? В некоторых экспериментах предварительные испытания могут повлиять на результат. Предварительный тест может подсказать испытуемым, как они должны отвечать или вести себя.
  • Сдают ли ваши участники несколько версий одного и того же теста? В таком случае эффект практики может повлиять на ваши результаты. Например, на шкалу интеллекта Векслера для детей сильно влияет эффект практики.
  • Состоит ли ваша выборка из однородной совокупности, как и все люди с низкой успеваемостью или все отличники? В таком случае ваши результаты, вероятно, не будут распространяться на «среднего» человека.
  • Испорчены ли результаты вашего исследования эффектом Хоторна? Участники вашего исследования могут вести себя по-другому, потому что они знают, что участвуют в экспериментальном исследовании.
————————————————— —————————-

Нужна помощь с домашним заданием или контрольным вопросом? С помощью Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области. Ваши первые 30 минут с репетитором Chegg бесплатны!

Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .

9.1 Внутренняя и внешняя действительность

Эта книга находится в Open Review . Мы хотим, чтобы ваши отзывы сделали книгу лучше для вас и других студентов. Вы можете аннотировать некоторый текст, выделив его курсором, а затем щелкнув во всплывающем меню. Вы также можете увидеть аннотации других пользователей: нажмите в правом верхнем углу страницы