Внешняя валидность и виды обобщений за пределами исследовательской ситуации
Сущность понятия «валидность»
Определение 1
Валидность – это комплексная характеристика методики, которая включает сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.
Данное понятие относится к тому, что эта методика измеряет и как хорошо она это делает. Те тесты, которые не обладают валидностью, для практического использования не годятся.
Уровень валидности – это её коэффициент.
На валидность теста оказывают влияние систематические факторы, привносящие в результаты искажения. К ним относятся другие психические свойства, мешающие в результатах теста проявиться тому свойству, на которое направлен тест.
Например, необходимо измерить потенциал обученности, но время исполнения строго ограничено, и допущенную ошибку исправить невозможно. Таким образом, искомое психическое свойство смешается с другим – «стрессоустойчивостью». Те, у кого стрессоустойчивость высокая, выполнять тест будут лучше. Здесь проявляется эффект систематического искажения. Отсюда, единого и универсального подхода к определению валидности не существует.
Исходя из того, какая сторона валидности будет рассматриваться, будут использоваться и соответствующие способы доказательства.
Замечание 1
Методика имеет столько валидностей, сколько существует критериев.
В первом понимании валидность относится к самой методике – это валидность измерительного инструмента, а проверка получила название теоретической валидизации. Второе понимание относится уже не столько к методике, сколько к цели её использования – это прагматическая валидизация.
Для использования психодиагностических методик в практических целях, они должны быть проверены по ряду формальных критериев, которые являются главным элементом методик и доказывают их эффективность и высокое качество.
Основными критериями оценок являются надежность и валидность.
Критерий валидности представляет собой источник информации об измеряемом психическом свойстве, он не зависит от теста и по отношению к нему является внешним. Говорить о валидности теста можно только тогда, когда его результаты будут сравнимы с источником истиной информации об измеряемом свойстве, т.е. с критерием.
В качестве критерия валидности на практике часто используется прагматический критерий, представляющий собой очевидный признак, проявляемый испытуемым независимо от исследуемого качества. Например, данные о выполнении разных заданий, контрольных проб и данные, полученные при помощи других методик, валидность которых доказана.
Виды валидности
В употребление понятие «валидность» было введено Д. Кемпбеллом, который им обозначил уверенность экспериментатора в том, что с помощью определенной методики, он измеряет именно то, что хотел измерить.
Рисунок 1. Основные виды валидности. Автор24 — интернет-биржа студенческих работ
Валидность эксперимента может быть внутренней и внешней. Признак хорошего эксперимента – это высокая внутренняя валидность и, если экспериментальный эффект вызван изменением независимой переменной, то внутренняя валидность будет выше.
Внутреннюю валидность эксперимента, по мнению Кемпбелла могут нарушить несколько основных факторов:
- селекция – неэквивалентность, вызывающая систематическую ошибку в результатах;
- статистическая регрессия является частным случаем селекции;
- экспериментальный отсев при котором из группы происходит неравномерное выбывание испытуемых;
- естественное развитие – изменение испытуемых в течение времени.
Теоретическая валидность, определить которую можно по соответствиям показателей исследуемых качеств, получена с помощью созданной методики. Проверить теоретическую валидность можно путем корреляции одного и того же свойства, который измеряется различными методами.
В пределах теоретической валидности выделяют конвергентную, конструктную, эмпирическую, внутреннюю валидность.
Благоприятная ситуация использования конвергентной валидности складывается тогда, когда уже есть в психологии валидная методика, которая проверяет изучаемое качество. Если между показателями этих методик корреляция высокая, то это значит, что для новой методики характерна конвергентная валидность.
Когда для измерения какого-либо свойства тест с известной валидностью не опробирован тогда исследователь выдвигает ряд гипотез – будет ли коррелировать новый тест с другими тестами. В основе выдвигаемых гипотез лежат теоретические представления об измеряемом свойстве. Когда они подтверждаются, то это указывает на валидность выдвигаемого конструкта, т. е. конструктную валидность (предполагаемую).
Что касается эмпирической валидности, то исследователь смотрит, насколько клиент в реальной жизни ведет себя соответственно результатам исследования. Кроме этих видов существует ложная, очевидная валидность, валидность, исходящая из опыта, валидность, основанная на желаниях, валидность всех тестовых методик.
Ложная валидность фиксирует видимость пригодности методики, а очевидная валидность соответствует подлинной только в дидактических тестах и иногда действительно исследует реально существующие факты.
В основе валидности, исходящей из опыта, лежат личные чувства психолога для измерения какого-либо качества испытуемого.
Валидность, основанная на желаниях предполагает желание видеть свою методику валидной, не замечая, при этом, противоречащих этому желанию фактов. Для расчета валидности, как показывает практика, должно быть не меньше 50 человек, но, лучше больше 200.
Внешняя валидность
Замечание 2
Внешняя валидность указывает, на какие популяции, ситуации, независимые переменные, параметры воздействия, переменные измерения можно распространить результаты эксперимента.
Например, можно ли использовать методику обучения плаванию 10-летних детей при обучении студентов.
Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, соответствуют жизненной ситуации.
Кроме того, она характеризует возможность обобщения переноса экспериментальных результатов на все жизненные условия — время, место, условия и группы людей.
Возможность переноса является следствием двух причин:
- когда условия эксперимента соответствуют его «первообразной» ситуации (репрезентативность эксперимента), например, исследование мотивации учащихся, есть репрезентативный эксперимент, потому что все они находятся в ситуации учебной деятельности и мотивированы на учебу;
- типичности ситуации для реальности (репрезентативность ситуации).
В эксперименте ситуация, выбранная для моделирования, может быть с точки зрения жизни совсем нерепрезентативной для испытуемых, может являться нетипичной, редкой.
Внешняя валидность делится на операциональную валидность и конструктную, которая объясняет поведение человека при прохождении им теста.
Кемпбелл говорит о причинах нарушения внешней валидности:
- Реактивный эффект или эффект тестирования – это возможное увеличение или уменьшение восприимчивости испытуемых к экспериментальному воздействию. Результаты тех, кто прошел предварительное тестирование, будут нерепрезентативны относительно тех, кто предварительному тестированию не подвергался;
- Условия, при которых организуется эксперимент, вызывают у испытуемого реакцию, значит, результат эксперимента нельзя переносить на тех, кто участия в эксперименте не принимал;
- Взаимная интерференция – испытуемые имеют память и обладают обучаемостью, и если эксперимент будет состоять из нескольких серий, то, безусловно, первые воздействия бесследно для них не пройдут и скажутся на появлении эффектов от последующих воздействий.
Провести «правильное» исследование с учетом всех условий и требований в реальной практике невозможно. Чаще бывает так, что невозможно подобрать репрезентативные выборки, исключить эффекты селекции, выбывания и возможность переноса результатов на всю популяцию.
Внутренняя валидность | Что это такое
Пользователи также искали:
операциональная валидность, различия внутренней и внешней валидности исследования, угрозы внутренней валидности, валидность эксперимента, валидность и надежность эксперимента, внешняя валидность это, внутренняя и внешняя валидность, валидность, Внутренняя, эксперимента, внутренняя, валидности, внутренней, внешняя, внутренняя и внешняя валидность, внешняя валидность это, операциональная валидность, валидность эксперимента, валидность и надежность эксперимента, угрозы, угрозы внутренней валидности, операциональная, различия, внешней, исследования, надежность, внешняя валидность, Внутренняя валидность, различия внутренней и внешней валидности исследования, внутренняя валидность, экспериментальная психология.
…
Клинические исследования и клиническая практика. Европейский подход к преодолению разрыва эффективность-результативность
В «Еженедельнике АПТЕКА» № 11 (1132) от 19 марта 2018 г. мы рассказали читателям о новых подходах к определению эффективности и безопасности лекарственных средств и таком явлении, как разрыв эффективность-результативность (efficacy-effectiveness gap). В продолжение темы рассмотрим, насколько результаты клинических исследований соответствуют реальной клинической практике и какие подходы к преодолению разрыва эффективность-результативность применяются в странах ЕС.КЛИНИЧЕСКИЕ ИССЛЕДОВАНИЯ
В последнее время регуляторные органы, агентства по оценке технологий здравоохранения, операторы здравоохранения и фармацевтического сектора ЕС обращают внимание на факторы приемлемости данных клинических исследований, а именно — обобщение и обобщаемость, то есть возможность переноса результатов клинических исследований в реальную клиническую практику.
Обобщение в клинических исследованиях — это возможность применения их результатов для популяции пациентов в конкретной клинической ситуации. Степень, в которой результаты того или иного клинического исследования могут быть соотнесены с конкретной популяцией и с конкретной клинической ситуацией, называется обобщаемость.
Иногда для обозначения обобщаемости используется термин «внешняя валидность». Однако это не совсем корректно. Валидность и обобщаемость требуют отдельного рассмотрения. Валидность должна быть гарантирована в первую очередь, но также должна быть возможность обобщения результатов исследования для более широкой популяции.
Валидность — это степень соответствия методик и результатов исследования поставленным задачам. При организации рандомизированных клинических исследований стоит задача доказать биологический (фармакологический) эффект лекарственного средства. Поэтому такие исследования называют объясняющими (explanatory trials). При их проведении не нужно определять эффективность лекарственного средства в реальной клинической практике. Поэтому даже если качественно проведенное рандомизированное контролируемое клиническое исследование валидно, это не означает, что такие же результаты будут получены в клинической практике.
В связи с этим внимание регуляторов, агентств по оценке технологий здравоохранения, спонсоров клинических исследований привлекли исследования в реальной клинической практике (RWE studies) и доказательства, полученные в реальной клинической практике (Real-World Evidence — RWE).
Доказательства, полученные в реальной клинической практике в результате анализа и/или синтеза данных реальной клинической практики (Real-World Data — RWD) — это общий «зонтичный» термин для данных, полученных в результате терапевтического вмешательства (например данные по безопасности, эффективности, использовании ресурсов и т. д.), которые собираются за пределами строго контролируемых рандомизированных клинических исследований. Предполагается, что RWE применимы к самому терапевтическому вмешательству, пациентам, на которых оно направлено в реальной клинической практике, включая относительную эффективность. Относительная эффективность терапевтического вмешательства — это степень, при которой вмешательство приносит больше пользы, чем вреда, по сравнению с одним или несколькими альтернативными терапевтическими вмешательствами.
Хорошо разработанные обсервационные исследования широко используются для генерирования данных RWE. Обсервационные исследования проводят для исследования эффективности нового препарата или метода лечения в повседневной клинической практике без изменения нормального поведения пациента и врача.
Кокрановский обзор 2014 г. приходит к выводу о том, что существует мало свидетельств в пользу значительных отличий между обсервационными исследованиями и рандомизированными контролируемыми клиническими исследованиями в оценках эффективности и безопасности лекарственных средств. Однако более позднее метаэпидемиологическое исследование показало, что можно получить разные ответы на один и тот же клинический вопрос в исследованиях, основанных на регулярно собираемых данных о состоянии здоровья, и последовавших за ними рандомизированных клинических исследованиях. Исследования, основанные на регулярно собираемых данных о состоянии здоровья, могут существенно переоценить лечебные эффекты, несмотря на сложные методы устранения статистических погрешностей.
Поэтому возникла необходимость привнести элемент рандомизации в исследования в реальной клинической практике для получения более валидных данных. Рандомизация в клинических исследованиях — это важный инструмент для гарантии того, что различия между экспериментальной и контрольной группами не повлияют на измерение степени пользы или риска препарата. Рандомизация направлена на устранение различий неизвестных и известных факторов, которые приводят к прогностической несопоставимости результатов между группами пациентов. Так возникла идея о прагматических клинических исследованиях.
Прагматические клинические исследования позволяют объединить преимущества обсервационного исследования в реальной клинической практике с научной строгостью рандомизированного исследования, и тем самым дать более эффективные ответы на вопросы реальной клинической практики. Данные этих исследований особенно актуальны, если уже существуют методы лечения исследуемого заболевания, и когда ситуация в реальной клинической практике, включая посторонние факторы, может повлиять на терапевтический эффект. Идеальное прагматическое клиническое исследование направлено на то, чтобы выявить полный эффект терапии в реальной клинической практике с высокой степенью внешней валидности.
Рандомизированные контролируемые клинические исследования и прагматические клинические исследования представляют собой противоположные стороны одного континуума рандомизированных клинических исследований. В реальной практике исследование может быть ближе к одной или другой стороне континуума и содержать их элементы. И те, и другие исследования — рандомизированные, хотя методы рандомизации отличаются.
Прагматические исследования схожи с обсервационными исследованиями. При обсервационном исследовании, как и при прагматическом, данные собираются путем простого наблюдения событий в реальной клинической практике, без вмешательств в нее. Данные, полученные в результате этих исследований, относятся к данным реальной клинической практики (RWE). Однако обсервационные исследования стоят особняком от прагматических, так как в обсервационных исследованиях нет рандомизации. Поэтому они могут уступать прагматическим исследованиям по уровню достоверности.
ПРЕОДОЛЕНИЕ РАЗРЫВА ЭФФЕКТИВНОСТЬ-РЕЗУЛЬТАТИВНОСТЬ — ЕВРОПЕЙСКИЙ ПОДХОД
Проблемы развития медицинской науки, внедрение новых технологий здравоохранения в реальную медицинскую практику, а также проблемы, связанные с этим (в том числе переносимости и валидности данных рандомизированных клинических исследований в реальной клинической практике) привлекли внимание Европейской Комиссии и фармацевтической промышленности ЕС.
Сейчас происходит смена парадигмы доказательной медицины, которая основывалась исключительно на данных рандомизированных контролируемых клинических исследований как вершины и «золотого стандарта» доказательности.
В 2007 г. Комиссия ЕС предложила проект государственно-частного партнерства между Европейским Союзом, представленным Комиссией ЕС и EFPIA (Европейская федерация ассоциаций фармацевтических производителей — European Federation of Pharmaceutical Industries and Associations), который называется Инициатива инновационных лекарственных средств (Innovative Medicines Initiative Joint Undertaking — IMI). Основная цель этого проекта — существенно улучшить эффективность и результативность процесса разработки лекарственных средств.
Благодаря солидному бюджету IMI (более 2 млрд евро) поддержку получили совместные исследовательские проекты, реализуемые в ЕС. Кроме того, появились эксперты, которые могут форсировать процесс внедрения инноваций в секторе здравоохранения ЕС.
Действуя как нейтральная третья сторона в создании инновационных партнерств, IMI построила совместную экосистему для сотрудничества в области фармацевтических исследований и разработок. Она предоставила социальные и экономические преимущества гражданам ЕС, усилила конкурентоспособность Европы в глобальном масштабе и сделала данный регион одним из самых привлекательных для фармацевтических исследований и разработок.
Исследовательский консорциум, который принимает участие в проектах IMI, состоит из крупных биофармацевтических компаний — членов EFPIA и ряда других партнеров, таких как малые и средние предприятия, пациентские организации, университеты и исследовательские организации, больницы, регуляторные агентства ЕС и др.
Благодаря успеху первой программы IMI Комиссия ЕС и EFPIA предприняли шаги по продолжению этой инициативы в рамках программы исследований и инноваций Горизонт 2020 (Horizon 2020), которая охватывает период с 2014 по 2020 г.
Вторая часть программы — IMI2 — законодательно оформлена Европейским парламентом и государствами — членами ЕС в первой половине 2014 г. IMI2 официально стартовала в июле 2014 г. Бюджет программы составляет 3,276 млрд евро. Половина бюджета поступает от программы ЕС Горизонт-2020, вторая половина — от EFPIA и ее компаний-членов.
В рамках инициативы IMI в октябре 2013 г. стартовал 3-летний проект GetReal — государственно-частный консорциум, в который входят фармацевтические компании, академические учреждения, агентства по оценке технологий здравоохранения, регуляторные органы (например Европейское агентство по лекарственным средствам — ЕМА), пациентские организации, представители малого и среднего бизнеса.
Основная цель проекта GetReal — разработка, рассмотрение и внедрение новых надежных методов сбора и синтеза доказательств реальной клинической практики для их более раннего включения в процесс разработки инновационных лекарственных средств. То есть проект направлен на ускорение процесса внедрения новых лекарств в клиническую практику, принятия решений в сфере здравоохранения, включая возмещение (реимбурсацию) новых препаратов.
Проект требует консенсуса в отношении наилучшей практики использования данных реальной клинической практики для принятия решений в области регулирования и реимбурсации лекарственных средств. Для этого были разработаны и представлены альтернативные стратегии получения доказательств эффективности и безопасности лекарственных средств, включая обоснования их реимбурсации. Эти наработки позволят лицам, принимающим решения по экономически обоснованному внедрению технологий здравоохранения в государствах ЕС, более уверенно и быстро предоставлять пациентам доступ к новым методам лечения в реальной клинической практике. Причем методам, которые адаптированы к системам здравоохранения и существующим медицинскими практикам конкретных государств ЕС.
Проект GetReal состоит из нескольких частей (workpackages), а именно:
- комплекс работ 1 (Workpackage 1), в результате чего была разработана рамочная методология для принятия решений в сфере здравоохранения и фармацевтических исследований и разработаны методические рекомендации, которые позволяют оценить приемлемость и полезность инновации с использованием анализа данных реальной клинической практики;
- комплекс работ 2 (Workpackage 2), в ходе которого были разработаны точные, научно обоснованные инструменты и методические рекомендации для проектирования клинических исследований лекарственных средств в реальной клинической практике;
- комплекс работ 3 (Workpackage 3), который дал понимание операционных проблем при разработке ранних исследований в реальной клинической практике (таких как прагматические исследования), и инструментов для их преодоления.
- комплекс работ 4 (Workpackage 4), в процессе которого были разработаны всеобъемлющие и удобные для пользователей методы синтеза доказательств и техник прогностического моделирования, программное обеспечение и соответствующие учебные материалы для поддержки лучших практик;
- комплекс работ 5 (Workpackage 5) — проектный менеджмент, в рамках которого осуществлялось управление консорциумом GetReal путем предоставления научных и управленческих услуг.
Для разработки дизайна прагматических клинических исследований и оценки протоколов клинических исследований на предмет их прагматичности был разработан инструмент для принятия решений PragMagic.
PragMagic позволяет оценить возможные последствия выбора прагматического дизайна клинического исследования, операционные сложности, связанные с этим, обобщаемость (переносимость) данных в реальную клиническую практику, риски систематических ошибок оценки результатов исследования, точность данных, приемлемость с этической точки зрения и с точки зрения заинтересованных лиц и организаций, влияние на стоимость и длительность исследования.
Для образовательных и практических целей был создан ресурс Real-world evidence Navigator, который помогает пользователям больше узнать о потенциальных проблемах при демонстрации относительной результативности новых лекарственных средств (проблемы разрыва эффективность-результативность) и препаратов с хорошо изученным медицинским применением. Кроме того, ресурс предоставляет специальные типы анализа и дизайна исследований, основанных на данных о применении лекарственных средств в реальной клинической практике, для разработки новых препаратов или при необходимости исследований эффективности хорошо изученных лекарств. Real-world evidence Navigator предоставляет результаты многочисленных работ в рамках проекта GetReal, а также другие авторитетные источники информации по реальной клинической практике.
Одним из продуктов проекта GetReal стала серия из 8 публикаций на общую тему «Прагматические клинические исследования и реальная клиническая практика» («Pragmatic trials and real world evidence»), которые были опубликованы в журнале «Клиническая эпидемиология» («Journal of Clinical Epidemiology») c августа по ноябрь 2017 г. Эта серия публикаций включает литературные обзоры, интервью с заинтересованными сторонами из академических учреждений, научно-исследовательских институтов, контрактных исследовательских организаций, представителями фармацевтической промышленности, страховщиков медицинских услуг, агентств по оценке технологий здравоохранения, врачей и пациентских организаций. Серия включает следующие публикации:
- введение в прагматические клинические исследования и доказательства реальной клинической практики;
- выбор и включение сайтов для исследований лекарственных средств в реальной клинической практике;
- набор, включение, удержание пациентов в прагматических клинических исследованиях;
- проблемы и сложности при оформлении информированного согласия для прагматических клинических исследований;
- вопросы, возникающие при проведении прагматических клинических исследований и использовании доказательств реальной клинической практики, препараты сравнения, выбор стратегий лечения для сравнения;
- выбор и измерение результатов лечения в прагматических клинических исследованиях;
- мониторинг безопасности и правила проведения, контроль качества прагматических клинических исследований;
- сбор и управление данными прагматических клинических исследований.
Исследования в реальной клинической практике могут использоваться при принятии решений по реимбурсации. К таким методам относится мультикритериальный анализ принятия решений (Multiple-criteria decision analysis — MCDA). Для технологий на основе принципов MCDA разработано специальное программное обеспечение, кроме того, эти технологии могут быть адаптированы для систем искусственного интеллекта. Подобные научные методы принятия решений (при их правильном применении) позволяют агентствам по оценке технологий здравоохранения принимать решения с учетом соотношения польза/риск и состояния системы здравоохранения.
Виталий Усенко,
магистр управления международным бизнесом,
магистр по управлению качеством
Цікава інформація для Вас:
Оценка конструктной валидности хирургического лапароскопического симулятора
Э.М. МакДугалл
Состояние проблемы. Мы представляем первоначальные данные о конструктной, содержательной и внешней валидности хирургического лапароскопического симулятора LAPMentor (компания Simbionix) со средствами виртуального отображения.
Дизайн исследования. Студенты-медики (MS), ординаторы и стипендиаты (R/F), а также опытные лапароскопические хирурги (ES), проводившие <30 лапароскопических вмешательств ежегодно (ES<30), а также те, которые проводили >30 лапароскопических операций в год (ES>30), выполняли 9 заданий, направленных на формирование базовых навыков (SK), включая управление 0° и 30° камерами (SK1, SK2), зрительно-моторную координацию (SK3), клипирование (SK4), захват и клипирование (SK5), маневрирование двумя руками (SK6), рассечение (SK7), коагуляцию (SK8) и перемещение объектов (SK9).
Результаты. Средний возраст MS (n=23), R/F (n=24), ES<30 (n=26) и ES>30 (n=30) составил 26 (21-32), 31 (27-39), 49 (31-70) и 47 (34-69) лет соответственно. При выполнении заданий низшего порядка (SK3, SK4, SK5 и SK6) ES>30, ES<30 и R/F показали схожие результаты, которые были все же значительно лучше, чем в группе MS. При выполнении сложных заданий (SK7, SK8 и SK9) показатели ES>30 имели тенденцию к превосходству над результатами групп R/F и ES<30, которые были примерно равными, но в свою очередь существенно превосходили данные группы MS. Параметры качества выполнения SK8 в группе ES>30 были заметно выше, чем в группах R/F и ES<30, которые были сопоставимы друг с другом и явно опережали результаты, полученные участниками группы MS.
Заключение. По результатам работы на хирургическом симуляторе LAPMentor в области приобретения навыков, не имеющих отношения к работе с камерой (SK3-9), можно отличить испытуемых из групп ES от тех, которые ранее не работали с лапароскопическими инструментами. Результаты выполнения задания SK8 выявили наивысший уровень конструктной валидности за счет точной дифференциации групп MS, R/F, ES<30 и ES>30.
Сокращения
ES — опытные лапароскопические хирурги
MS — студенты-медики
R/F — ординаторы и стипендиаты
SK — учебные задания по формированию базовых навыков
Лапароскопия представляет неотъемлемый компонент современной повседневной урологической практики. Это направление быстро развивается в крупных медицинских центрах, однако медленно внедряется в общую практику урологии, поскольку в большинстве случаев предполагает весьма крутую кривую обучения. Сниженное восприятие глубины, двухмерное изображение, ослабленные тактильные ориентиры и ощущение конечного усилия, сообщаемого инструменту при работе в контринтуитивной среде, крайне затрудняют процесс обучения. Но по этим же причинам в отличие от открытой хирургической операции условия лапароскопического вмешательства можно воспроизвести компьютерными средствами виртуального отображения (виртуальной реальности). Необходимость постоянного обновления этих непростых лапароскопических навыков сделали базовую лапароскопию доступной для симуляционного обучения [1]. Таким образом, хирургические симуляторы помогут хирургам-новичкам приобрести навыки управления лапароскопическими инструментами, компенсации угла расположения камеры и фалькрум-эффекта инструментов, а также отработать манипуляции обеими руками [2].
Перед началом работы на хирургическом симуляторе его следует тщательно и объективно проверить на предмет научной надежности и валидности [3]. Из 5 признанных типов валидности [содержательная, внешняя, конструктная, конкурентная и предсказательная (прогностическая)] мы остановились на 3 основных видах валидности: содержательной, внешней, конструктной. Одной из наиболее важных считается конструктная валидность, поскольку она подтверждает способность симулятора по результатам анализа качества работы отличить опытного хирурга от неопытного. Содержательная валидность характеризует применимость симулятора как средства обучения и оценивается по данным официального заключения специалистов, которые хорошо в нем разбираются. Этот параметр позволяет определить реальную способность симулятора выполнять заявленные задачи обучения. Как правило, внешняя валидность произвольно оценивается неспециалистами и используется для оценки, насколько создаваемые симулятором условия близки к реальным, т.е. на каком уровне симулятор воспроизводит то, что он должен воспроизводить [3].
Цель настоящего исследования — представление начальной оценки конструктной, содержательной и внешней валидности хирургического симулятора LAPMentor (Simbionix) при его использовании для формирования базовых навыков лапароскопической работы. Только после определения всех этих видов валидности целесообразно продолжать анализ с оценкой конкурентной (степень соответствия симулятора «золотому стандарту» технической подготовки) и прогностической (подтверждение возможности прогнозировать будущий уровень навыков стажера при переходе к реальной работе в операционной по показателям качества хирургической деятельности на симуляторе) валидности.
Материал и методы
После получения одобрения от Экспертного совета Калифорнийского университета (Ирвин) студенты-медики (MS), ординаторы, стипендиаты в области общей хирургии и акушерства и гинекологии (R/F) и опытные лапароскопические хирурги (ES) были приглашены для участия в исследовании, проведенном с августа 2004 по январь 2005 г. Группу ES составили практикующие урологи, общие хирурги и гинекологи, проводящие лапароскопические вмешательства. Эта группа была разделена на 2 подгруппы: хирурги, проводящие <30 лапароскопических вмешательств в год (ES<30), и хирурги, ежегодно проводящие >30 лапароскопических операций (ES>30). В большинстве случаев врачи группы ES>30 приняли участие в исследовании добровольно, во время 13-го Международного конгресса и Ежегодной конференции «EndoExpo» Общества лапароэндоскопических хирургов в Нью-Йорке (штат Нью-Йорк).
Система LAPMentor представляет компьютерный симулятор со средствами виртуального отображения, предназначенный для формирования основополагающих навыков лапароскопической работы. В его состав входят 2 симуляторных рабочих инструмента и камера. Движения инструмента и камеры передавали в виртуальную рабочую среду, включая тактильный регулятор, и отображали на 17-дюймовом плоском жидкокристаллическом мониторе. Задания по формированию базовых навыков (SK) включали работу с 0° камерой (SK1), работу с 30° камерой (SK2), зрительно-моторную координацию (SK3), клипирование кровоточащих участков (SK4), захват и клипирование источников кровотечения (SK5), работу обеими руками (SK6), рассечение (SK7), коагуляцию (SK8) и перемещение объектов (SK9) (табл. 1).
Каждое базовое SK было разделено на компоненты, которые варьировали соответственно характеру задания. Оценивали общее время выполнения каждого упражнения. Показатель точности в процентном выражении был определен как число «пораженных» красных шариков, общее число снимков (SK1) и (SK2) или оба показателя, число корректных контактов с шариками, общее число «выбранных» шариков (SK3) или оба показателя, число правильно наложенных скобок, общее число наложенных скобок (SK4) или оба показателя, число случаев рассечения без посторонних повреждений, общее число рассечений (SK7) или оба показателя, а также количество коагулированных выделенных структур, их общее число (SK8) или оба показателя. Результаты по каждому базовому SK автоматически регистрировали в соответствии с заложенным в системе алгоритмом и сохраняли в виде электронных таблиц в защищенном паролем каталоге. Общие результаты анализа качества деятельности системы LAPMentor представляли по всем 9 заданиям.
Шкалы SK и их компонентов сравнивали между 3 группами участников. Затем заданные изготовителем показатели качества выполнения заданий, включающие данные о скорости и точности работы, сравнивали между собой с определением коэффициента корреляции каждого компонента с остальными. После персонального практического инструктажа по каждому задания, который включал определение ожидаемых показателей, регистрируемых переменных и штрафов за ошибки и проводился опытным специалистом, участникам предоставлялась возможность выполнить одну попытку, после которой регистрировалось качество их деятельности. Участники выполняли задания на симуляторе LAPMentor, последовательно переходя от задания 1 к заданию 9. Непосредственно по окончании работы на симуляторе проводили опрос каждого участника исследования (демографические данные, опыт хирургической работы и впечатления от работы на симуляторе). В анализ включали данные опроса ES, касающиеся содержательной валидности, и MS, касающиеся внешней валидности.
Анализ данных включал в себя описательную статистику, подсчет коэффициентов корреляции и сравнительный анализ средних показателей качества работы между 3 группами. Статистическую значимость различий определяли с помощью однофакторного дисперсионного анализа (ANOVA) или г-теста для независимых выборок. Значимые результаты ANOVA обрабатывали методом парных сравнений с применением теста Стьюдента-Ньюмана-Кейлса (для гомогенных дисперсий) или теста Геймса-Хоуэлла (для гетерогенных групповых дисперсий). В качестве критерия статистической значимости был установлен номинальный α-уровень <0,05, не сделано никакой поправки для контроля ошибки первого рода в случае множественных сравнений. Все расчеты проводили с помощью пакета статистических программ SPSS, версия 12.0 (SPSS Inc).
Результаты
Всего в исследовании участвовали 103 человека: 23 — MS, 24 — R/F, 26 — ES<30 и 30 — ES>30. Средний возраст участников по группам: MS — 26 лет (21-32), R/F — 31 год (27-39), ES<30-49 лет (31-70) и ES>30-47 лет (34-69). Возраст участников обеих групп ES был примерно одинаковым, но существенно выше, чем у лиц группы R/F, участники которой были, в свою очередь, заметно старше лиц группы MS. В группе MS было 25% женщин, в группе R/F — 21% и в группе ES — 4%. К моменту исследования все участники из группы R/F принимали участие в <30 лапароскопических вмешательств в качестве ассистентов, за исключением 1 старшего ординатора-общего хирурга и 1 стипендиата-уролога, которые принимали участие в >50 вмешательствах. Ни один из участников группы MS на момент начала исследования не имел опыта лапароскопической работы.
Существенных различий показателей качества работы с камерами (SK1 и SK2) между участниками 4 групп не обнаружено (табл. 2, 3). В группах ES>30, ES<30 и R/F результаты при выполнении заданий SK3, SK4, SK5 и SK6 также были примерно одинаковыми, но они были существенно выше, чем у лиц группы MS. Результаты выполнения заданий SK7 (рассечение) и SK9 (перемещение объектов) в группах ES>30 и R/F были схожими, но при этом значительно превышали данные (p<0,01 для SK7, p<0,001 для SK9), выявленные у участников групп ES<30 и MS, которые, в свою очередь, немногим отличались между собой. Примечательно, что качество выполнения задания SK8 (коагуляция) в группах ES<30 и R/F было примерно одинаковым, но в целом существенно менее высоким, чем в группе ES>30 (p<0,01), данные которой, в свою очередь, оказались заметно выше по сравнению с группой MS (p<0,001). При анализе общих и совокупных данных было выявлено, что участники групп ES>30 и R/F получили примерно одинаковые результаты (p=0,95), которые были значительно выше результатов, полученных участниками группы ES<30 (p=0,0001). Аналогично этому совокупные данные группы ES<30 были существенно лучше, чем в группе MS (p=0,0001).
Данные, касающиеся выполнения задания SK8 (коагуляция), были проанализированы повторно. Среднее и медиана качества выполнения для группы ES>30 составили 86 и 93 соответственно (рис. 1). В группе R/F было несколько случаев превышения средних показателей SK8 группы ES>30, а в группе ES<30 их не было совсем. Аналогично этому в группе MS было мало случаев превышения показателей SK8 групп R/F и ES<30, а в сравнении с группой ES>30 их не было совсем. Все средние показатели в группах MS, R/F и ES<30 были ниже самого низкого показателя группы ES>30.
Было отмечено, что одна из стипендиатов группы R/F прежде имела значительный опыт лапароскопической работы в области общей хирургии в Южной Америке до начала специализации в данной области. В связи с этим ее результаты были перенесены из группы R/F в более подходящую для нее группу ES<30, а данные выполнения задания SK8 подвергнуты повторному анализу. Таким образом средний показатель качества выполнения SK8 в группе ES>30 (86±14) оказался выше, чем в группе ES<30 (79±15), правда, это различие было статистически незначимым. В этих группах индексы выполнения задания SK8 были значимо выше (p<0,0005) по сравнению с группой R/F после проведенных изменений (52±17) и в группе MS (43±16). Хотя в пересмотренной группе R/F показатели SK8 были выше, чем в группе MS, различия были незначимы. Представляет интерес и тот факт, что 2 наивысших показателя выполнения SK8 в группе R/F при сравнении с группой ES>30 существенно не различались (91±2,5 и 86±14 соответственно). У одного участника из группы R/F был внушительный опыт лапароскопической работы, а 2 других целенаправленно специализировались в данной области. Показатель качества выполнения SK8 этих участников группы R/F (91±2,5) был значительно выше, чем у всей группы R/F при анализе без 4 самых высоких результатов (52±17; p<0,0005). Показатели качества деятельности также анализировали в виде процентных квартилей: 76% — 100%, 51% — 75%, 26% — 50% и 0% — 25% (рис. 2).
Показатели SK8 85% участников группы ES>30 находились в квартиле 76-100, а 15% — в квартиле 51-75%. Ни у одного участника группы ES>30 показатель SK8 не превышал 50%. В группе ES<30 25% участников были классифицированы в квартиль 76-100, 70% — в квартиль 51-75 и 26% — в квартиль 50 (по 35% в каждую квартильную группу), а 5% — в квартиль 0-25%. В группе R/F 27,5% участников были отнесены в квартиль 76-100, 27,5% — в квартиль 51-75, 45% — в квартиль 26-50 и ни одного в квартиль 0-25%. В группе MS 77% участников были отнесены в квартиль 26-50, 14% — в квартиль 51-75 и по 4,5% — в квартили 76-100 и 0-25%.
Показатели качества выполнения заданий по каждой группе представлены в табл. 2. Участники группы MS были наименее точны при выполнении заданий SK3, SK5, SK6 и SK9. Важно отметить, что лица из группы MS не превзошли участников группы R/F ни по одному заданию.
Участники групп MS и R/F оценивали внешнюю валидность (реалистичность воспроизведения ситуации) системы LAPMentor. Из них 94% оценили симулятор как среднюю систему по простоте использования и выполнения различных практических заданий. 89% участников сочли, что симулятор LAPMentor в практическом плане реалистично воспроизводит рабочую ситуацию (табл. 4).
Участников группы ES>30 попросили оценить содержательную валидность симулятора LAPMentor (табл. 5). Большинство из них (91%) сочло систему LAPMentor полезным учебным средством, а 87% ответили, что симулятор так же хорош или даже лучше обычного тазового тренажера для обучения навыкам лапароскопической работы. 91% участников группы ES>30 намерены рекомендовать систему LAPMentor для применения в рамках программы лапароскопической подготовки (см. табл. 5), а 74% считают, что она предоставляет хорошие условия для подготовки ординаторов перед началом реальной лапароскопической работы в операционной. 35% опрошенных из группы ES>30 назвали симулятор LAPMentor адекватным средством сертификации, однако 39% не были уверены, что его можно использовать в этом качестве (см. табл. 5).
Обсуждение
Результаты заданий по работе с камерами (SK1 и SK2) хирургического симулятора LAPMentor не различаются в группах стажеров, как это ожидалось для заданий представляющих основные (фундаментальные) способности. По результатам заданий более высокого уровня, но одновременно менее сложных, таких как зрительно-моторная координация (SK3), клипирование источников кровотечения (SK4), захват и клипирование кровоточащих участков (SK5), а также манипуляции обеими руками (SK6) предоставляли информацию, с помощью которой можно было различить хирургов, не имеющих и имеющих опыт лапароскопической работы. Однако эти задания не позволяли дифференцировать хирургов в зависимости от их прежнего опыта лапароскопических вмешательств.
Задания более высокого уровня и умеренной сложности, включая рассечение (SK7) и перемещение объектов (SK9), также предоставляли информацию, с помощью которой можно было различить хирургов, не имеющих и имеющих опыт лапароскопической работы. Интересно, что при выполнении этих заданий показатели качества работы в группах ES>30 и R/F были примерно одинаковыми, равно как в группах ES30 и R/F были заметно выше, чем в группах ESЗадание, связанное с коагуляцией (SK8), требует квалификации очень высокого уровня. Оно предполагает одновременную работу с инструментами обеими руками, сходную с диссекцией, и пользование ножным приводом коагулирующего инструмента. Кроме того, правая педаль используется в сочетании с инструментом правой руки, а левая — с инструментом, управляемым левой рукой. С учетом этих особенностей данная задача, будучи более сложной, может быть и более ценной при выявлении хирургического опыта работы.
Действительно, показатели выполнения этого задания в группе ES>30 были значительно лучше по сравнению с другими группами. Примечательно, что результаты выполнения SK8 участниками групп ES30, но самый низкий результат SK8 в группе ES>30 не был ниже среднего показателя группы R/F. Следует отметить, что максимальный результат в группе ES30, а показатели группы ES30. Таким образом, несколько участников групп MS и R/F очень хорошо справились с этим заданием высокого уровня, но ни один из их результатов не был лучше среднего показателя в группе ES>30. Эти данные подтверждают вывод о конструктной валидности SK8 системы LAPMentor.
Любопытно, что хирурги, обладающие некоторым опытом лапароскопической работы (R/F, ES30) демонстрировали схожие результаты при работе с камерой по сравнению с испытуемыми группы MS. Это может быть следствием того, что ES редко используют камеры, а R/F пользуются ими чаще. Навыки работы с камерами по сути отражают основополагающие способности, поэтому трудно ожидать ярких различий по этому показателю между новичками и ES. Таким образом, опыт в области выполнения этих манипуляций отражался на результатах деятельности, подтверждая гипотезу о том, что навыки работы с камерой имеют низкую конструктную валидность, если тестируются на симуляторе LAPMentor. R/F устойчиво работали лучше, чем MS, и их результаты были аналогичны результатам ES. Лицам группы MS требовалось больше времени на выполнение большинства базовых SK по сравнению с другими группами.
Ограничение настоящего исследования, которое может стать причиной для критики достоверности результатов, состоит в том, что участникам предоставлялась только одна практическая попытка для выполнения заданий. По данным Gallagher и соавт. [4] в небольших группах (6 опытных хирургов и 6 хирургов, не имеющих опыта в области лапароскопии) показатели качества деятельности отдельных лиц и группы в целом существенно улучшаются при проведении нескольких (до 3) зачетных попыток. Другие исследователи утверждают, что люди с более богатым опытом виртуальных игр лучше действуют (работают) в условиях виртуальной реальности и при использовании модельных лапароскопических симуляторов по сравнению с теми, кто регулярно не играет в подобные игры [5]. Это также может приводить к систематической ошибке, поскольку в исследовании участвовали опытные хирурги старшего возраста (медиана возраста — 45 лет по сравнению с 26 годами в группе MS и 32 — R/F). У участников этих 2 групп, естественно, опыт видеоигр больше, так как они моложе, что теоретически может способствовать их успехам при работе на симуляторе.
Система LAPMentor обеспечивала реалистичный формат воспроизведения и была названа участниками относительно простой в работе, т.е. данный симулятор обладает внешней валидностью. Наличие содержательной валидности симулятора LAPMentor также получило подтверждение. В большинстве случаев участники группы ES>30 сочли симулятор ценным средством обучения и подготовки и рекомендовали включить его в программу подготовки по лапароскопии. Наиболее интересным следует признать тот факт, что на данный момент отсутствуют данные, подтверждающие наличие прогностической и конкурентной валидности у симулятора LAPMentor, однако треть ES назвали его адекватным инструментом сертификации. Правда, это может отражать недостаточное понимание важности оценки научной валидности хирургических симуляторов. При другом подходе, по аналогии с подготовкой пилотов, оценка симуляторов может быть настолько интуитивной, что некоторые хирурги признают ее необходимость в направлении привилегий и сертификации.
Компьютерные средства воспроизведения быстро развиваются и могут стать полезными инструментами хирургической подготовки и аттестации хирургов. Достоверных подтверждений их превосходства над тазовыми тренажерами пока нет, но компьютерные лапароскопические симуляторы способствуют объективной оценке хирургических навыков, относительно свободны от преднамеренных или систематических ошибок, позволяют снизить внутри- и межличностные различия между испытуемыми, к тому же они более надежны [2, 6, 7]. Показатели индивидуальной деятельности регистрируются автоматически, исключая затратное по времени и средствам участие человека, а также противоречивые оценки, связанные с его необъективностью или невнимательностью. Эти средства могут стать ценными инструментами контроля процесса обучения с оценкой результатов по ходу работы. Несомненно, объективный анализ точности и эффективности формирования навыков является уникальной характеристикой компьютерных систем. Однако хирургические симуляторы в том виде, в котором они существуют, менее гибкие по сравнению с тазовыми тренажерами в отношении введения новых задач и дороги при эксплуатации в рамках учебных программ [7].
При должном внимании к развитию данного направления медицинской промышленности гибкость симуляторных систем, несомненно, будет повышаться, а дополнительные программные средства и модули со временем сделают их применение междисциплинарным. Следует признать, что поначалу вопросы стоимости будут препятствовать этому развитию, однако сильным аргументом в пользу применения симуляторов в специализированных учебных центрах станет перспектива повышения качества хирургической подготовки.
Согласно данным, приводимым Seymour с соавт. [1], ординаторы, отобранные для мини-инвазивной хирургической подготовки с использованием средств виртуального отображения (MIST-VR), выполняют диссекцию желчного пузыря на 29% быстрее и в 6 раз реже допускают ошибки по сравнению с не проходившими подготовку на симуляторах. Кроме того, симуляторы устраняют внутри- и межиндивидуальные различия между испытуемыми, что может оправдывать высокую стоимость компьютерных симуляторов. Среди их других достоинств можно назвать снижение затрат рабочего времени преподавателей. По завершении базовой подготовки по встроенной в систему программе стажер может получать инструкции и работать на симуляторе один.
Ряд других компьютерных лапароскопических симуляторов с набором заданий, анатомическим воспроизведением и наличием (или отсутствием) тактильного регулятора обладают высокой конструктной валидностью. Среди них можно назвать MIST-VR (Mentice AB) [8-10], LapSim (Immersion Medical) [11], MISTELS (SAGES FLS program) [12] и Xitact LS500 (Xitact SA) [13]. Следует признать, что современные валидные хирургические симуляторы работают только в области формирования базовых лапароскопических навыков. Симуляторы, предназначенные для приобретения навыков более высокого уровня и отдельных лапароскопических вмешательств, пока не имеют полной валидации. Важно также сравнить симуляторы между собой, используя один и тот же процесс валидации. Такие исследования в настоящее время проводятся при содействии Комитета хирургической подготовки Общества лапароэндоскопических хирургов.
Несмотря на то что конструктная валидность является важной характеристикой и ее следует оценить до того, как симулятор будет использоваться в качестве инструмента анализа, пока что исследование данного средства обучения только начинается. Планируется провести более продолжительные исследования 2 других очень важных типов валидности: прогностической и конкурентной. Только после определения этих характеристик может быть одобрено применение симулятора в качестве инструмента обучения и анализа. В настоящее время идут испытания, направленные на оценку прогностической валидности системы LAPMentor. Обучение и оценка уровня технических навыков в хирургии представляют наименее систематизированные и стандартизованные компоненты классического хирургического обучения. Недавние ограничения продолжительности рабочего дня ординаторов, рост стоимости операционного времени, внимание общества к медицинским ошибкам и вопросы этики обучения хирургическим навыкам в операционной стимулируют разработку учебных программ приобретения основополагающих лапароскопических навыков при отсутствии риска. Внедрение хирургических стимуляторов в учебные программы, по-видимому, будет предоставлять возможность обучения при отсутствии риска для максимального увеличения опыта и снижения продолжительности обучения сложным хирургическим методикам, а также способствовать снижению частоты осложнений. Имеются данные, свидетельствующие о том, что приобретенные навыки лапароскопической работы на симуляторе способствуют повышению безопасности пациента и минимизации продолжительности вмешательства [1].
Обучение на неодушевленных объектах способствует формированию реальных навыков лапароскопической работы, однако их объективная количественная оценка затруднена и требует контроля и анализа со стороны человека [2]. Компьютерные симуляторы позволяют объективно оценивать уровень формируемого навыка на основе качества деятельности, эффективности движения инструментов, учета ошибок, а не только по времени, затраченному на выполнение задания. Этот компьютерный формат функционирования позволяет также контролировать и сравнивать качество индивидуальной работы в динамике, что отражает кривую обучения, свойственную определенному навыку или вмешательству, а также обеспечивает возможность сравнения результатов работы отдельных лиц с данными квалифицированных коллег и специалистов. При подтверждении прогностической валидности можно сформулировать критерии уровня квалификации по отдельным навыкам и вмешательствам, а при соответствующих условиях это позволит хирургам переходить к реальной работе в операционной по достижению установленного уровня подготовки. Пребывание в операционной для ординаторов будет скорее привилегией, заслуженной в процессе обучения. К тому же симуляторы, подобные LAPMentor, регистрируют не только то, что делается, они обладают встроенными программными средствами, которые извещают хирурга о совершенной ошибке, позволяя ему быстро исправить ее и продолжить корректную и безопасную работу по выполнению задания, процедуры или того и другого.
В заключение следует отметить, что хирургический симулятор LAPMentor обладает приемлемой содержательной и внешней, а также подтвержденной конструктной валидностью. А точнее, SK8 — электрохирургическая коагуляция, выполняемая обеими руками с применением ножного переключателя — была единственной манипуляцией, по результатам выполнения которой можно было четко различить лиц групп MS, R/F, ES30. Чтобы определить, обладает ли данный лапароскопический симулятор прогностической и конкурентной валидностью, требуются дополнительные испытания, прежде чем прибор можно будет рекомендовать для включения в состав курса обучения как валидное и надежное средство подготовки и оценки качества деятельности.
Вклад авторов
Идея и дизайн: McDougall, Boker, Clayman.
Сбор данных: McDougall, Corica, Sala, Stoliar, Borin, Chu.
Анализ и трактовка результатов: McDougall, Corica, Boker, Clayman.
Подготовка рукописи: McDougall, Corica, Boker, Clayman.
Критический анализ: Boker, Clayman.
Статистическая экспертиза: Boker.
Источники финансирования: McDougall, Clayman.
Общий контроль: McDougall, Clayman.
Литература/References
1. Seymour N.E., Gallagher A.G., Roman SA., et al. Virtual reality training improves operating room performance. Results of a randomized, double-blind study. Ann Surg. 2002; Vol. 236: 458-64.
2. Madan A.K., Frantzides C.T., Shervin N., Tebbit C.L. Assessment of individual hand performance in box trainers compared to virtual reality trainers. Ann Surg. 2003; Vol. 69: 1112-4.
3. McDougall E.M. Surgical simulation. AUA Updates (Accepted for publication).
4. Gallagher A.G., Lederman A.B., McGlade K., et al. Discriminative validity of the Minimally Invasive Surgical Trainer in Virtual Reality (MIST-VR) using criteria levels based on experience. Surg Endosc. 2004; Vol. 18: 660-5.
5. Enochsson L., Isaksson B., Tour R., et al. Visuospatial skills and computer game experience influence the performance of virtual endoscopy. J Gastrointest Surg. 2004; Vol. 8: 876-82.
6. Munz Y., Kumar B.D., Moorthy K., et al. Laparoscopic virtual reality and box trainers: is one superior to the other? Surg Endosc. 2004; Vol. 18: 485-94.
7. Kothari S.N., Kaplan B.J., DeMaria E.J., et al. Training in laparoscopic suturing skills using a new computer-based virtual reality simulator (MIST-VR) provides results comparable to those with an established pelvic trainer system. J Laparoendosc Adv Surg. Tech A. 2002; Vol. 12: 167-73.
8. Taffinder N., Sutton C., Fishwick R.J., et al. Validation of virtual reality to teach and assess psychomotor skills in laparoscopic surgery: results from randomized controlled studies using the MIST-VR laparoscopic simulator. Stud Health Technol Inform. 1998; Vol. 50: 124-30.
9. Gallagher A.G., Richie K., McClure N., McGuigan J. Objective psychomotor skills assessment of experienced, junior, and novice laparoscopists with virtual reality. World J Surg. 2001; Vol. 25: 1478-83.
10. McNatt S.S., Smith C.D. A computer-based laparoscopic skill assessment device differentiates experienced from novice laparoscopic surgeons. Surg Endosc. 2001; Vol. 15: 1085-9.
11. Duffy A.J., Hogle N.J., McCarthy H., et al. Construct validity for the LapSim laparoscopic surgical simulator. Surg Endosc. 2005; Vol. 19: 401-5.
12. Fried G.M., Feldman L.S., Vassiliou M.C., et al. Proving the values of simulation in laparoscopic surgery. Ann Surg. 2004; Vol. 240: 518-28.
13. Schijven M., Jakimowicz J. Construct validity. Expert and novices performing on the Xitact LS500 laparoscopy simulator. Surg Endosc. 2003; Vol. 17: 803-10.
Внешняя валидность | Социальная психология
Под внешней валидностью понимается возможность обобщения результатов исследования, то есть генерализации выводов, полученные на экспериментальной выборке, на всю генеральную совокупность. Социальные психологи стремятся к получению выводов, генерализируемых на очень широкую социальную общность, часто исходя из идеи о наличии универсальных закономерностей глобального характера. Результаты исследований с высокой степенью генерализируемости, соответственно, обладают и высоким уровнем внешней валидности. Внешняя валидность существенно зависит от способа формирования выборки.
Существует три основных типа выборки:
Случайная выборка. Например, результаты исследования группы подростков, сформированной случайным способом, будут справедливы с некоторой степенью вероятности для всех подростков данной национальности. Однако такое исследование может оказаться очень сложным и дорогостоящим, так как выборка должна быть многочисленной и однородной.
Гетерогенная (неоднородная) выборка. В соответствии с целями исследования выделяются различные группы населения, на которых предполагается получить результаты исследования. Затем анализируется случайная выборка с тем, чтобы убедиться, что она содержит достаточное количество представителей каждой группы.
Выборка типичного случая. Например, дается определение среднего молодого белоруса. Для исследования используется выборка, состоящая из индивидов, удовлетворяющих этому определению. В этом случае, если проводится эксперимент со студентами университета, например, на способность к ведению переговоров, то нельзя рассчитывать на то, что полученные выводы будут применимы для глав государств. Тем не менее, в той же социальной психологии основные выводы получены именно на студенческих выборках, что создает основания для их критики.
Внешнюю валидность снижает также несоответствие между явлениями, наблюдаемыми в лаборатории, и явлениями в естественных условиях. Трудно определить, имеет ли место выявленная зависимость только в лаборатории или она наблюдается и вне лаборатории. Внешняя валидность обеспечивается неоднократным проведением эксперимента в гетерогенных условиях.
Можно говорить, как минимум, о четырех основных возможностях ограничений генерализации результатов исследований или внешней валидности:
1) Случится ли то же самое с другими группами людей или со всеми людьми то что получено на экспериментальной выборке?
2) Случится ли то же самое в других местах?
3) Будет ли то же самое в другое время?
4) Будет ли то же самое при других типах измерений?
Первый вопрос был связан Брахтом (Bracht) и Глассом (Glass) с популяционной, а второй с экологической валидностью к рассмотрению которых мы и приступим.
Наконец, существует понятие внешней валидности — суммы характеристик
Наконец, существует понятие внешней валидности — суммы характеристик исслед., к-рая позволяет осуществлять обобщение или распространение получаемых в исслед. (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исслед.
Метаанализ. Внешняя валидность результатов исслед. существенно усиливается, когда объединяется и обобщается целый ряд исслед. одной и той же воздействующей переменной. Такая процедура называется метаанализом. В метаанализе определяются величина эффекта, оказываемого эксперим. воздействием и основными условиями исслед. на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, к-рый позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исслед. определяется простым делением разности между средними показателями по критериальной переменной в эксперим. группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исслед., не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.
Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.
См. также Контрольные группы, Экспериментальные методы, Проверка гипотезы, Измерение, Статистика в психологии
Дж. Эшер
Онлайн-тесты на oltest.ru: Экспериментальная психология
Онлайн-тестыТестыФилософия и психологияЭкспериментальная психологиявопросы76-9076. Внешние переменные в эксперименте могут быть:
• побочными и дополнительными
77. Внешние переменные, порождаемые систематическим смешением факторов времени, задачи, индивидуальных особенностей испытуемых, ведущие к появлению неожиданных данных, называются:
• побочными
78. Внешним отличительным моментом психологического эксперимента с участием людей от других видов естественнонаучного исследования является наличие
• инструкции
79. Внешняя валидность — это мера …
• соответствия экспериментальной процедуры реальности
80. Внешняя переменная, которая существенна для изучаемой связи между причиной и следствием, называется:
• дополнительной
81. Внутренний психологический склад человека другими словами называется:
• эндопсихикой
82. Внутренняя валидность — это мера …
• влияния независимой переменной на зависимую переменную по отношению к другим факторам
• интервалов и равных отношений
84. Возможность переноса экспериментальных результатов на реальную ситуацию, обобщение их для других объектов реальности, составляет суть __________________ валидности.
• внешней
85. Возможность эксперимента (теста) по измерению какой-либо психической переменной является валидностью
• содержательной
86. Воспроизводящее исследование в психологии проводится с целью
• точного повторения исследования предшественников для подтверждения полученных результатов
87. Впервые, основываясь на бихевиористской традиции, теоретическое обоснование психологического эксперимента дал:
• В. Вундт
88. Время реакции в основном можно измерить только экспериментом
• лабораторным
89. Все методы, применяемые для получения эмпирического материала, можно условно разделить на:
• активные и пассивные
90. Все функции, которые имеют максимум, называются:
• изотонными
Общие сведения о внутренней и внешней действительности
Внутренняя и внешняя валидность — это концепции, которые отражают достоверность и значимость результатов исследования. В то время как внутренняя валидность связана с тем, насколько хорошо проведено исследование (его структура), внешняя валидность связана с тем, насколько результаты применимы к реальному миру.
Что такое внутренняя действительность?
Внутренняя валидность — это степень, в которой исследование устанавливает заслуживающую доверия причинно-следственную связь между лечением и результатом.Внутренняя валидность также отражает то, что данное исследование позволяет исключить альтернативные объяснения вывода.
Например, если вы реализуете программу отказа от курения с группой лиц, насколько вы можете быть уверены, что любое улучшение, наблюдаемое в экспериментальной группе, связано с лечением, которое вы провели?
Внутренняя валидность во многом зависит от процедур исследования и от того, насколько строго оно проводится.
Внутренняя валидность — это не концепция типа «да или нет».Вместо этого мы рассматриваем, насколько мы можем быть уверены в результатах исследования, основываясь на том, позволяет ли оно избежать ловушек, которые могут сделать результаты сомнительными.
Чем меньше шансов на «смешение» в исследовании, тем выше внутренняя валидность и тем больше мы можем быть уверены в результатах. Под сомнением понимается ситуация, в которой в игру вступают другие факторы, которые искажают результат исследования. Например, исследование может сделать нас неуверенными в том, можем ли мы доверять тому, что мы определили вышеупомянутый «причинно-следственный» сценарий.
Короче говоря, вы можете быть уверены, что ваше исследование внутренне достоверно, только если вы можете исключить альтернативные объяснения своих выводов. Вкратце, вы можете предположить причинно-следственную связь, только если вы соответствуете следующим трем критериям в своем исследовании:
- Причина предшествовала следствию во времени.
- Причина и следствие различаются.
- Других возможных объяснений наблюдаемой вами взаимосвязи нет.
Факторы, улучшающие внутреннюю валидность
Если вы хотите повысить внутреннюю валидность исследования, вы захотите рассмотреть те аспекты дизайна вашего исследования, которые повысят вероятность того, что вы сможете отклонить альтернативные гипотезы.Есть много факторов, которые могут улучшить внутреннюю валидность.
- Ослепление : участники — а иногда и исследователи — которые не знают, какое вмешательство они получают (например, с помощью плацебо в исследовании лекарств), чтобы избежать искажения этих знаний в их восприятии и поведении и, следовательно, на результатах исследования
- Экспериментальная манипуляция : Манипулирование независимой переменной в исследовании (например, предоставление курильщикам программы отказа от курения) вместо простого наблюдения ассоциации без проведения какого-либо вмешательства (изучение взаимосвязи между упражнениями и курением)
- Случайный выбор : Выбор участников случайным образом или таким образом, чтобы они были репрезентативными для популяции, которую вы хотите изучить
- Рандомизация : случайное распределение участников по экспериментальным и контрольным группам и гарантирует отсутствие какой-либо систематической ошибки между группами
- Протокол исследования : Следуя специальным процедурам для Проведение лечения таким образом, чтобы не вызвать каких-либо последствий, например, от того, что одна группа людей ведет себя иначе, чем другая группа людей
Факторы, угрожающие внутренней валидности
Подобно тому, как существует множество способов убедиться, что исследование является внутренне достоверным, существует также список потенциальных угроз внутренней достоверности, которые следует учитывать при планировании исследования.Взаимодействие с другими людьми
- Исчезновение : участники выбывают из исследования или покидают его, что означает, что результаты основаны на предвзятой выборке только людей, которые не решили уйти (и, возможно, у всех есть что-то общее, например, более высокая мотивация)
- Смешение : Ситуация, в которой можно считать, что изменения в переменной результата являются результатом некоторой третьей переменной, связанной с проведенным вами лечением.
- Распространение : Это относится к лечению в исследовании, которое распространяется от экспериментальной группы к контрольной группе через группы, взаимодействующие и разговаривающие или наблюдающие друг за другом.Это также может привести к другой проблеме, называемой обиженной деморализацией, при которой контрольная группа старается меньше, потому что чувствует обиду на группу, в которой они находятся.
- Предвзятость экспериментатора : экспериментатор ведет себя по-разному с разными группами в одной группе.
- Исторические события : может повлиять на результаты исследований, проводимых в течение определенного периода времени, например, смена политического лидера или стихийное бедствие, которое влияет на то, как участники исследования себя чувствуют и действуют.
- Инструменты : можно «подготовить» участников исследования определенным образом с помощью мер, которые вы используете, что заставляет их реагировать иначе, чем они бы иметь иначе.
- Созревание : описывает влияние времени как переменной в исследовании. Если исследование проводится в течение периода времени, когда возможно, что участники каким-то образом естественным образом изменились (стали старше, устали), то может быть невозможно исключить, были ли эффекты, наблюдаемые в исследовании, просто следствием эффекта. времени.
- Статистическая регрессия : естественный эффект участников на крайних концах меры, падающий в определенном направлении только по прошествии времени, а не эффект вмешательства
- Тестирование : многократное тестирование участников с использованием тех же мер влияет на результаты.Если вы дадите кому-то один и тот же тест три раза, не кажется ли, что он лучше справится с ним по мере изучения теста или привыкнет к процессу тестирования и будет отвечать по-разному?
Что такое внешняя действительность?
Внешняя валидность относится к тому, насколько хорошо можно ожидать, что результаты исследования будут применимы к другим условиям. Другими словами, этот тип достоверности относится к тому, насколько обобщаемы результаты. Например, применимы ли результаты к другим людям, условиям, ситуациям и временным периодам?
Экологическая валидность, аспект внешней валидности, относится к тому, можно ли обобщить результаты исследования на реальный мир.
В то время как строгие методы исследования могут гарантировать внутреннюю валидность, внешняя валидность, с другой стороны, может быть ограничена этими методами.
Другой термин, называемый переносимостью, относится к внешней валидности и относится к качественному дизайну исследования. Переносимость относится к тому, переносятся ли результаты в ситуации с аналогичными характеристиками.
Факторы, улучшающие внешнюю валидность
Что вы можете сделать, чтобы повысить внешнюю валидность вашего исследования?
- Учитывайте психологический реализм. : Убедитесь, что участники воспринимают события исследования как реальные события, рассказав им «легенду» о цели исследования.В противном случае в некоторых случаях участники могут вести себя иначе, чем в реальной жизни, если они знают, чего ожидать, или знают, какова цель исследования.
- Выполните повторную обработку или калибровку. : Используйте статистические методы для устранения проблем, связанных с внешней достоверностью. Например, если в исследовании были неравные группы по какой-либо характеристике (например, возрасту), можно было бы использовать повторное взвешивание.
- Реплика : повторите исследование с другими образцами или с другими настройками, чтобы увидеть, получите ли вы те же результаты.Когда было проведено много исследований, можно также использовать метаанализ , чтобы определить, является ли эффект независимой переменной надежным (на основе изучения результатов большого количества исследований по одной теме).
- Попробуйте полевые эксперименты : Проведите исследование вне лаборатории в естественной обстановке.
- Используйте критерии включения и исключения : Это гарантирует, что вы четко определили популяцию, которую изучаете в своем исследовании.
Факторы, угрожающие внешней действительности
Внешняя валидность находится под угрозой, когда исследование не принимает во внимание взаимодействия переменных в реальном мире.
- Эффекты до и после тестирования : Когда предварительное или послетестовое тестирование каким-либо образом связано с эффектом, наблюдаемым в исследовании, так что причинно-следственная связь исчезает без этих дополнительных тестов
- Характеристики выборки : Когда какая-то особенность конкретной выборки была ответственна за эффект (или частично ответственна), что привело к ограниченной обобщаемости результатов
- Ошибка отбора : Считается угрозой внутренней валидности, систематическая ошибка выбора описывает различия между группами в исследование, которое может относиться к независимой переменной (опять же, что-то вроде мотивации или желания принять участие в исследовании, конкретные демографические данные людей с большей вероятностью примут участие в онлайн-опросе).
- Ситуационные факторы : Время дня, местоположение, шум, характеристики исследователя и количество используемых мер могут повлиять на обобщаемость результатов.
Внутренняя и внешняя валидность
Внутренняя и внешняя значимость — две стороны одной медали. Вы можете провести исследование с хорошей внутренней достоверностью, но в целом оно может не иметь отношения к реальному миру. С другой стороны, вы можете провести полевое исследование, которое очень актуально для реального мира, но не даст достоверных результатов с точки зрения знания того, какие переменные привели к результатам, которые вы видите.
Сходства
В чем сходство между внутренней и внешней валидностью? Оба эти фактора следует учитывать при разработке исследования, и оба имеют значение с точки зрения того, имеют ли результаты исследования значение. Оба они не являются концепциями «либо / или», и поэтому вы всегда будете решать, в какой степени ваше исследование работает с точки зрения обоих типов достоверности.
Каждая из этих концепций обычно описывается в исследовательской статье, которая публикуется в научном журнале.Это сделано для того, чтобы другие исследователи могли оценить исследование и принять решение о том, являются ли результаты полезными и достоверными.
Отличия
Существенное различие между внутренней и внешней валидностью состоит в том, что внутренняя валидность относится к структуре исследования и его переменным, в то время как внешняя валидность связана с универсальностью результатов. Между ними есть и другие различия.
Внутренняя валидностьВыводы гарантированы
Управляет посторонними переменными
Исключает альтернативные объяснения
Ориентация на точность и сильные методы исследования
Результаты можно обобщить
Результаты применимы к практическим ситуациям
Результаты применимы ко всему миру
Результаты можно перевести в другой контекст
Внутренняя достоверность фокусируется на демонстрации разницы, обусловленной только независимой переменной, тогда как результаты внешней достоверности могут быть переведены на мир в целом.
Примеры действия
Примером исследования с хорошей внутренней валидностью может быть гипотеза исследователя о том, что использование определенного приложения внимательности снизит негативное настроение. Чтобы проверить эту гипотезу, исследователь случайным образом распределяет выборку участников в одну из двух групп: тех, кто будет использовать приложение в течение определенного периода, и тех, кто занимается контрольной задачей.
Исследователь следит за тем, чтобы не было систематической предвзятости в распределении участников по группам, а также не позволяет своим научным сотрудникам видеть группы, в которых учащиеся находятся во время экспериментов.
Используется строгий протокол исследования, в котором излагаются процедуры исследования. Возможные искажающие переменные измеряются вместе с настроением, например, социально-экономический статус участников, пол, возраст и другие факторы. Если участники выбывают из исследования, их характеристики изучаются, чтобы убедиться в отсутствии систематической ошибки в отношении того, кто остается в исследовании.
Пример исследования с хорошей внешней валидностью может быть в приведенном выше примере, исследователь также удостоверился, что исследование имело внешнюю валидность, заставив участников использовать приложение дома, а не в лаборатории.Исследователь четко определяет интересующую нас совокупность и выбирает репрезентативную выборку, и он / она воспроизводит исследование для различных технологических устройств.
Слово от Verywell
Настройка эксперимента так, чтобы он имел внутреннюю и внешнюю валидность, предполагает с самого начала помнить о факторах, которые могут повлиять на каждый аспект вашего исследования.
Лучше потратить дополнительное время на разработку структурно обоснованного исследования, имеющего далеко идущие последствия, а не торопиться с этапом проектирования только для того, чтобы позже обнаружить проблемы.Только когда и внутренняя, и внешняя валидность высоки, можно сделать убедительные выводы о ваших результатах.
Определение и примеры внешней действительности
Определения статистики> Внешняя достоверность
Определение внешней достоверности
Внешняя достоверность помогает ответить на вопрос: можно ли применить исследование к «реальному миру»? Если ваше исследование применимо к другим экспериментам, условиям, людям и временам, то внешняя валидность высока.Если исследование не может быть воспроизведено в других ситуациях, внешняя валидность низкая. Важно знать, что ваше исследование эффективно (внутренняя валидность) и эффективно в других ситуациях.
Исторически исследователи сосредотачивались на внутренней валидности. Научная строгость рандомизированных контролируемых экспериментов часто считалась более важной, чем обобщение результатов. В последнее время исследователи стремились к исследованиям, которые можно было бы обобщить за пределами лаборатории.Однако это не так просто, как кажется. Внешняя валидность — один из самых сложных для достижения типов валидности. Одна из причин этого заключается в том, что шаги по повышению внешней достоверности часто приводят к снижению внутренней достоверности. Другая причина — множество скрытых и сбивающих с толку переменных, которые могут повлиять на результат вашего эксперимента.
Население и экологическая ценность
Популяционная валидность и экологическая валидность — это типы внешней валидности.
- Популяционная валидность отвечает на вопрос: насколько хорошо исследование выборки может быть обобщено на популяцию в целом?
- Экологическая достоверность отвечает на вопрос: можно ли обобщить результаты вашего исследования в различных условиях?
Угрозы внешней действительности
Скрытые переменные и факторы в эксперименте могут испортить ваши результаты, сделав их не поддающимися обобщению.
Угрозы внешней достоверности подрывают вашу уверенность в том, что результаты вашего исследования применимы к другим ситуациям.Они объясняют, как вы могли ошибаться, делая обобщения. Например, ваш вывод может быть неверным, изменения в зависимой переменной могут быть вызваны не изменениями в независимой переменной, а изменение зависимой переменной может быть вызвано другими причинами. Например, посторонние переменные могут конкурировать с независимой переменной, чтобы объяснить результат исследования.Некоторые конкретные примеры угроз внешней действительности:
- Ваша выборка выбрана случайным образом? В противном случае это может привести к смещению выборки.
- Вы включили предварительный тест? В некоторых экспериментах предварительные испытания могут повлиять на результат. Предварительный тест может подсказать испытуемым, как они должны отвечать или вести себя.
- Сдают ли ваши участники несколько версий одного и того же теста? В таком случае эффект практики может повлиять на ваши результаты. Например, на шкалу интеллекта Векслера для детей сильно влияет эффект практики.
- Состоит ли ваша выборка из однородной совокупности, как и все люди с низкой успеваемостью или все отличники? В таком случае ваши результаты, вероятно, не будут распространяться на «среднего» человека.
- Испорчены ли результаты вашего исследования эффектом Хоторна? Участники вашего исследования могут вести себя по-другому, потому что они знают, что участвуют в экспериментальном исследовании.
Нужна помощь с домашним заданием или контрольным вопросом? С помощью Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области. Ваши первые 30 минут с репетитором Chegg бесплатны!
Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .
9.1 Внутренняя и внешняя действительность
Эта книга находится в Open Review . Мы хотим, чтобы ваши отзывы сделали книгу лучше для вас и других студентов. Вы можете аннотировать некоторый текст, выделив его курсором, а затем щелкнув во всплывающем меню. Вы также можете увидеть аннотации других пользователей: нажмите в правом верхнем углу страницы
Внутренняя и внешняя действительность
Ключевая концепция 9.1
Внутренняя и внешняя действительность
Статистический анализ имеет внутреннюю валидность, если статистический вывод, сделанный о причинных эффектах, действителен для рассматриваемой совокупности.
Считается, что анализ имеет внешнюю валидность, если выводы и заключения действительны для исследуемой популяции и могут быть обобщены для других популяций и условий.
Угрозы внутренней действительности
Существуют два условия внутренней действительности:
Оценка причинного эффекта, которая измеряется интересующим коэффициентом (коэффициентами), должна быть беспристрастной и последовательной.
Статистический вывод действителен, то есть тесты гипотез должны иметь желаемый размер, а доверительные интервалы должны иметь желаемую вероятность охвата.
При множественной регрессии мы оцениваем коэффициенты модели с помощью OLS. Таким образом, для выполнения условия 1. нам нужна несмещенная и непротиворечивая оценка МНК. Чтобы второе условие было действительным, стандартные ошибки должны быть действительными, чтобы проверка гипотез и вычисление доверительных интервалов давали результаты, заслуживающие доверия.Помните, что достаточным условием для выполнения условий 1 и 2 является выполнение предположений ключевой концепции 6.4.
Угрозы внешней действительности
Внешняя достоверность может быть недействительной
, если есть различия между исследуемой и интересующей популяцией.
, если есть различия в настройках рассматриваемых популяций, например, правовая база или время расследования.
Внутренняя и внешняя валидность (общая)
Педагогическая психология, интерактивная: внутренняя и внешняя валидность (общая)Внутренняя и внешняя действительность
Общие вопросы
Разработано: W. Huitt, J. Hummel, D. Kaeck
Последняя редакция: январь 1999 г.
Внутренняя действительность
Одним из ключей к пониманию внутренней действительности (IV) является признание того, что когда это связано с экспериментальным исследованием, это относится как к тому, насколько хорошо было проведено исследование выполнение (план исследования, используемые операционные определения, как измерялись переменные, какие измерялось / не измерялось и т. д.), и насколько уверенно можно сделать вывод, что изменение зависимая переменная была произведена исключительно независимой переменной, а не посторонней единицы. В групповых экспериментальных исследованиях И.В. отвечает на вопрос: «Действительно ли это лечение, которое вызвало разницу между средними / отклонениями субъектов в контрольные и экспериментальные группы? »Аналогичным образом, в исследованиях с одним субъектом (например, ABAB или несколько базовых показателей), IV пытается ответить на вопрос: «Верю ли я, что это было мое лечение, которое вызвало изменение в поведении субъекта, или это могло быть результат какого-то другого фактора? »В описательных исследованиях (корреляционных и т. д.) внутренний валидность относится только к точности / качеству исследования (например, насколько хорошо исследование было см. начало этого абзаца).
В своей классической книге по экспериментальным исследованиям Кэмпбелл и Стэнли (1966) идентифицируют и обсудить 8 типов посторонних переменных, которые, если их не контролировать, могут поставить под угрозу внутренняя достоверность эксперимента.
- История — Это уникальные переживания, которые субъекты получают между различными измерения, сделанные в эксперименте.Эти впечатления действуют как дополнительные и незапланированные, независимые переменные. Кроме того, опыт, вероятно, будет отличаться в зависимости от предметы, которые по-разному влияют на ответы испытуемых. Исследования, требующие повторные меры в отношении субъектов с течением времени с большей вероятностью будут зависеть от истории переменные, чем те, которые собирают данные за более короткие периоды времени или которые не используют повторные меры.
- Созревание — Это естественные (а не навязанные экспериментатором) изменения, которые происходят в результате нормального течения времени.Например, чем больше времени проходит исследование, субъекты с большей вероятностью устают и скучают, более или менее мотивированные, как функция голода или жажды, старости и т. д. Как отмечают Исаак и Майкл (1971), субъекты могут работать лучше или хуже по зависимой переменной не в результате независимая переменная, но потому что они старше, более / менее мотивированы и т. д.
- Тестирование — Многие эксперименты предварительно проверяют субъектов, чтобы установить, что все субъекты начало учебы примерно на том же уровне и т. д.Следствие предварительного тестирования программ / протоколов заключается в том, что они могут испортить / изменить производительность субъектов в дальнейшем тесты (например, те, которые используются в качестве зависимых переменных), которые измеряют ту же область за пределами любых эффекты, вызванные самим лечением.
- Приборы — Изменение методов измерения (или их применения) во время учебы влияет на то, что измеряется. Кроме того, если используются люди-наблюдатели, это может быть суждением наблюдателя (ов), которое меняется с течением времени, а не испытуемыми. спектакль.
- Статистическая регрессия — Когда субъекты исследования выбираются в качестве участников потому что они набрали очень высокие или очень низкие баллы по некоторым показателям производительности (например, тест и т. д.), повторное тестирование испытуемых почти всегда приводит к другому распределение баллов, и среднее значение для этого нового распределения будет ближе к населения. Например, если все выбранные предметы изначально имели высокие баллы, среднее значение группы при повторном тестировании будет ниже (т.е, менее экстремально), чем было изначально. И наоборот, если бы среднее значение группы было изначально низким, их среднее значение повторного тестирования было бы выше.
- Выборка — Испытуемые в группах сравнения (например, контрольная и экспериментальная) должны быть функционально эквивалентными в начале исследования. Если они есть, то наблюдаются различия между группами, измеряемые зависимой (ыми) переменной (ами) производительности, конец исследования, скорее всего, будет вызван только независимой переменной, а не организменных.Если группы сравнения отличаются друг от друга на начало исследования результаты исследования необъективны.
- Экспериментальная смертность — Субъекты выбывают из исследований. Если одна группа сравнения испытывает более высокий уровень абстиненции / смертности субъектов, чем другие группы, тогда наблюдаемые различия между группами становятся сомнительными. Были ли наблюдаемые различия производятся независимой переменной или разными показателями отсева? (Смертность также угроза, когда показатели отсева примерно одинаковы в сравниваемых группах, но высоки.)
- Взаимодействие при выборе — В некоторых исследованиях метод выбора взаимодействует с одним или несколько других угроз (описанных выше), искажающих результаты исследования.
Внешнее действие
Степень, в которой результаты исследования (независимо от того, является ли исследование описательным или экспериментальный) может быть обобщен / применен к другим людям или настройкам, отражающим его внешний вид срок действия . Как правило, групповые исследования, использующие рандомизацию, первоначально будут иметь более высокая внешняя валидность, чем у исследований (например,g., тематические исследования и отдельные темы экспериментальное исследование), не использующие случайный выбор / назначение. Кэмпбелл и Стэнли (цитируется по Isaac & Michael, 1971) определили 4 фактора, которые отрицательно влияют на внешняя валидность исследования.
- Взаимодействие между тем, как были выбраны субъекты, и лечением (например, независимая переменная). Если субъекты не выбираются случайным образом из списка населения, то их конкретные демографические / организменные характеристики могут смещать их производительность и результаты исследования могут быть неприменимы к популяции или к другим группа, которая более точно представляет характеристики населения.
- Предварительное тестирование субъектов в исследовании может заставить их более / менее сильно реагировать на лечения, чем они были бы, если бы они не прошли предварительную проверку. В таких ситуациях исследователь (и) не может сделать вывод, что члены населения, не прошедшие предварительное тестирование будет работать аналогично участникам исследования. Переформулировано, чтобы обобщить результаты исследования, исследователь должен будет указать, что конкретный Тип предварительного тестирования также может быть проведен, потому что предварительное тестирование может служить дополнительным, непреднамеренная независимая переменная.
- Успеваемость испытуемых в некоторых исследованиях больше является продуктом или реакцией на экспериментальный , установка (например, ситуация, в которой проводится исследование), чем это к независимой переменной. Например, субъекты, которые знают, что они являются участниками исследования, или те, кто знает, что за ними наблюдают и т. д., могут по-разному реагировать на лечение чем субъект, который прошел лечение, но не знал, что за ним наблюдают и т. д.
- Исследования, в которых используется нескольких методов лечения / вмешательств , возможно, ограничили возможность обобщения, потому что раннее лечение может иметь кумулятивный эффект на производительность субъектов.Если группа прошла курс лечения X1, и первое лечение было за которым следует секунда (X2), на их измеренные характеристики после X2 будут влиять оба лечения, а не только X2, потому что эффекты X1 не стираются.
Повышение внутренней и внешней достоверности
В групповых исследованиях основные методы, используемые для достижения внутренней и внешней валидности. рандомизация, использование дизайна исследования и статистический анализ, которые соответствуют типам собранных данных, и вопрос (вопросы), которые исследует (и) пытаюсь ответить.Однопредметные экспериментальные исследования почти всегда имеют высокую внутреннюю валидность, потому что субъекты служат их собственными средствами контроля, но, как упоминалось ранее, крайне низкий с точки зрения внешней достоверности. Однопредметные исследования приобретают внешнюю валидность в процессе репликации и расширения (т. е. повторение исследования в разные настройки, с другой тематикой и т. д.). Результаты групповых исследований также более приемлемым для научного сообщества при воспроизведении.
Список литературы
- Кэмпбелл, Д.Т. и Стэнли Дж. К. (1966). Экспериментальные и квазиэкспериментальные проекты для исследований. Чикаго: Рэнд МакНелли.
- Исаак, С., Майкл, В. Б. (1971). Справочник по исследованиям и оценке. Сан Диего: РЕДАКТИРОВАТЬ.
Вернуться к:
Все материалы на сайте [http://www.edpsycinteractive.org] являются, если не указано иное, собственностью Уильям Г. Хайтт. Авторские права и другие законы об интеллектуальной собственности защищают эти материалы. Воспроизведение или ретрансляция материалов, полностью или частично, любым способом, без предварительного письменного согласия правообладателя, является нарушение закона об авторском праве.
Внешнее действие | Лэрдская диссертация
Угрозы внешней действительности
Угрозы внешней достоверности — это любые факторы в рамках исследования, которые снижают обобщаемость (или универсальность ) результатов. Диссертации могут пострадать от широкого круга потенциальных угроз внешней валидности, которые широко обсуждались в литературе (например, Campbell, 1963, 1969; Campbell & Stanley, 1963, 1966; Cook & Campbell, 1979).В этом разделе обсуждаются четыре основных угрозы внешней достоверности, с которыми вы можете столкнуться в ходе своего исследования, с соответствующими примерами. К ним относятся: (a) предвзятость выбора ; (b) конструкции, методы и смешение ; (c) «реальный мир» против «экспериментального мира» ; и (d) исторические эффекты и созревание . В следующих разделах каждая из этих угроз внешней действительности объясняется с соответствующими примерами.
Ошибки отбора и внешняя достоверность
Так как одна из основных целей диссертаций, в которых используются схемы количественного исследования, является обобщение исследуемой выборки на (a) из совокупности , из которой была взята выборка, и (b) в некоторых случаях , в популяциях , предвзятость выбора, возможно, является одной из самых серьезных угроз внешней валидности.Выборки состоят из единиц , которые могут быть людьми, случаями (например, организациями, учреждениями), частями данных и т. Д., Но мы фокусируемся на людях в наших объяснениях.
В этом разделе мы (a) объясняем, что такое предвзятость отбора и последствия, которые она имеет для внешней валидности, (b) представляем проблемы, возникающие при использовании добровольных участников, которые часто требуются по причинам исследовательской этики. и (c) подчеркивают значение использования студенческих выборок, часто используемых в диссертациях на уровне бакалавриата и магистратуры.Каждый из них обсуждается по очереди:
Что такое смещение выборки?
Как говорится, «Нет двух одинаковых людей». Они различаются по целому ряду факторов, таких как возраст, пол, рост, интеллект, отношение, поведение и т. Д. В экспериментальных исследованиях и квазиэкспериментальных вам необходимо убедиться, что группы эквивалентны , прежде чем вы начнете, иначе могут быть различия между экспериментальной и контрольной группами (т.е., до того, как будут сделаны какие-либо вмешательства), что может объяснить различия в баллах по зависимой переменной. Другими словами, вам нужно учесть таких индивидуальных отличия, , при выборе участников для вашего исследования.
Когда исследуемая выборка не представляет популяцию, на которую исследователь надеется сделать обобщение, имеется систематическая ошибка отбора. В случае смещения выборки трудно (или, возможно, невозможно, в зависимости от уровня смещения выборки) утверждать, что результаты, полученные из смещенной выборки, могут быть обобщены на более широкую совокупность.
Систематическая ошибка отбора может быть уменьшена в экспериментальных планах исследования , потому что одним из фундаментальных критериев является случайное распределение участников в разные группы , которые вы сравниваете с . Под случайным назначением мы подразумеваем, что участники в разных сравниваемых группах имеют схожих в диапазоне общих и конкретных характеристик. Некоторые из более общих характеристик при случайном распределении участников по разным группам включают такие факторы, как возраст и пол.Однако вы также можете принять во внимание конкретных характеристик, которые будут зависеть от характера проводимого вами исследования. Для сравнения, квазиэкспериментальных исследовательских проектов не включают случайного распределения участников по разным сравниваемым группам. Как показано в статье «Квазиэкспериментальный план исследования», такой квазиэкспериментальный план исследования мог быть выбран намеренно, или, возможно, не было возможности случайным образом распределить участников.Это может отражать сложность выполнения требований вероятностной выборки , таких как получение подробного списка изучаемой совокупности, который вынуждает вас выбрать маловероятную выборку [см. Раздел о стратегии выборки]; или вы можете изучать уже существующую группу, где невозможно разделить участников на разные группы (например, класс учеников из одной школы и класс учеников из другой школы). Следовательно, смещение отбора, вероятно, будет более значительной угрозой для внешней валидности, когда вы используете квазиэкспериментальный план исследования .
В конце концов, выборки не являются идеальным представлением популяций, даже при значительных расходах и внимании (т. Е. Даже при использовании методов вероятностной выборки и случайного присвоения ). В результате, когда другие исследователи пытаются воспроизвести исследование, возможно, что образцы не похожи (например, мужчин больше, чем женщин), так что будут получены разные результаты. В таких случаях важно оценить, были ли обнаруженные причинно-следственные связи или различия результатом лечения или различий в выборках (например,г., гендерный макияж). Однако дело не столько в плохой выборке (или, что более уместно, нерепрезентативной выборке), сколько в том факте, что посторонние переменные, которые относятся к характеристикам выборки, стали мешающими переменными, ограничивающими обобщаемость результатов [см. статья: Посторонние и мешающие переменные]. Более того, исследование, скорее всего, будет рассматривать только определенные характеристики населения; то есть он не обязательно будет искать все различия в изучаемых отношениях (обычно между двумя переменными) по характеристикам выборки (например,ж., возраст, пол, взгляды, личность и т. д.). Однако различия в характеристиках выборки могут ограничивать возможность обобщения результатов на более широкую совокупность.
Проблема волонтерской предвзятости
Ожидается, что участники участвуют в исследованиях добровольно. Это важный компонент исследовательской этики [см. Статью: Принципы исследовательской этики]. Однако исследования показали, что добровольцы не обладают теми же характеристиками, что и население в целом (например,г., Розенталь, Рошнов, 1975). Люди могут добровольно участвовать в исследовании с конкретными целями (например, по личным причинам), которые влияют на их реакцию в процессе исследования, будь то процедура измерения интервью, фокус-группы, опроса или чего-то еще.
Насколько характеристики добровольцев отличаются от общей популяции, вероятно, будет зависеть от явления, которое вы исследуете. Например, мужчины с большей вероятностью будут добровольно участвовать в исследованиях физических упражнений и силовых тренировок, в то время как женщины с большей вероятностью будут добровольно участвовать в исследованиях розничных привычек.Хотя это грубые стереотипы, важно осознавать такие различия между добровольцами, а также сложность выявления потенциальных различий. Подумайте о том, в каком исследовании вы, возможно, захотите (или не захотите) стать волонтером, и похожи ли (или не похожи) на вас другие люди, которых вы знаете.
Хотя не ожидается, что изучаемая вами выборка будет полностью репрезентативной для интересующей вас популяции, использование добровольцев добавляет дополнительный уровень потенциальной предвзятости.Это известно как смещение добровольцев . Поскольку такая предвзятость добровольцев снижает однородность (т. Е. Сходство) характеристик между вашей выборкой и интересующей вас популяцией, это ставит под угрозу (т. Е. Снижает) внешнюю валидность ваших выводов; то есть это угрожает вашей способности делать обобщения из вашей выборки для интересующей вас группы населения.
На практике избежать волонтерской предвзятости крайне сложно. Однако если спросить участников, почему они вызвались добровольцами, это может показать, в какой степени волонтерская предвзятость могла снизить внешнюю валидность ваших выводов.
Использование студенческих образцов
Если вы изучаете диссертацию на уровне бакалавриата или магистра, то обычно в качестве основных участников вашего исследования привлекают других студентов университета. Хотя это обеспечивает гораздо более доступную выборку, это неизбежно приведет к смещению выборки , уменьшая возможность делать обобщения для более широкой совокупности, которая вряд ли будет так сильно состоять из студентов университетов.
Дополнительные соображения
Очевидно, что систематическая ошибка отбора, в том числе предвзятость добровольцев и использование выборок студентов, может снизить степень репрезентативности выборок для популяций, из которых они взяты.Это уменьшает возможность делать обобщения из вашей выборки на более широкую совокупность . Однако степень, в которой ваши результаты могут быть обобщены для популяций , также будет зависеть от ширины из характеристик , которые включены в вашу выборку. Например, при выборке вы можете стратифицировать свою выборку, чтобы обеспечить репрезентативную пропорцию мужчин и женщин (т. Е. Пол), людей разного возраста и т. Д.Однако вы могли не различить другие характеристики изучаемого населения (например, уровень образования, род занятий и т. Д.). Это ограничит степень, в которой вы можете обобщить результаты для популяций .
Внешние размышления о валидности
Экстраполяция на отдельных лиц
Неоднородность в разных контекстах В некоторых случаях множественные вмешательства в разных контекстах в сочетании с тщательным анализом механизмов могут позволить нам понять, в каких случаях вмешательства с большей или меньшей вероятностью будут работать.Например, рассмотрим две статьи, оценивающие влияние расширения доступа к рабочим местам в промышленности: в одной в Бангладеш говорится, что женщины откладывают вступление в брак и повышают уровень образования, а в одной в Мексике говорится, что мужчины снижают уровень образования.
В каждом случае воздействие зависит от относительной отдачи от образования в каждой отрасли по сравнению с альтернативными вариантами занятости (или самозанятости). Это говорит о том, что что-то систематическое можно оценить в разных контекстах, которые могут сказать нам, что определяет воздействия.
Неоднородность между людьми Независимо от того, различаются ли воздействия в зависимости от контекста или от индивидуума, метааналитические подходы могут помочь нам формально оценить эту неоднородность. Например, в одной статье рассматривается серия микрофинансовых вмешательств в различных контекстах.
Они обнаружили, что эти меры систематически оказывают большее влияние на существующих предпринимателей, которые имеют более высокую отдачу на капитал, чем люди, которые еще не открыли свой бизнес. Затем мы могли бы использовать это для расчета вероятного воздействия в новом контексте, в зависимости от плотности предпринимателей с ограниченным доступом к кредитам.
Ненаблюдаемая неоднородность В других случаях экстраполяция включает различия, которые зависят не от чего-то наблюдаемого, а от некоторого рода отбора ненаблюдаемых характеристик отдельных лиц или мест. Например, отдельные люди различаются по своей доходности на капитал в зависимости от их доступа к выгодным инвестиционным возможностям, что трудно наблюдать напрямую.
Один документ демонстрирует, что эти высокодоходные люди, вероятно, будут брать ссуды, когда они будут предложены, путем сравнения воздействия денежных грантов на людей, которые выбирают ссуды, с влиянием денежных грантов на людей, которые этого не делают.Сравнивая воздействия на этих особенно нетерпеливых людей с менее активными, мы можем понять, как меняются воздействия вмешательства по мере того, как его интенсивность увеличивается и постепенно достигаются все менее и менее активные люди.
Внутренняя и внешняя действительность
Внутренняя действительность
Теперь давайте более подробно рассмотрим общие угрозы внутренней действительности. Знакомство с этими угрозами поможет вам выбрать схему оценки, цель которой — минимизировать такие угрозы в пределах имеющихся у вас ресурсов.
Приборы
Наблюдаемые изменения, наблюдаемые между точками наблюдения (т. Е. До и после тестирования), могут быть связаны с изменениями в процедуре тестирования. Это может включать изменения в содержании или режиме администрирования и сбора данных.
Советы включают:
- Следите за этим, если в вашем исследовании есть несколько точек наблюдения / тестирования
- Стремитесь к последовательности. Угрозы инструментальных средств можно уменьшить или устранить, приложив все усилия для поддержания согласованности в каждой точке наблюдения.Это включает в себя инструмент (анкета, тип набора для тестирования и т. Д.), Администраторов и метод администрирования (бумажный, телефонный и т. Д.)
Регрессия
Тенденция экстремальных предварительных оценок к среднему значению для населения, так что, когда люди отбираются для участия в программе на основе экстремальных результатов предварительного тестирования, их итоговые оценки будут иметь тенденцию сдвигаться к среднему баллу, независимо от эффективности программы. .
Советы включают:
- Избегайте отбора участников на основании экстремальных результатов или результатов.
Созревание
Это внутренняя угроза отдельного участника. Это вероятность того, что психические или физические изменения происходят внутри самих участников, что может объяснить результаты оценки. В общем, чем больше времени от начала до конца программы, тем больше угроза созревания.
Советы включают:
- Если это возможно в рамках ваших оценочных вопросов, сокращение времени между предварительным и последующим тестированием может ограничить угрозы созревания.
- Следует особенно внимательно относиться к этой угрозе при работе с детьми, поскольку они претерпевают серьезные психические и физические изменения.
Тестирование
Проведение предварительного тестирования перед программой может передать знания участникам.Эта конкретная угроза может либо преувеличить, либо преуменьшить эффект вашей программы.
Советы включают:
- Следите за этой угрозой всякий раз, когда есть план предварительного и последующего тестирования и нет группы сравнения, чтобы помочь контролировать кривую обучения при прохождении предварительного тестирования.
История
Наблюдаемые результаты программы могут быть объяснены событиями или опытом (внешними), которые влияют на человека в период между участием в программе и последующими действиями.
Советы включают:
- Оценщики должны сделать все возможное, чтобы выявить любые внешние события или изменения, которые могут повлиять на результаты их программы (освещение в СМИ, политика, основные события и т. Д.)
- Как и в случае угроз созревания, исторические угрозы могут быть уменьшены за счет ограничения времени отслеживания.
Выбор
Всякий раз, когда у вас есть неэквивалентная группа сравнения и группа воздействия, разница, наблюдаемая в их оценках после тестирования, может быть связана с ранее существовавшими различиями между группами, а не влиянием самой программы.Это вызывает особую озабоченность, когда группа воздействия и группа сравнения значительно отличаются друг от друга по характеристикам.
Советы включают:
- Будьте внимательны к этой потенциальной угрозе, если вы работаете с неэквивалентной группой сравнения.
Взаимодействие с угрозами выбора
- Выбор — История: Различия в выборе между участниками вмешательства и группами сравнения приводят к различиям в воздействии или влиянии исторических событий
- Отбор — Созревание: Различия в отборе между участниками вмешательства и группами сравнения приводят к различиям в эффектах созревания
- Выбор — Инструменты: Различия в выборе между участниками вмешательства и группами сравнения приводят к различиям в оценках инструментов
Другие угрозы могут появиться в ходе реализации плана оценки вашей программы.Как рандомизированные, так и нерандомизированные дизайны могут подвергаться риску, пока существует контрольная (рандомизированная) или сравнительная (нерандомизированная) группа:
- Распространение или имитация: Может произойти, когда люди в группе вмешательства взаимодействуют с людьми в группе контроля / сравнения. Такое перекрестное заражение через обмен информацией может уменьшить различия между группой вмешательства и контрольной группой / группой сравнения.
- Компенсационное выравнивание лечения: Часто администраторы считают свою программу полезной.Таким образом, может быть трудно согласиться с тем, что некоторые получают вмешательство, в то время как другие в контрольной группе или группе сравнения не имеют возможности. Чтобы исправить это, администраторы программы могут предлагать всю программу или ее часть тем, кто находится в группе контроля / сравнения, тем самым устраняя любой программный эффект между двумя группами.
- Компенсационное соперничество людей, получающих менее желательное лечение (эффект Джона Генри): Вмешательства можно рассматривать как предлагающие желательные свойства по сравнению с контрольной группой / группами сравнения.Если участники контрольной группы / группы сравнения знают, что получают менее желательные услуги, они могут попытаться компенсировать эту разницу, пытаясь превзойти группу вмешательства.
- Возмущенная деморализация респондентов, получающих менее желательное лечение: Опять же, если желаемые услуги не предоставляются тем, кто в контрольной группе / группе сравнения, вместо компенсации, они могут стать немотивированными или менее склонными к сотрудничеству.
Сценарии внутренней достоверности
Ниже приведены примеры оценок программ здравоохранения, каждая из которых указывает на конкретную угрозу для внутренней действительности.Для каждого сценария определите наиболее серьезную угрозу внутренней действительности. После того, как вы просмотрели все сценарии, выберите Показать ответы , чтобы просмотреть правильные ответы.
Сценарий 1 : В средней школе действует новая программа для восьмиклассников, направленная на повышение медиаграмотности в отношении алкоголя. Цель состоит в том, чтобы научить их «сообразить» потребителей рекламы и уменьшить влияние такой рекламы на потребление алкоголя. К сожалению, программа рассчитана только на 20 студентов.Оценщик решает провести предварительный тест для всех 200 восьмиклассников в школе и взять 10% с самыми низкими результатами теста. Инструментарий, регрессия, тестирование, созревание или угроза из истории?
Сценарий 2 : Оценщики проводят предварительный тест для оценки в виде опроса на бумаге и ручке, а затем для последующего тестирования решают адаптировать опрос к онлайн-версии.
Сценарий 3 : Программа «Здоровое сердце» — это однодневный семинар, нацеленный на ознакомление с выбором здоровой пищи и навыками приготовления пищи для снижения риска серьезных сердечных заболеваний.Проводится предварительный тест, чтобы узнать, насколько участники осведомлены о продуктах, полезных для сердца, и о том, как лучше всего их приготовить. На следующий день после семинара рассылается итоговый тест, чтобы определить влияние программы.
Сценарий 4 : Новая консультация по планированию семьи проводится в местной поликлинике, где высок процент женщин, сообщающих о нежелательной беременности. Инструкторы-сверстники используются для обсуждения вопросов планирования семьи и использования противозачаточных средств с женщинами, обращающимися в клинику.Оценщики наблюдали за участниками через год, чтобы записать использование противозачаточных средств и наличие каких-либо нежелательных беременностей. Группы сравнения не существует, поэтому оценщики смотрят только на группу, получившую консультацию. Они обнаружили, что с момента получения консультации уровень использования противозачаточных средств значительно увеличился. Тем не менее, оценщикам известно, что в прошлом году было принято постановление, предусматривающее бесплатные противозачаточные средства для женщин независимо от их страхового статуса.
Сценарий 5 : В 2010 году в одной государственной средней школе в Чарлстауне была проведена программа, нацеленная на пропаганду физической формы и здорового питания среди подростков.Сейчас 2015 год, и команда заинтересована в отслеживании текущего уровня активности и ИМТ участников, а также того, как он отличается от их оценок до начала программы по сравнению с государственной средней школой, расположенной в Саут-Энде.
Показать ответы- Сценарий 1: угроза регресса
- Сценарий 2: инструментальная угроза
- Сценарий 3: Тестирование угрозы
- Сценарий 4: Угроза созревания
- Сценарий 5: Историческая угроза
Ответьте на следующую серию истинных / ложных утверждений относительно внутренней достоверности.
Внешняя действительность
Применимость результатов оценки к другим группам, условиям и временным периодам часто является вопросом, на который нужно ответить после того, как внутренние угрозы достоверности будут устранены или сведены к минимуму.
Ниже представлена подборка внешних угроз, которые могут помочь вам сделать выводы об обобщаемости результатов вашего исследования:
- Взаимодействие отбора и лечения : Применяется ли воздействие программы только к этой конкретной группе, или оно также применимо к другим лицам с другими характеристиками?
- Взаимодействие тестирования и лечения : Если бы в ваш дизайн был включен предварительный тест, были бы ваши результаты такими же, если бы он был реализован без предварительного тестирования?
- Взаимодействие настройки и лечения : Насколько на ваши результаты влияет настройка вашей программы, и могли бы вы применить эту программу в других настройках и увидеть аналогичные результаты?
- Взаимодействие истории и лечения : Можно сказать, что чрезмерным упрощением будет сказать, насколько «вневременная» эта программа.