Что такое невалидность диагностических материалов
Что такое невалидность диагностических материалов
ЛЕКЦИЯ № 10. Сущность валидности
1. Определения валидности
Валидность (от англ. valid – «действительный, пригодный, имеющий силу») – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.
В наиболее простой и общей формулировке валидность теста – это «понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» А. Анастази, 1982). В стандартных требованиях к психологическим и образовательным тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы с помощью методики, а также о степени обоснованности выводов при использовании конкретных тестовых оценок или других форм оценивания. В психодиагностике валидность – обязательная и наиболее важная часть сведений о методике, включающая (наряду с указанными выше) данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретических ожиданий, наблюдений, экспертных оценок, результатов других методик, достоверность которых установлена и т. д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами. Валидность описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культурной принадлежности и т. д.) и степень обоснованности выводов в конкретных условиях использования теста. В совокупности сведений, характеризующих валидность теста, содержится информация об адекватности применяемой модели деятельности с точки зрения отражения в ней изучаемой психологической особенности, о степени однородности заданий (субтестов), включенных в тест, их сопоставимости при количественной оценке результатов теста в целом.
2. Важнейшие составляющие валидности
Важнейшая составляющая валидности – определение области изучаемых свойств – имеет принципиальное теоретическое и практическое значение при выборе методики исследования и интерпретации ее данных. Содержащаяся в названии теста информация, как правило, недостаточна для суждения о сфере его применения. Это лишь обозначение, «имя» конкретной процедуры исследования. В качестве примера можно привести широко известную корректурную пробу. Область изучаемых свойств личности включает устойчивость и концентрацию внимания, психомоторную подвижность. Данная методика позволяет получать оценки выраженности этих психологических качеств у испытуемого, хорошо согласуется с показателями, полученными другими методами, и, следовательно, обладает высокой валидностью. Наряду с этим результаты выполнения корректурной пробы подвержены влиянию большого количества других факторов (нейродинамических особенностей, характеристик кратковременной и оперативной памяти, индивидуальной переносимости монотонии, развития навыка чтения, особенностей зрения и т. д.), по отношению к которым методика не является специфичной. В случае применения корректурной пробы для их измерения валидность будет невелика или сомнительна.
Таким образом, очерчивая сферу применения методики, валидность отражает и уровень обоснованности результатов измерения. Очевидно, что при небольшом количестве сопутствующих факторов, влияющих на результат исследования, а значит, при их незначительном воздействии на результат теста достоверность тестовых оценок будет выше. Еще в большей степени достоверность данных теста определяется набором измеряемых свойств, их значимостью для осуществления диагностируемой сложной деятельности, полнотой и существенностью отражения в материале теста предмета измерения. Так, чтобы удовлетворить требованиям валидности, диагностическая методика, предназначенная для профотбора, должна включать анализ широкого круга нередко различных по своей природе показателей, наиболее важных для достижения успеха в данной профессии (уровеня внимания, особенностей памяти, психомоторики, эмоциональной устойчивости, интересов, склонностей и т. д.). Как видно из вышеизложенного, в понятие валидности входит большое количество самой разнообразной информации о тесте. Различные категории этих сведений и способы их получения образуют типы валидности.
Диагностическая (конкурентная) валидность отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической валидности имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования. Примером определения этого типа валидности может быть исследование по методу контрастных групп. Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической валидности оценки умственного развития, получаемой с помощью данной методики.
Сведения, характеризующие степени обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляют прогностическую валидность методики. Заключение об этом типе валидности может быть получено, например, путем сравнения тестовых оценок в одной и той же группе испытуемых спустя определенное время. Основой прогностической валидности является определение того, насколько важен исследуемый признак с точки зрения деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, перехода на другой уровень развития.
Большинство методик, особенно тестов способностей и интеллекта, исследуется на предмет диагностической и прогностической валидности. Два этих типа валидности нередко объединяют в понятие эмпирической валидности. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия (см. валидности критериальная). Критерий валидности выступает в качестве меры, показателя исследуемых психологических особенностей. Так, тесты специальных способностей проверяются путем сопоставления с результатами обучения по другим предметам, достижениями в музыке, рисовании и т. д. Тесты общих интеллектуальных способностей валидизируются сравнением с еще более широкими характеристиками школьных достижений (общей успеваемостью, овладением сложными системами знаний и навыков). Критерий валидности является независимым от теста показателем, обладающим непосредственной ценностью для определенных областей практической деятельности. Например, в области педагогической психологии это успеваемость, в психологии труда – производительность, в медицинской психологии – состояние здоровья и т. д. В качестве непосредственных критериев часто используются экспертные оценки и характеристики лиц, обследованных с помощью валидизируемого теста, данные педагогами, сотрудниками, руководителями.
Во многих случаях бывает сложно или невозможно подобрать адекватный критерий валидизации. При этом особую важность приобретает комплекс характеристик, входящих в тип теоретической валидности. При разработке и использовании теста может быть сформулирован ряд гипотез о том, как будет коррелировать исследуемый тест с другим тестом, измеряющим родственные или противоположные психологические характеристики испытуемых. Эти гипотезы выдвигаются на основании теоретических представлений об измеряемых свойствах как о психологическом конструкте. Подтверждение гипотез свидетельствует о теоретической обоснованности методики, т. е. о степени ее конструктной валидности. Этот тип валидности является наиболее сложным и комплексным. Для подтверждения соответствия получаемых с помощью теста результатов теоретическим ожиданиям и закономерностям используется самая различная информация, в том числе относящаяся к другим типам валидности.
Валидность содержательная (внутренняя, логическая) – комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Одним из основных требований при валидизации методики в этом направлении является отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность очень сложна, то содержательная валидность требует представления в заданиях теста всех важнейших составных элементов исследуемого явления. Так, при разработке теста вербального интеллекта необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по своему операциональному составу навыков письма и чтения.
Наряду с перечисленными основными типами валидности (содержательной, критериальной и конструктной) на практике выделяют факторную, перекрестную (конвергентную) и дискриминантную валидности.
3. Основные типы валидности (диагностическая, прогностическая, эмпирическая, критериальная, конструктная, содержательная). Классификация типов валидности
Классификация типов валидности в достаточной мере условна, так как, с одной стороны, нередко для различных критериев валидности применяются общие методы определения, – а стороны, одни и те же исходные данные могут интерпретироваться с точки зрения различных типов валидности.
Надежность и валидность
Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В результате появилась возможность оградить психологию от всевозможных безграмотных подделок, претендующих на то, чтобы называться диагностическими методиками.
К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям.
В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рассмотрения надежности методик.
В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу — 80. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать, что надежность методики — это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.
Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:
1) нестабильность диагностируемого свойства;
2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);
3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т. д.);
4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т. д.);
5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т. д.);
6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т. д. При такой стандартизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.
На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изменения ранговых мест испытуемых будут незначительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента случайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики — это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.
В данной работе при описании видов надежности основной упор делается на работы К. М. Гуревича, который, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надежность как комплексную характеристику, включающую:
— надежность самого измерительного инструмента;
— стабильность изучаемого признака;
— константность, т. е. относительную независимость результатов от личности экспериментатора.
Основные показатели он предложил обозначить следующим образом:
— показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности;
— показатель, характеризующий стабильность измеряемого свойства — коэффициентом стабильности;
— показатель оценки влияния личности экспериментатора — коэффициентом константности.
Именно в таком порядке рекомендуется осуществлять проверку методики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием константности.
Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.
Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.
Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.
Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.
Определение стабильности изучаемого признака. Определить надежность самой методики — это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть использован в диагностических целях.
Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.
При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.
Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В те-стологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.
Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).
Определение константности (относительной независимости результатов от личности экспериментатора). Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).
Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Итак, были рассмотрены три показателя надежности психодиагностических методик. Может возникнуть вопрос, нужно ли при создании методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.
Так, авторы «Стандартных требований к педагогическим и психологическим тестам» в главе «Надежность» отмечают, что коэффициент надежности — это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич [32]. По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность измеряемого свойства? Чего стоит диагностическая методика, если неизвестно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения.
Добавить комментарий Отменить ответ
Для отправки комментария вам необходимо авторизоваться.
Что такое невалидность диагностических материалов
Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Валидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом.
Анализируя сложную ситуацию с валидностью педагогических тестов, Е.Михайлычев 16 отмечает, что педагогу, заинтересовавшемуся валидностью, трудно будет разобраться в том, что же это такое.
Ниже мы приведем несколько определений валидности теста.
Приведенные определения в целом перекликаются и являются практически равноценными. Мы несколько уточним определение, сделав акцент на цель тестирования. Тестирование как измерительная процедура, дает информацию, на основе которой в дальнейшем должно быть принято то или иное управленческое решение. Обоснованность этих решений, зачастую сильно влияющих на судьбу испытуемых, определяется надежностью и валидностью теста.
ВАЛИДНОСТЬ – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений.
После создания теста начинается процесс его валидизации. Приведем определение:
По нашему мнению ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.
Рис.3.9.1. Виды валидности.
КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.
КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.
Имеется два вида критериальной валидности – текущая и прогностическая.
Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.
Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.
СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.
Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.
Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области.
Согласно П.Клайну содержательная валидность определяется следующим образом:
1) указать категорию лиц, для которой предназначен тест;
2) составить список знаний, умений, навыков, подлежащих тестированию;
3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
4) на основе списка составить перечень заданий;
5) выполнить внешнюю экспертизу полученных заданий;
6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, который будет содержательно валидным.
Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инструмента.