6.3. Тестирование и теория измерений - Учебное пособие рекомендовано


6.3. Тестирование и теория измерений

Тестирование (в частности, психологическое) является разновид­ностью процедуры измерения свойств объекта. Свойство — фило-

192

софская категория, выражающая такую сторону предмета, которая обусловливает его различия и общность с другими предметами и об­наруживается в его отношении к ним.

В логике под свойством понимается одноместный предикат вида Р(х): например, х-город — в отличие от отношения, которое также является одноместным предикатом. Свойство может быть много­местным предикатом, а отношение — одноместным, например:

"Петр любит самого себя". Свойство ограничивает область объек­тов, которым оно приписывается. В результате операции приписы­вания свойства объектов становится меньше, чем было до этого. От­ношение же всегда образует новые объекты, например, Р (х, у, z), где х — мужчины,у — женщины, z — дети; если Р — генетическое отношение, то связанные этим отношением х, у и z дают новый объект — человечество.

Отсюда ясно, что, вводя понятие "свойство", мы выделяем класс психических сущностей, которые этим свойством обладают.

Свойства классифицируются по наличию интенсивности и ее из­менениям. При этом различают три основных типа свойств:

а) точечные;

б) линейные;

в) многомерные.

Рассмотрим первый тип: точечные свойства. Человек может быть:

либо мертвым, либо живым; или мужчиной, или женщиной; или холериком, или сангвиником. Ни одна женщина не может быть чуть-чуть беременной. Существуют свойства, которые не имеют интен­сивности и могут рассматриваться как точечные или "свойства ну­левого измерения". Такие свойства обладают определенностью, ка­чественной, но не количественной.

Второй тип свойств образуют линейные свойства (одномерные свойства). Последний термин, с нашей точки зрения, более удачен. Другие линейные свойства, присущие предмету, всегда имеют оп­ределенную интенсивность, причем могут изменяться лишь в на­правлении уменьшения или увеличения этой интенсивности. Тако­вы масса, упругость, вязкость, мощность, температура, физическая сила человека, его рост и т.д. Отметим, что большинство психичес-ких'свойств относится традиционно к этому типу. В частности, фак­торная теория интеллекта вводит понятия: "общий интеллект", "кре­ативность", "дивергентное мышление", основываясь на том, что эти свойства являются одномерными (линейными).

Одномерные (линейные) свойства помимо качественной опре­деленности обладают также количественной. Обычно вводится по­нятие интервала интенсивности, под которым понимается вся сово-,

7 Экспериментальная психологи 193

купность интенсивностей данного свойства (диапазон интенсивнос­ти). Физические свойства такого рода называются скалярами.

Примером двухмерных свойств являются векторные величины. Двухмерные свойства можно представить как комбинацию одномер­ных (разложение вектора на плоскости — комбинация скалярных ве­личин: величины угла и длины отрезка). Их обобщением являются многомерные свойства, которые можно определить как свойства, способные изменяться вп-отношениях: пространственные векторы в математике, тензоры в физике и т.д.

Между точечными, линейными и многомерными свойствами су­ществует простое отношение сводимости: многомерное свойство может быть представлено как совокупность линейных свойств, али-нейное — как множество точечных свойств. Соответственно набор точечных свойств можно представить в качестве псевлолинейного свойства, а набор линейных — как псевдомногомерное свойство.

Можно теоретически предусмотреть 4-й случай, когда свойство качественно не определено. Это парадоксально только на первый взгляд. Возможен вариант: есть некое число, но неясно, представля­ет ли оно какое-либо свойство.

Таким образом, можно ввести следующую типологию свойств:

1) свойство не определено;

2)точечное свойство;

3) линейное свойство;

4) многомерное свойство.

Рассмотрим на качественном уровне общую структуру психоло­гического тестирования — применение теста, призванного измерить определенное свойство.

Психологический тест включает в себя некоторую совокупность заданий, инструкции: испытуемому— правило работы с тестом, экс­периментатору — правило организации работы испытуемого с тес­том и правило работы с данными, а также теоретическое описание с указанием свойств, измеряемых тестом, шкал (топологии свойства) и метода введения шкальной оценки. Указываются также психомет­рические параметры теста.

С теоретической точки зрения для измерения свойства и интерпрета­ции тестового балла следует описать типичную структуру и процедуры тес­тирования с позиций взаимодействия испытуемого и экспериментатора.

Испытуемые, обладающий свойством (Р,), должен выполнить (f|) задания теста (Z), дать ряд ответов (J). Экспериментатор должен этот ряд ответов (J) отобразить (F^) на "модели совокупности испытуе­мых", т.е. совокупности измеряемых свойств (Р), чтобы получить некоторый результат тестирования.

194

Тем самым существуют два типа процедур: собственно тестиро­вание — взаимодействие испытуемого с тестом и интерпретация — "взаимодействие" данных испытуемого с "моделью совокупности испытуемых". Получаем два отображения — F:P->JuF:J^P. Идеальная обобщенная модельтеста, возникающая из процедуры тес­тирования, тем самым должна включать в себя:

1) описание вида отображений F, и F^ (они должны быть тожде­ственными);

2) описание топологии свойства;

/ ' л л

3) характеристику индикаторов (ответов испытуемого) J и задач Z. Индикаторы являются поведенческими признаками и также, как свойства, могут быть: 1) не определены; 2) дискретны; 3) линейны;

4) многомерны. В обычном случае мы имеем дискретные индикато­ры: отдельные поведенческие акты. Искусственным методом (сум­мируя индикаторы) мы образуем при интерпретации псевдолиней­ное свойство, получая "сырой" балл. Возникает проблема: в каких случаях можно это делать? Кроме того, существуют некоторые от­ношения на множествах испытуемых и индикаторов.

Если свойство не определено, то единственное отношение, которое можно установить на множестве испытуемых, — это отношение сходства.

Если свойство является точечным, то на множестве испытуемых можно ввести отношения эквивалентности (обладает свойством), неэквивалентности (не обладает свойством) и применить дихотоми­ческую классификацию.

Наконец, если свойство линейное или многомерное, то испытуе­мых можно шкалировать по их положению налинейном континуу­ме или в пространстве.

Поступаем так и в отношении индикаторов. Они могут быть эк­вивалентны или неэквивалентны, определены или не определены, шкалированы или не шкалированы.

Следовательно, в зависимости от вида отношений, которые мы вводим на множестве испытуемых (определяется природой свойст­ва) или индикаторов (определяется описанием поведения и заданий), получаем разные модели теста. Кроме того, необходимо учесть вид отображений — f| и Fy которые представляют собой решающие пра­вила соотнесения индикаторов со свойством. Они зависят от интер­претации процедуры тестирования. Ниже мы рассмотрим некото­рые возможные модели.

Итак, возможны следующие модели теста, основанные на раз­личной топологии измеряемого свойства.

1. Если свойство не определено, то необходимо рассматривать отношение различия на множестве людей. Это отношение порожда-

7* 195

ет новый класс объектов. Отсюда — тест выявляет меру сходства каж­дого человека с "человеком-эталоном".

2. Если свойство качественно определено, то оно рассматривает­ся как точечное, что позволяет ограничить класс объектов — выде­лить людей, обладающих свойством, и людей, им не обладающих.

Тест позволяет в этом случае произвести дихотомическую клас­сификацию.

3. Если свойство линейное или многомерное, то можно выявить величину свойства, характеризующую каждого человека.

Тест позволяет измерить свойство количественно.

Существует множество конкретных тестовых методик, которые можно классифицировать по самым разным основаниям. В настоя­щее время психологический тест рассматривается как набор зада­ний, т.е. измерительный инструмент, обнаруживающий свойство. Общее название для заданий — пункты теста. Испытуемому предла­гаются варианты ответа по отношению к каждой задаче. Ответ реги­стрируется и считается индикатором (признаком), обнаруживающим свойство. Варианты ответа могут быть разными, но чаще использу­ются такие: "да" — "нет", "решил" — "перешил" и др. Каждый ин­дикатор, сочетание пунктов — ответ, соотносится с ключом, кото­рый приписывает индикатор определенному свойству.

В основе подобной процедуры лежит модель, предложенная еще К.Левиным, — поведение есть функция личности и ситуации: В = =f(P, S). Решается иная задача: восстановить свойство личности по поведению в ситуации: ситуацией является пункт теста, а поведени­ем — ответ испытуемого: Р = f(B, S). Таким образом, каждый инди­катор свойства есть соединение поведения и ситуации: J = В & S. Тем самым личность есть производное от совокупности индикато­ров: P=f(J).

Многомерный тест измеряет не одно, а несколько свойств лич­ности, поэтому в общем случае имеется матрица вида J х Р, каждый индикатор соотносится со свойством.

Процедура обнаружения свойств, к которой сводится тестовое измерение, завершается выводом суммарного балла. Такое отноше­ние между индикаторами и тестом называется кумулятивно-аддитив­ной моделью. "Сырой" балл считается оценкой, характеризующей испытуемого.

Наиболее часто эту оценку считают оценкой "интенсивности" свойства.Тем самым явно или неявно принимается гипотеза о том, что относительная частота обнаружения свойства прямо пропорци­ональна "интенсивности" свойства: у = k (m/n) + С, где m/n — от­ношение числа обнаруженных признаков к общему числу испыта-

196

ний, у — "интенсивность" свойства, а k и С — некоторые константы. Очевидно, что неявным образом для измерения психологических особенностей индивидов применяется интервальная шкала.

Гипотезу о наличии подобной связи называют также гипотезой эквивалентности интенсивности и экстенсивности проявления свой­ства.

Кумулятивную гипотезу проверяют путем корреляции результа­тов применения различных методик. В частности, при измерении мотивации в качестве базовой методики используется предложен­ный Мюрреем Тест тематической апперцепции (ТАТ). Он состоит из нескольких картинок с изображением людей в определенных си­туациях. Испытуемому предлагается составить рассказ по поводу каждой ситуации. Его высказывания анализируются. Выявляется по известным ключевым признакам связь высказываний с определен­ной мотивацией. Число высказываний, относящихся к тому или иному мотиву, характеризует величину его интенсивности. Куму­лятивная гипотеза является в этом случае переводом на математи­ческий язык известной поговорки: "У кого что болит, тот о том и говорит". Считается, что количество "речевых продуктов" пропор­ционально силе мотива. Число признаков психологического свой­ства при этом не фиксировано, а может быть только соотнесено со средним значением по выборке. Опросники, разработанные для диаг­ностики мотивации, сопоставляются с методикой ТАТ. При нали­чии высокого положительного коэффициенталинейной корреляции результатов кумулятивно-аддитивная модель принимается и для об­работки данных личностного опросника.

Критическую оценку применения кумулятивно-аддитивной мо­дели дал Р.Мейли. Он полагал, что и методика типа ТАТ, и опрос-ники (особенно — на самооценку) измеряют только вероятность на­личия у испытуемого того или иного психологического свойства.

Критика, с которой выступает Мейли, носит только качествен­ный характер и не имеет математического или эмпирического обо­снования.

Процедура суммирования баллов сама по себе не плоха и не хо­роша: важно выявить природу итоговой оценки. Суммарный балл мо^ет характеризовать близость испытуемого к некоторому эталону испытуемого, вероятность его принадлежности к конкретному типу, а с помощью оценки определяется его место на шкале порядка или интервалов. Вид интерпретации тестового балла зависит от приня­той разработчиком модели.

Традиционные обобщенные измерительные модели теста явля­ются математическими, описывающими взаимодействие измеритель-

197 с

ного инструмента (теста) и объекта измерения (человека). Основная особенность этих моделей: они применялись для обоснования мето­да обработки данных тестирования в целях выявления латентного свойства.

В отношении психологического свойства можно сделать следую­щие теоретические предположения. Первое, наиболее простое, за­ключается в том, что нам неизвестно, есть свойство или нет. Утверж­дение кажется парадоксальным, однако дело в том, что психическое свойство — некоторое теоретическое допущение, и, если у нас нет достаточных оснований пользоваться этим понятием для объясне­ния поведения, лучше к нему не прибегать. Второй вариант допу­щения состоит в том, что свойство есть, но нам неизвестна его топо­логия: неясно, является ли это свойство точечным, линейным, многомерным и т.д. Третье возможное утверждение: нам известна топология свойства. Свойство — одномерный континуум (непрерыв­ный) и может быть измерено некоторой порядковой или метричес­кой шкалой (шкала наименований не является шкалой в строгом смысле этого слова).

По отношению к взаимодействию испытуемого и теста возмож­ны два допущения:

1) появление признака строго детерминированно и соответственно детерминирован тип ответа;

2) взаимодействие испытуемого и задания определяет вероятность получения того или иного ответа. Чаще применяется вероятностная модель.





Валидность признаков 198

Множество свойств имеет определенную структуру. Традицион­но полагается, что тестируемые свойства должны бытьлинейно не­зависимы, хотя в общем случае это условие необязательно.

Каждое свойство имеет определенную топологию: она может быть не определена, а свойство — точечно, линейно, многомерно.

I. Тест измеряет свойства некоторых объектов, принадлежащих определенному множеству 0-совокупности потенциальных испы­туемых. В руководстве к тесту оговариваются характеристики мно­жества испытуемых, для которых он предназначен. Тем самым оп­ределено некоторое множество О с отношениями между его элемен­тами. Эти отношения связаны с топологией свойства. Если тополо­гия свойства не определена, то на множестве испытуемых можно вводить только отношения сходства, не соответствующего правилу транзитивности отношений. Если свойство является точечным, то, согласно его определению, оно позволяет отделить испытуемых, об­ладающих свойством, от испытуемых, им не обладающих. То есть на множестве испытуемых можно ввести отношения эквивалентности— неэквивалентности, свидетельствующие о степени обладания свой­ством. Наконец, если свойстволинейное, то испытуемых можно рас­положить на линейном континууме и ввести метрику.

2. Тест включает в себя множество заданий (Z) и вариантов отве­тов испытуемого (R), которые оговорены в предлагаемой ему ин­струкции (решил—не решил, да—нет, хорошо—средне—плохо и т.д.). Декартово произведение Zx R = J дает нам множество индикаторов (признаков) измеряемого свойства. Индикаторы могут быть отно­сительно свойства разнородны, однородны (т.е. на них могут быть введены отношения эквивалентности), шкалированы (область раз­ной "силы").

Отношения на множестве индикаторов независимы от отноше­ний на множестве испытуемых, т.е. от топологии свойства. Это пра­вило соответствует принципу объективности метода измерения:

свойства прибора (в нашем случае — тестовых заданий) не зависят от свойств объекта.

а л

3. Между множествами испытуемых (О), индикаторов (J) и свойств (Р) существуют определенные отношения, которые можно разбить на отношения измерения и интерпретации. Измерение — это творческий подход испытуемого (испытуемых) к работе с тес­том, "порождение" ответов на задания (признаков).

Интерпретация заключается в том, что на основе этих признаков экспериментатор при работе с "ключом" теста выявляет свойства испытуемого и относит его к определенной категории (подмноже­ству множества испытуемых).

199

Отношения измерения:

1. Отображение множества свойств на множество испытуемых вида F,: Р-> 6 дает представление об отношении измеряемых свойств к испытуемым. Например: испытуемые могут обладать или не обла­дать той или иной интенсивностью свойства и т.д.

Каждое свойство характеризуется вектором вида <0^,0у ..., 0^>, где О — величина, показывающая на принадлежность свойства Р испытуемому 0^.

Обычно Р. характеризует распределение испытуемых, на кото­рых апробировался тест, по отношению к пространству свойств.

2. Отображение F^: P—>J определяет процесс измерения. Каждое свойство характеризуется вектором , где i^—величина, определяющая, в какой мере свойство Р детерминирует индикатор J^. Если описание теста сопровождается данными факторного или латентно-структурного анализа, то эта величина отражает "нагруз­ку" фактора на пункт теста.

3. Отображение Fy 6 —> Р позволяет оценить результат измере­ния и определить, какие признаки проявил испытуемый при выпол­нении теста. Каждый испытуемый характеризуется вектором , где i^ — величина, указывающая, в какой мере испытуемый О, проявил признак !у Обычно признаки проявляются дихотоми­чески: решил — не решил, да — нет; иногда привлекаются непре­рывные величины: время решения задания, шкальная оценка и т.д.

Этот вектор характеризует ответы испытуемого на тест и подвер­гается процедуре интерпретации.

Отношения интерпретации:

1. Отображение множества J на множество О вида ^ Fy J —> О дает представление о первичной структуре данных.

Каждый индикатор характеризуется вектором <0,, Оу ..., 0^>. При тестировании способностей этот вектор позволяет определить, какие испытуемые решили те или иные задачи.^

2. Отображение множества J на множество Р вида F^.: J —> Р ука­зывает на процесс интерпретации тестового балла, точнее — вектора обнаруженных признаков. Каждый индикатор характеризуется век­тором <р.|, Р.,, Рз,..., Р.д>, где Р, — величина, определяющая "вес" индикатора по отношению к свойству. В инструкции к тесту "вес" индикатора используется для подсчета накопленного балла. Он со­ответствует "нагрузке" фактора на пункт теста. По отображению F^ можно говорить о процедуре подсчета "сырого"^балла.

3. Отображение множества О на множество Р вида F^,: О —> Р ха­рактеризует интерпретацию — приписывание свойства или опреде­ленного уровня его интенсивности конкретному испытуемому (груп-

200

пе испытуемых). Каждый испытуемый характеризуется вектором <Р^, Ру, ..., Ру>, где Р — величина, определяющая, в какой мере свойство Р выражено у испытуемого О.. Эта величина является ито­гом процесса интерпретации — "психологическим портретом" ис­пытуемого. С позиции обобщенной модели основное требование к тесту заключается втом, чтобы процедуры интерпретации и измере­ния были тождественными. Иными словами, тождественными долж­ны быть обратные отображения F, и f|., F^ и F^,, F^ и F^.. В против­ном случае результаты интерпретации будут расходиться с результа­тами измерения (тестирования).

Описания множеств О, J, Р, Z, Ки видов отображения F,,, F^., F.,. определяются в ходе разработки теста и включаются в теоретическое описание теста и в инструкцию экспериментатора.

Поскольку тест направлен на измерение психического свойства (в частности, способности), вид конкретной модели, описывающей тест, определяется топологией свойства.

Рассмотрим варианты нормативной обобщенной модели теста для одномерного случая, когда измеряется только одно свойство:

(.Свойство не определено.

Если топология свойства не определена, то это означает, что мно­жество испытуемых нельзя (в соответствии с определением понятия "свойство") разбить на подмножества, обладающие или не обладаю­щие свойством. Иначе: на множестве испытуемых нельзя ввести от­ношения эквивалентности—неэквивалентности. Однако на множе­стве испытуемых можно ввести отношения толерантности (сходст­ва). Это отношение рефлексивно, симметрично, но не транзитивно. Множество индикаторов J нельзя характеризовать по отнесенности к свойству, так как Р — множество свойств, качественно не опреде­ленных. Следовательно, каждый испытуемый характеризуется лишь структурой своих ответов.

Единственно возможный способ интерпретации таких результа­тов — выделение из множества испытуемых "эталонного испытуе­мого" (например, решившего все задачи теста). После этого произ­водится подсчет коэффициентов сходства всех испытуемых с "эта­лоном".

"Назовем этот вариант модели "моделью сходств". В психологи­ческих исследованиях она применяется редко. Очевидно, свою роль ифает стремление исследователей максимально повысить мощность интерпретации данных.

2. Свойство качественно определено. Топология свойства определена: оно является точечным. На мно­жестве испытуемых можно ввести отношение эквивалентности—не-

201

эквивалентности (рефлексивное, симметричное, транзитивное), ука­зывающее на наличие или отсутствие у них свойства. Следователь­но, отображение F.: О —> Р является отображением множества на точку. Вектор значений Р характеризует индивидуальную меру вы­раженности свойства (в вероятностной интерпретации — вероятность его наличия) у испытуемого. Соответственно определены все ото­бражения F„, F-., F^. (и обратные им). Если испытуемые обладают/ не обладают свойством, то их можно разбить на основании резуль­тата тестирования на классы, имеющие и не имеющие свойства. При интерпретации данных используется следующий алгоритм: фикси­руются индикаторы, проявленные испытуемым, подсчитывается ин­дивидуальный показатель наличия или отсутствия у него свойства и принимается решение о его принадлежности к одному из дихотоми­ческих классов — А и А (обладающих и не обладающих свойством).

Назовем эту модель моделью дихотомической классификации. Она использована в опросникахЛичко,опросникахУНП и ряде других.

3. Свойство качественно и количественно опре-д е л е н о.

Свойство является линейным континуумом, следовательно, на нем определена метрика. Отображение F,: О -> Р указывает на меру принадлежности испытуемых к той или иной градации свойства (точ­ке линейного континуума).

В этом случае для подсчета величины, характеризующей принад­лежность испытуемого к определенной интенсивности свойства, применяют кумулятивно-аддитивную модель: число признаков, про­явленных при выполнении заданий теста (с учетом "весов"), прямо пропорционально интенсивности свойства, которым обладает испы­туемый. 3i а модель есть отображение Fy: Р-> 6. Тем самым приме­няется следующая интерпретация: фиксируются ответы испытуемо­го; вычисляется "сырой" балл; испытуемый обладает определенной интенсивностью свойства на основе отображения "сырого" балла на шкалу, характеризующую свойство. Эта модель — модель латентно­го континуума — является наиболее распространенной при тестиро­вании психических свойств.

Индикаторы свойства также могут быть однородными и разно­родными. В последнем случае они шкалируются или не шкалируют­ся. Если индикаторы однородны, то они выявляют свойство или уро­вень его интенсивности с равной вероятностью. Если индикаторы разнородны, то они выявляют свойство или уровень его интенсив­ности с разной вероятностью. На множестве индикаторов может быть введена некоторая мера — "сила" признака: чем сильнее признак, тем с большей вероятностью он выявляет свойство или определен-

202

ный уровень его интенсивности. В этом случае для описания теста мы получаем так называемую модель Раша.

^ 6.4. Классическая эмпирико-статистическая теория теста

Классическая теория теста лежит в основе современной диффе­ренциальной психометрики.

Описание оснований этой теории содержится во многих учебни­ках, пособиях, практических руководствах, научных монографиях. Количество изданных учебников, излагающих эмпирико-статисти-ческую теорию теста, особенно выросло за последние 5—Улет. Вместе с тем в учебнике, посвященном методам психологического исследо­вания, нельзя хотя бы вкратце не упомянуть основные положения теории психологического тестирования.

Конструирование тестов для измерения психологических свойств и состояний основано на шкале интервалов. Измеряемое психичес­кое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.

В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест такой же измерительный прибор, как вольтметр, термометр или барометр, и результаты, которые он показывает, зависят от величи­ны свойства у испытуемого, а также от самой процедуры измерения ("качества" прибора, действий экспериментатора, внешних помех и т.д.). Любое свойство личности имеет "истинный" показатель, а по­казания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и "систематическая" по­грешность, но она сводится к прибавлению (вычитанию) константы к "истинной" величине параметра, что для интервальной шкалы значения не имеет.

Если тест проводить много раз, то среднее будет характеристи­кой "истинной" величины параметра^ Отсюда вводится понятие ре-тестовой надежности: чем теснее коррелируют результаты началь­ного и повторного проведения теста, тем он надежнее. Стандартная погрешность измерения:

203



где

о^ — стандартное отклонение,

г„ — коэффициент корреляции тест—ретест.

Предполагается, что существует множество заданий, которые мо­гут репрезентировать измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщепление его на эквивалентные равные части.

Задания теста должны измерять "истинное" значение свойства. Все задания одинаково скоррелированы друг с другом. Корреляция задания с истинным показателем:

а2 — дисперсия для гсего теста.

Для определения надежности методом расщепления использует­ся формула Спирмена— Брауна.

В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется натом, чю результаты выполнения разных заданий можно суммировать с учетом весовых коэффициен­тов. Так получался "сырой'' балл.

У=Хд\ +с,

где

х_ — результат выполнения i-ro задания,

а — весовой коэффициент огвета,

с — произвольная константа.

По поводу того, откуда возникают "ответы", в классической тео­рии не говорится ни слова.

Несмотря на то что проблеме валидности в классической теории теста уделяется много внимания, теоретически она никак не реша­ется. Приоритет отдан надежности, что и выражено в правиле: ва-лидность теста не может быть больше его надежности.

Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше па результат выполнения теста или отдельного задания влияет изме­ряемое свойство и чем меньше — другие переменные (в том числе внешние), тем тест валидной и, добавим, надежнее, поскольку вли­яние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.

Но это противоречит классической теории теста, которая осно­вана не на деятельностном подходе к измерению психических свойств, а на бихевиористской парадигме: стимул — ответ. Если же рассматривать тестирование как активное порождение испытуемым о гвегов на задания, то надежное! ь теста будет функцией, производ­ной от валидности.

Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство.

- Тест невалиден (\\ ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.

Каким же образом определяется валидность? Все многочислен­ные способы доказательства валидности теста называются разными ее видам и.

1. Очевидная валидность. Тест считается валидным, если у испы­туемых складывается впечатление, что он измеряет то, что должен

205







где

r, — корреляция i-ro задания с истинным показателем t, r — средняя корреляция i-ro задания с другими. Поскольку в реальном монометрическом тесте число заданий ог­раничено (не более 100), то оценка надежности теста всегда прибли­зительна.

Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответст­вует тесту дли ной в 10 заданий, а при 30 заданиях она равна 0,007. Оценка стандартной надежности:

где

or— стандартная погрешность оценивания r ,

о — стандартное отклонение корреляций заданий в тесте,

к — число заданий в тесте.

Для оценок надежности используется ряд показателей.

Наиболее известна формула Кронбаха:

где

к — число заданий в тесте,

£o2 — сумма дисперсий заданий,

204

измерять.

2. ^ Конкретная валидность, или конвергентная—дивергентная. Тест должен хорошо коррелировать с тестами, измеряющими конкрет­ное свойство либо близкое ему по содержанию, и иметь низкие кор­реляции с тестами, измеряющими заведомо иные свойства.

3. ^ Прогностическая валидность. Тест должен коррелировать с от­даленными по времени внешними критериями: измерение интел­лекта в детстве должно предсказывать будущие профессиональные успехи.

4. Содержательная валидность. Применяется для тестов дости­жений: тест должен охватывать всю область изучаемого поведения.

5. ^ Конструктная валидность. Предполагает:

а) полное описание измеряемой переменной;

б) выдвижение системы гипотез о связях ее с другими перемен­ными;

в) эмпирическое подтверждение (не опровержение) этих гипо­тез.

С теоретической точки зрения единственным способом установ­ления "внутренней" валидности теста и отдельных заданий являет­ся метод факторного анализа (и аналогичные), позволяющий:

а) выявлять латентные свойства и вычислять значение "фактор­ных нагрузок" — коэффициенты детерминации свойством тех или иных поведенческих признаков;

б) определять меру влияния каждого латентного свойства на ре­зультаты тестирования.

К сожалению, в классической теории теста не выявлены причин­ные связи факторных нагрузок и надежности теста.

Дискриминативность задания является еще одним параметром, внутренне присущим тесту. Тест должен хорошо "различать" испы­туемых с разными уровнями выраженности свойства. Считается, что больше 9—10 градаций использовать не стоит.

Тестовые нормы, полученные входе стандартизации, представ­ляют собой систему шкал с характеристиками распределения тесто­вого балла для различных выборок. Они не являются "внутренним" свойством теста, а лишь облегчают его практическое применение.

^ 6.5. Стохастическая теория тестов (IRT)

Наиболее общая теория конструирования тестов, опирающаяся на теорию измерения, — Item Response Theory (IRT). Онаосновыва-

206

ется на теории латентно-структурного анализа (ЛСА), созданной \ П.Лазарсфельдом и его последователями. 1 Латентно-структурный анализ создан для измерения латентных (в том числе психических) свойств личности. Он является одним из вариантов многомерного анализа данных, к которым принадлежат факторный анализ в его различных модификациях, многомерное шкалирование, кластерный анализ и др.

Теория измерения латентных черт предполагает, что:

1. Существует одномерный конти нуум свойства — латентной пере­менной (х); на этом континууме происходит вероятностное распре­деление индивидов с определенной плотностью цх).

2. Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристикой кривой пункта. Если ответ имеет две градации ("да — нет", "верно — не верно"), то эта функция есть ве­роятность ответа, зависящая от места, занимаемого индивидом на континууме (х).

3. Ответы испытуемого не зависят друг от друга, а связаны только через латентную черту. Вероятность того, что, выполняя тест, испы­туемый даст определенную последовательность ответов, равна про­изведению вероятностей ответов на отдельные задания.

Конкретные модели ЛСА, применяемые для анализа эмпиричес­ких данных, основаны надополнительныхдопущенияхо плотности распределения индивидов на латентном континууме или о форме функциональной связи уровня выраженности свойства у испытуе­мого и ответа на пункт теста.

В модели латентного класса функция плотности распределения индивидов является точечно-дискретной: все индивиды относятся к разным непересекающимся классам. Измерение производится но­минальной шкалой.

В модели латентной дистанции постулируется, что вероятность ответа индивида на пункт теста является мультипликативной функ­цией от параметров задачи и величины свойства:

где

Р,(х) — вероятность ответа "да" на i-й пункт,

а — ''дифференцирующая сила" задания,

х — величина свойства,

Р,— "трудность" задания.

207



Вероятность ответа на пункт теста описывается функцией, изо Сраженной на графике.



где

F(x) — величина i-ro задания, Р^(х) — вероятность ответа на i-e задание.

Модель нормальной огивы есть обобщение модели латентной дис­танции. В ней вероятность ответа на задание такова:



где

-L(x) — плотность нормального распределения. В логистической модели вероятность ответа на задание описыва­ется следующей зависимостью:



распределения.

Логистическая модель используется наиболее широко, так как она специально предназначена для тестов, где свойство измеряется сум­мированием баллов, полученных за выполнение каждого задания с учетом их весов.

Логистическая функция и функция нормального распределения тесно связаны:

/ Ф(x)-\V(^,7x) \<0,01

(здесьф(х) — кумулятивная функция нормального распределения). Развитием ЛСАявляются различные модификации Item Response Theory. В IRT распределения переменных на оси латентного свой-208

ства считаются непрерывными, т.е. модель латентного класса не ис­пользуется.

База для IRT— это модель латентной дистанции. Предполагает­ся, что и индивидов, и задания можно расположить на одной оси "способность — трудность", или "интенсивность свойства — сила пункга". Каждому испытуемому ставится в соответствие только од но значение латентного параметра ("способности").

В общем виде вероятность ответа зависит от множества свойств испытуемого, но в моделях IRT рассматривается лишь одномерный случай.

^ Главное отличие IRT от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т.е. тест заранее считается валидным. Вся проце­дура сводится к получению оценок параметров трудности задания и к измерению "способностей" испытуемых (образованию "характе­ристических кривых").

В классической теории теста индивидуальный балл (уровень свой­ства) считается некоторым постоянным значением. В IRT латент­ный параметр трактуется как непрерывная переменная.

Первично моделью в IRT стала модель латентной дистанции, предложенная Г.Рашем: разность уровня способное ги и трудносчи Tecia х^ —р^, где х^ — положение i-ro испытуемого на шкале, ар— положение j-ro задания на той же шкале. Расстояние (х^ — р^) харак­теризует отставание способности испытуемого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, так как для данного испытуемого оно слишком сложно. Если же разница велика и положительна, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит.

Вероятность правильного решения задания (или ответа "да") i-м испытуемым:

Р,(^)=Г(х-Р,) Вероятность выполнения j-ro задания группой испытуемых:

Р^(х-Р^).

В IRT функции (х) и f(P) называются функциями выбора пункта. Соответственно первая является характеристической функцией ис­пытуемого, а вторая — характеристической функцией задания.

209







Считается, что латентные переменные х и (3 нормально расиреде лены, поэтому для характеристических функций выбирают либоло-гистическую функцию, либо интегральную функцию нормирован ного нормального распределения (как мы уже отмегилн выше, от, мало отличаются друг от друга).

Поскольку логистическую функцию проще аналитически зада вать, ее используют чаще, чем функцию нормальною распределс ния.

Кроме "свойства" и "силы пункта" (она же — трудность задания 1 в аналитическую модель IRT могут включаться и другие перемен ные. Все варианты IRT классифицируются по числу используемых i, них переменных.

Наиболее известны однопараметрическая модель Г.Раша. двух­параметрическая модельА.Бирнбаума и трехпараметрическая модель А.Бирнбаума.

В однопараметрической модели Pauia предполагается, чтоотвеч испытуемого обусловлен только индивидуальной величиной изме­ряемого свойства (й^) и "силой" тестового задания ([3). Следователь­но, для верного ответа ("да")

и для неверного ответа ("нет")



Наиболее распространена модель Раша с логистической функцией отклика.

Для тестового задания:



Естественно, чем выше уровень свойства (способности), тем ве­роятнее получить правильный ответ ("ключевой" огвет — "да"). Следовательно, функция Р (9) является монотонно возрастающей.

В точке "перегиба" характеристической кривой i-ro задания тес­та "способность" равна "трудности задания", следовательно, "веро­ятность его решения" равна 0,5.

210



ичевидно, что индивидуальная кривая испытуемого, характе­ризующая вероятность решить то или иное задание (дать ответ "да"), будет монотонно убывающей функцией.



В точке на шкале, где "трудность" равна "индивидуальной спо­собности испытуемого", происходит "перегиб" функции. С ростом "способности" (развитием психологического свойства) кривая сдви­гается вправо.

Главной задачей IRT является шкалирование пунктов теста и ис­пытуемых.

Упростим исходную формулу модели, введя параметр V= e91-^:





Шанс на успех i-ro испытуемого при решении j-ro задания опре­деляется отношением:





211

Если сравнить шансы двух испытуемых решить одно и то жej-е задание, то это отношение будет следующим:



Следовательно, разница в успешности решения задания испыту емыми не зависит от сложности задания и определяется лишь уров нем способности.

Нетрудно заметить, что в модели Раша отношение трудности за­даний не зависит от способности испытуемых. Для того, чтобы убе­диться в этом, достаточно проделать аналогичные простейшие пре образования, сравнивая вероятности ответов группы на два пункта, теста, а не вероятности ответов разных испытуемых.



где

Р,^— вероятность ответа на k-e задание для i-го испытуемого,U==

ев.-р,

и для неправильного ответа



Следовательно,



Для сравнения шансов на успех i-ro испытуемого решить зада­ния k и п берем отношение:



Тем самым отношение шансов испытуемого решить два разных задания определяется лишь трудностью этих заданий.

Обратим внимание, что шкала Раша (в теории) является шкалой отношений.

Теперь у нас есть возможность ввести единицу измерения спо­собности (в общем виде — свойства). Если взять натуральный лога-

21?

рифм от е1'" -pk или е9' -ет, то получается единица измерения "логит" (термин ввел Г.Раш), которая позволяет измерить и "силу пункта" (трудность задания), и величину свойства (способность испытуемо­го) в одной шкале.

Эмпирически эта процедура производится следующим образом. Предполагается, что данные тестирования и значения латентных переменных характеризуются нормальным распределением. Уровень "способности" испытуемого в "логитах" определяется на шкале ин­тервалов с помощью формулы:



где

п — число испытуемых,

р^ — доля правильных ответов i-ro испытуемого на задания теста,

q^ — доля неправильных ответов,

Р,+Я,=1-

Для первичного определения трудности задания в логитах исполь­зуют оценку

Р"= In ——, j=l,2,..„ п, Р,

где п — число заданий,

р, — доля правильных ответов для испытуемых группы Haj-e за­дание, q —доля неправильных ответов,

P+Q-1-

Хотя параметры (3 и 6 изменяются от "плюса" до "минуса". io при Р б с заданием не сможет справиться ни один испытуемый, точнее — вероятность дать "ключевой" ответ ниччожна.

Рекомендуется рассматривать лишь интервалы от — 3 до + 3 как для Р (трудности), так и для 6 (способность).

Второй этап шкалирования испытуемых и заданий сводится к тому, что шкалы преобразуются в единую путем "уничтожения" вли­яния трудности задания на результат индивидов. И наоборот, эли-

213







минируется влияние индивидуальных способностей на решение за­даний различной трудности. Для шкалы испытуемых:



где

(3 — среднее значение логитов трудности заданий теста, W — стандартное отклонение распределения начальных значений

параметра (3, n — число испытуемых. Для шкалы заданий:





6 — среднее значение логитов уровней способностей,

V — стандарное отклонение распределения начальных значений "способности",

n — число заданий в тесте.

Эти эмпирические оценки используются в качестве окончатель­ных характеристик измеряемого свойства и самого измерительного инструмента (заданий теста).

Если перед исследователем стоит задача конструирования теста, то он приступает к получению характеристических кривых заданий теста. Характеристические кривые могут накладываться одна на другую. В этом случае избыточные задания выбраковываются. На определенных участках оси 9 ("способность") характеристические кривые заданий могут вовсе отсутствовать. Тогда разработчик теста должен добавить задания недостающей трудности, чтобы равномерно заполнить ими весь интервал шкалы логитов от —6 до +6. Заданий средней трудности долж­но быть больше, чем на "краях" распределения, чтобы тест обладал необходимой дифференцирующей (различающей) силой.

Вся процедура эмпирической проверки теста повторяется не­сколько раз, пока разработчик не останется доволен результатом ра­боты. Естественно, чем больше заданий, различающихся по уровню

214

трудности, предложил разработчик для первичного варианта теста, тем меньше итераций он будет проводить.

Главным недостатком модели Раша теоретики считают пренебре­жение "крутизной" характеристических кривых: "крутизна" их по­лагается одинаковой.

Задания с более "крутыми" характеристическими кривыми по­зволяют лучше "различать" испытуемых (особенно в среднем диа­пазоне шкалы способности), чем задания с более "пологими" кри­выми.

Параметр, определяющий "крутизну" характеристических кри­вых заданий, называют дифференцирующей силой задания. Он ис­пользуется в двухпараметрической модели Бирнбаума.

Модель Бирнбаума аналитически описывается формулой



Параметра определяет "крутизну" кривой в точке ее перегиба;

его значение прямо пропорционально тангенсу угла наклона каса­тельной к характеристической кривой задания теста в точкеЭ = (^.



Интервал изменения параметра а от—с^до +оо. Если значения а близки к 0 (для заданий разной трудности), то испытуемые, разли­чающиеся по уровню выраженности свойства, равновероятно дают "ключевой" ответ на это задание теста. При выполнении такого за­дания у испытуемых не обнаруживается различий.

Парадоксальный вариант получаем при а < 0. В этом случае бо­лее способные испытуемые отвечают правильно с меньшей вероят­ностью, а менее способные — с большей вероятностью. Опытные пси­ходиагносты знают, что такие случаи встречаются в практике тести­рования очень часто.

Ф.Лорди М.Р.Новик в своей классической работе приводят фор­мулы оценки параметра а. При а = 1 задание соответствует одно-215

параметрической модели Раша. Практики рекомендуют использо­вать задания, характеризующие значение а в интервале от 0.5 до 3.

Все психологические тесты можно разделить в зависимости oi формального типа ответов испытуемого на "открытые" и "закры­тые". В тестах с "открытым" ответом, к которым относятся tcctwais Д.Векслераили методикадополнения предложений, испытуемый са\' порождает ответ. Тесты с "закрытыми" заданиями содержат вари­анты ответов. Испытуемый может выбрать один или несколько ва­риантов из предлагаемого множества. В тестах способностей (тес'1 Д.Равена, GABT и др.) предусмотрено несколько вариантов непра­вильного решения и один правильный. Испытуемый может приме­нить стратегию угадывания. Вероятность угадывания ответа:



где

n — число вариантов.

Результаты эмпирических исследований показали, что относи­тельные частоты решения "закрытых" заданий отклоняются от тео­ретически предсказанных вероятностей двухпараметрической модели Бирнбаума. Чем ниже уровень способностей испытуемого (низкие значения параметра 6), тем чаще он прибегает к стратегии угадыва­ния. Аналогично, чем труднее задание, тем больше вероятность того, что испытуемый будет пытаться угадать правильный ответ, а не ре­шать задачу.

Бирнбаум предложил трехпараметрическую модель, которая по­зволила бы учесть влияние угадывания на результат выполнения теста.

Трехпараметрическая модель Бирнбаума выглядит так:



Соответственно оценка "силы" пункта (трудности задания) вло-гистической форме модели



С характеризует вероятность правильного ответа на задание j в том случае, если испытуемый угадывал ответ, а не решал задание, т.е. при 9 —> 0. Для заданий с пятью вариантами ответов С = 0,2, с четырьмя вариантами — С = 0,25 и т.д.

Нетрудно заметить, что характеристическая кривая задания при учете параметра С становится более пологой, так как 0 < С < 1,но

216

при всех С = 0 кривая поднимается над осью 9 на величину С^. Тем самым даже самый неспособный испытуемый не может показать нулевой результат. Дифференцирующая сила тестового задания при введении параметра С снижается. Из этого следует нетривиальный вывод: тесты с "закрытыми" заданиями (вынужденным выбором от­вета) хуже дифференцируют испытуемых по уровням свойства, чем тесты с "открытыми" заданиями.

Модель Бирнбаума не объясняет парадоксального, но встречаю­щегося в практике тестирования феномена: испытуемый может реже выбирать правильный ответ, чем неправильный. Таким образом, час­тота решения некоторых заданий может не соответствовать предска­заниям модели Р < С, тогда как, согласно модели Бирнбаума, в пре­деле Р = С.

Рассмотрим еще одну модель, которую предложил В.С.Аванесов. Как мы уже заметили, в IRT не решается проблема валидности: ус­пешность решения задачи зависит в моделях IRT только от одного свойства. Иначе говоря, каждое задание теста считается априорно валидным.

Аванесов обратил внимание на это обстоятельство и ввел допол­нительный, четвертый, параметр, который можно обозначить как внутреннюю валидность задания. Успешность решения задания оп­ределяется не только "основной" способностью (9), но и множест­вом условий, нерелевантных заданию, однако влияющих надеятель-ность испытуемого.

Четырехпараметрическая модель представляет, по мнению ряда исследователей, лишь теоретический интерес:



где

у — валидность тестового задания.

Если у < 1, то тест не является абсолютно валиднным. Следова­тельно, вероятность решения задания не только определяется тео­ретически выделенным свойством, но и зависит от других психи­ческих особенностей личности.

Бирнбаум считает, что количество информации, обеспеченное j-м заданием теста, при оценивании 9 является величиной, обратно про­порциональной стандартной ошибке измерения данного значения 6 j-м заданием. Более подробно вычисление информационной функ­ции рассмотрено в работе М.Б.Челышковой.

Многие авторы, в частности Пол Клайн, отмечают, что IRT об­ладает множеством недостатков. Для того, чтобы получить надеж-

217

ную и независимую от испытуемых шкалу свойств, требуется про­вести тестирование большой выборки (не менее 1000 испытуемых) Тестирован недостижений показывает, что существу ют значитель­ные расхождения между предсказаниями модели и эмпирическими данными.

В 1978 г. Вуд доказал, чтолюбые произвольные данные могутбыть приведены всоогветствиес моделью Раша. Кроме того, существуе! очень высокая корреляция шкал Раша с классическими тестовыми шкалами (около 0,90).

Шкалирование, по мнению Раша, способно привести к образо­ванию бессмысленных шкал. Например, попытка применить его мо­дель к опроснику EPQ Айзенка породила смесь шкал N, Е, Р и L.

Главный же недостаток IRT — игнорирование проблемы валид-ности. В психологической практике не наблюдается случаев, когда ответы на задания теста были бы обусловлены лишь одним факто­ром. Даже при тестировании общего интеллекта модели 1'R.T непри­менимы.

Клайн рекомендует использовать модели IRT для коротких тес­тов с валидными заданиями (факторно простые тесты).

В пособии Клайна "Справочное руководство по конструирова­нию тестов" (Киев, 1994) приведен алгоритм конструирования тес­тов на основе модели Раша.

В заключение рассмотрим вероятностную модель тестов "уров­ня" Ф.М.Юсупова, аспиранта лаборатории психологии способнос­тей Института психологии РАН. Его модель разработана для тестов с "закрытыми" заданиями (выбором ответов из множества), разли­чающимися по уровню трудности. В "закрытых" тестах испытуемый может применить стратегию "угадывания" ответа. Вероятность уга­дывания



где

m — число альтернатив.

Сложность тестового задания



где

n — число испытуемых, способных решить задание, N — общее количество испытуемых в выборке валидизации. При W< P невозможно определить, решена задача случайно или за-

218

кономерно. Полагается, что биноминальное распределение вероят­ности успешного выполнения тестового задания при больших N апп­роксимируется нормальным. Должны выполняться следующие условия:

1. Правильный ответ выбирается неслучайно, если:

его экспериментально полученная частота больше 1/т;

это превышение статистически значимо;

оценить его можно с помощью t-критерия Стьюдента.

2. Все ложные варианты ответов должны выбираться не чаще, чем случайные:



где

n — частота выбора неверного ответа.

Тем самым тестовое задание стимулирует испытуемого к выбору правильного ответа.

3. В тестах "уровня" диапазон изменения показателя сложности О < W S 1 должен быть уменьшен "слева" на величину W, значимо отличающуюся от W, в которой t = t^ (t — критерий Стьюдента). Чем больше вариантов ответов в тесте, тем меньше W и шире об­ласть допустимых значений показателя сложности тестового зада­ния. Например, для N = 100, а = 0,05 (t^ = 1,90) и 10 > m > 3 расчет показывает, что уже при m > 6 скорость расширения области значе­ний показателя сложности значимо замедляется. Поэтому рекомен­дуется выбирать 6— 10 вариантов ответа.

В тесте "уровня" число градаций сложности и число заданий свя­зано. Чем точнее оценка свойства, тем больше число градаций. Но это влечет снижение достоверности измерения, так как длина теста (число задан и и) ограниченна. Уменьшение числа градаций приве­дет к нивелированию различий между испытуемыми.

Предельно возможное число заданий в тесте выбирается при ус­ловии, что различие в уровне их сложности гарантируется с выбран­ной вероятностью.

Поскольку дисперсия биноминального распределения максималь­на в центре интервала 0 — 1 и уменьшается к периферии до 0, шаг градаций сложности на разных участках этого интервала будет раз­личным: на периферии он должен стремиться к нулю.

Удобно принять в качестве шага градации сложности 1/10 интер­вала. Для а = 0,05, N = 100 получается 7 значений показателя слож­ности, что при шаге, равном 0,1, гарантирует различение между уров­нями с вероятностью 0,9.

219

Если учесть условие минимизации случайного выбора правиль­ного ответа, то число градаций сложности должно быть еще мень­ше. Например, при б вариантах ответа число заданий разного уров­ня сложности не может быть больше 6.

Эти выводы верны в том случае, если биноминальное распреде­ление аппроксимируется нормальным распределением. При боль­шом числе испытуемых такая аппроксимация возможна.

Расчеты показывают, что минимально необходимый объем вы­борки для апробации тестовых заданий не так уж и велик — 56 чело­век при достоверности 0,9.

Следовательно, исходя из вероятностной модели теста и не при­бегая к допущениям о моделях тестирования, можно рассчитать пара­метры теста как предельные характеристики, обеспечивающие до­стоверность измерения.

Литература

Психологические измерения. М.: Мир, 1976. Наповян С. С. Математические методы в социальной психологии.

М.: Наука, 1983. Клайн П. Справочное руководство по конструированию тестов.

Киев,1994. ДюкВ.А. Компьютерная психодиагностика. СПб.: Братство, 1994.

Вопросы

1. Какие основные типы шкалы используются в психологических исследованиях?

2. В чем состоят отличия классической модели теста от теории выбора ответа (IRT)?

3. Что гакое "логит"?

4. Каким должно быть число уровней трудности заданий в тесте?

5. В каких случаях применяется шкалограммный анализ?


5896976227587976.html
5897099672230345.html
5897223161636241.html
5897318525247511.html
5897360584450087.html