Как можно установить надежность частей теста

Как можно установить надежность частей теста

Надежность теста. Теория надежности.

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

На практике понятие «надежности» имеет два значения: одно связано с воспроизводимостью результатов тестирования, другое – с внутренней согласованностью теста [8].

На понятии «надежность» основывается вычисление «ошибки измерения«, с помощью которой определяются вероятные пределы колебания измеряемой величины, возникающей под воздействием случайных факторов.

Можно сказать, что в широком смысле слова надежность теста показывает, в какой мере индивидуальные различия в тестовых результатах являются «истинными», а в какой мере они могут быть отнесены к случайным ошибкам. Надежность это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

— разнообразие внешних материальных условий тестирования (время суток, освещенность, температура, наличие посторонних звуков и т.п.);

— динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (настроение, утомление, другие особенности состояния испытуемого);

— информационно-социальные факторы (контакт с психологом, наличие других людей, сама ситуация тестирования и пр.).

Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размеру и направлению отклонения измеренного тестового балла (т.е. такого, который можно было бы получить в идеальных условиях).

Поэтому, общий разброс (дисперсию) результатов произведенных измерений можно представить как результат суммы двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это нашло свое выражение в классической формуле, описывающей надежность теста в виде отношения истинной дисперсии к дисперсии эмпирически зарегистрированных баллов [1, 13, 15, 16]:

где: α— надежность теста; Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестадисперсия ошибки;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестадисперсия теста.

Итак, эта формула читается так: надежность теста равняется единице минус отношение дисперсии ошибки к дисперсии эмпирически зарегистрированных баллов.

В общем случае можно сказать, что ошибку измерения в психометрике определяют с помощью корреляционных методов, которые дают возможность оценить надежность (или, что одно и тоже точность) через устойчивость и согласованность результатов, полученных как на уровне целого теста, так и на уровне отдельных его пунктов.

Рассмотрим вначале надежность теста, связанную с воспроизводимостью результатов тестирования – так называемую, «ретестовую» или «диахронную» надежность. Затем, проанализируем понятие «надежности», связанное с внутренней согласованностью теста. В завершении этого параграфа проанализируем критический взгляд на такие понятия, как «ретестовая надежность «, «синхронная надежность» и достаточно подробно остановимся на «теории надежности», позволяющей психологу, разрабатывающему или использующему тест, понять всю важность данного параметра теста.

В этом случае коэффициент надежности просто равен корреляции между двумя результатами, полученными на одних и тех же испытуемых в каждом из двух случае проведения теста. Приводя в руководстве к тесту его ретестовую надежность, всегда следует указывать, в каком интервале времени она измерена. Как правило, выбирают этот интервал исходя из следующих соображений.

На дисперсию ошибки тестовых результатов обычно влияют случайные колебания с периодом от нескольких часов до нескольких месяцев. Поэтому, определяя тип тестовой надежности, стараются придерживаться небольших временных интервалов.

(Например, при тестировании маленьких детей этот период должен быть еще короче, чем у взрослых испытуемых, поскольку в раннем детстве возрастные изменения происходят в течение месяца и даже быстрее.).

В целом для любого типа испытуемых интервал между двумя последовательными применениями теста обычно не должен быть меньше двух недель и превышать 6 месяцев [1].

Следует учесть, что данное понятие надежности в основном характеризует выполнение теста самого по себе, а не тестируемую область поведения (т.е. характеризует стабильность теста, как измерительного инструмента).

В качестве коэффициента корреляции для этого типа надежности обычно подсчитывают известный коэффициент корреляции произведения моментов Пирсона [1, 15]:

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста,где

r коэффициент корреляции между результатами двух тестовых испытаний;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестаэмпирическая дисперсия первого испытания;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста эмпирическая дисперсия второго испытания;

N число испытуемых.

Оценка значимости этого коэффициента производится следующим образом:

— вычисляется квадратическая ошибка коэффициента корреляции по формуле

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста;

при малом числе наблюдений n берется «числом степеней свободы», обычно как n-2, и ошибка коэффициента корреляции вычисляется так

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста;

Ошибка коэффициента корреляции приближается к нулю, когда коэффициент корреляции приближается к единицы. Таким образом, при r =1 независимо от знака, mr =0.

Значение коэффициента корреляции оценивается с помощью критерия достоверности, который представляет отношение этого коэффициента к своей средней квадратической ошибке, т.е.

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста;

Далее полученный критерий достоверности (t) сравнивается с табличным (см. приложение 2).

Напомним из статистики, что если необходимо оценить достоверность различий, наблюдаемых между двумя коэффициентами корреляции, формула для расчета критерия достоверности принимает вид

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста.

Знание надежности теста позволяет уточнить «истинное» значение тестового балла индивида, применяя формулу: Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста, где

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестаистинный балл;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестаэмпирический балл i-го испытуемого;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестасреднее для теста;

Например, что испытуемый получил балл IQ по шкале Стенфорд-Бине равный 120 нормализованным очкам, Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста= 100, r = 0,9.Тогда истинный балл будет равен: Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста=0,9 х 120 + 0,1 х 100 = 118

Все выше сказанное касалось тестовс интервальными шкалами, для шкал порядка в качестве меры ретестовой надежности используется ранговый коэффициент корреляции Спирмена:

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста,где Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста— разность рангов i-го испытуемого в первом и втором ранговом ряду (1, 4).

Оценка значимости коэффициента корреляции Спирмена производится аналогичным образом через расчет квадратической ошибки по формуле

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста;

Теперь проанализируем понятие «надежности», связанное с внутренней согласованностью теста, и которое находит свое выражение в таких понятиях, как «одномоментная» или «синхронная» надежность.

2. Одномоментная (синхронная) надежность (согласованность).Этот тип надежности независим от устойчивости (поскольку не имеет временного интервала) и имеет особую содержательную и операциональную природу. Ее надо понимать именно как согласованность частей теста. В психотехнике этот вид надежности часто называют коэффициентом внутренней согласованности теста.

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста, где

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста— эмпирически рассчитанная корреляция для половин;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста— надежность целого теста.

Следует отметить, что делить тест на две части можно разными способами, и каждый раз получаются несколько разные коэффициенты; поэтому в психометрике предложен способ оценки синхронной надежности, который соответствует разбиению теста на такое количество частей, сколько в нем отдельных пунктов. В этом случае, синхронную надежность теста можно оценить с помощью формулы Кронбаха:

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста,где

αкоэффициент Кронбаха;

kколичество пунктов (заданий) теста;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста дисперсия по i-му пункту теста;

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестадисперсия суммарных баллов по всему тесту.

В 1957 году Дж. Китс предложил следующий критерий для оценки статистической значимости коэффициента α(1):

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста, где

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста— эмпирическое значение статистики χ 2 с п-1 степенью свободы;

Вычисленная статистика Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей тестадалее сравнивается с табличной (см. приложение 2).

Как видно, формула Кронбаха позволяет оценить взаимную согласованность пунктов теста, используя только подсчет дисперсий (вся важность этой формулы для психометрики станет понятна после анализа теории надежности).

Коэффициент αпозволяет также оценить и среднюю корреляцию между i-тым и j-тым произвольными пунктами теста, так как он связан с этой средней корреляцией следующей формулой:

α = Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста, (***)

где Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста средняя корреляция между пунктами теста.

При прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность.

Все приведенные формулы относятся к оценке надежности одномерного теста, направленного на измерение одной характеристики.

Перейдем теперь к обсуждению «теории надежности» тестов [10], опираясь на понятия изложенные выше.

Надежность теста: типы, критерии проверки

1 Понятие надежности

2 Типы, критерии проверки

К числу основных критериев оценки психодиагностических методик относится надежность и валидность. Большой вклад в разработку этих понятии внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.).

1 Надежность – это критерий качества теста, выражающий точность психологических изменений, а также устойчивость результатов к действию посторонних случайных факторов. Например, результат измерения такого лабильного признака как настроение, не может быть таким же надежным (точным) как результат измерения более стабильного признака, скажем знаний орфографии.

Точность измерений определяется с помощью корреляционных методов статистики. При этом используются формулы вычисления корреляции Пирсона, Спирмена и др. Например, одним из известных коэффициентов корреляции является коэффициент корреляции Спирмена (в случае порядковых шкал).

По математическому смыслу  меняется в пределах от –1 до 1. (–1≤ρ≤1).

Обычно в тестологической практике редко удается достичь  больше 0,7 или 0,8. Часто их называют коэффициентом надежности.

Что касается устойчивости результата психодиагностического исследования, то надо учитывать следующее. Результат обычно подвержен влиянию большого количества трудно учитываемых факторов (например, эмоциональное состояние и утомление, освещенность и температура в помещении, где проводится исследование, уровень мотивирования испытуемых на обследование и др.). Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста. Таким образом, может возникнуть ошибка измерения, обусловленная двумя источниками: лабильностью (изменчивостью) самого измеряемого свойства и нестабильностью измерительной процедуры. Вот почему важнейшим средством повышения надежности теста является стандартизация процедуры исследования (т.е. регламентация обстановки и условий работы испытуемого, характера инструкции, временных ограничений, способов и особенностей контактов с испытуемыми, порядка предъявления стимульного материала, получения сырых баллов).

Вообще же в процессе доказательства надежности теста точность и устойчивость рассматриваются взаимосвязано. Статистические процедуры (корреляционные методы) позволяют определить точность и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его задач.

2 Вот почему в понятии «надежность теста» принято выделять 3 главных аспекта соответственно трем разным процедурам вычисления коэффициента надежности:

Надежность-устойчивость (ретестовая надежность);

Надежность-эквивалентность (надежность параллельных форм);

Надежность-согласованность (надежность частей теста).

Надежность-устойчивость измеряется путем повторного проведения теста на той же выборке испытуемых (выборке стандартизации). Отсюда его второе название – ретестовая надежность. Обычно временной разрыв между исследованиями составляет 2 недели. Замечено, что с увеличением показатели корреляции имеют тенденцию к снижению. Это связано с тем, что измеряемое свойство нестабильно, развивается, могут наступить и возрастные изменения, а также произойти события, влияющие на состояние исследуемых качеств. Однако в некоторых случаях повторный тест проводят и через более длинный временной промежуток, например, в целях оценки прогностической валидности.

К недостаткам тест-ретеста относится то, что при непродолжительном временном разрыве у испытуемых может формироваться навык работы с психодиагностической методикой, приводящий к улучшению индивидуальных результатов. Еще более заметное воздействие на проверку надежности может оказать запоминание испытуемыми отдельных решений. В этих случаях результаты двух предъявлений теста не будут независимыми, а коэффициент корреляции, характеризующий степень надежности, окажется завышенным. Надо также учитывать и то, что при конструировании теста для измерения эмоциональных состояний (например, тревоги) требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Надежность-эквивалентность определяется путем применения 2-х эквивалентных форм теста к одной и той же выборке. Эквивалентными формами теста принято называть два теста с тождественным психологическим содержанием, стимульные части которых, однако, отличаются друг от друга по внешнему оформлению. Поэтому этот вид надежности называется по-другому надежность параллельных форм. Понятно, что количество заданий в двух тестах при конструировании должно быть одинаковым; задания должны быть уравновешены по трудности; оба теста должны иметь примерно равные средние и стандартные отклонения; процедура применения тестов и техника оценивания результатов должны быть унифицированы (стандартизованность).

Применение параллельных форм теста помогает избежать недостатков ретестовой валидности. 1). Т.к. в параллельных формах используются разные, хоть и эквивалентные задачи, возможность тренировки и запоминания исключается. 2). Преимуществом процедуры является также и то, что можно значительно сократить временной интервал, практически применив оба теста друг за другом.

Получение высокого коэффициента корреляции между двумя формами является доказательством только как эквивалентности их психологического содержания (взаимозаменяемости), но так и одновременно высокой надежности теста в целом. Понятно, что получение низких корреляций между первым и вторым тестированиями свидетельствует о плохой надежности применявшихся вариантов.

Надежность-согласованность определяется путем «расщепления» теста на две части и вычисления коэффициента корреляции между оценками, полученными по каждой из этих частей. Поэтому этот показатель иногда называют надежностью частей теста.

Чаще всего метод «расщепления» теста на половины осуществляется путем объединения в одной половине всех четных, а в другой – всех нечетных заданий. Обоснованием такой процедуры является положение о том, что при нормальном распределении оценок по полному тесту выполнение случайного набора заданий из частей теста дает аналогичное распределение.

Высокий коэффициент корреляции между частями теста говорит о его гомогенности (однородности). И это является выражением надежности теста, внутренней согласованности тестовых задач.

Преимуществами надежности-согласованности по сравнению с ретестовой надежностью и надежностью параллельных форм является отсутствие необходимости в повторном обследовании, экономия времени, снятие эффекта упражнения, памяти и др.

Этот способ расчета надежности практически сливается с содержательной валидацией разрабатываемого теста.

Недостатком метода является невозможность установить устойчивость результатов теста спустя определенное время. Это требует комбинирования надежности-согласованности с другими процедурами определения надежности психодиагностической методики.

Для эффективного использования теста необходимо узнать, существуют ли данные о процедурах определения надежности, что собою представляет выборка стандартизации и в какой диагностической ситуации проводилась проверка. Если проверки не было, психологу придется провести ее в соответствии с описанными критериями.

Как можно установить надежность частей теста

Важнейшей характеристикой теста является его надежность, определяющая воспроизводимость результатов тестирования, их точность. Допустим, у нас есть гипотетическая группа испытуемых, которые немедленно забывают содержание теста по его завершении. Тогда, в случае надежного теста, повторяя тестирование многократно, мы должны получать одни и те же индивидуальные баллы. Для малонадежного теста результаты будут меняться каждый раз.

Тест представляет собой систему заданий. Качество заданий определяет надежность теста в целом. Рассмотрим пример. Допустим, тест состоит из заданий в закрытой форме, в которых по ошибке не указанные правильные ответы. Слабые испытуемые, не зная ответа, будут пытаться его угадать. Сильные испытуемые, зная верный ответ, но не находя его среди предложенных, так же вынуждены будут случайным образом выбирать любой из ответов. В итоге, индивидуальные баллы будут представлять собой случайные последовательности, не повторяющиеся в разных сеансах тестирования. Воспроизводимость тестовых баллов будет полностью отсутствовать и надежность теста будет близка к нулю. Низкая надежность теста обусловлена низким качеством тестовых заданий.

Для определения надежности реальных тестов можно использовать коэффициент корреляции Пирсона для индивидуальных баллов разных сеансов тестирования. Для организации разных сеансов тестирования можно использовать либо параллельные тесты, либо повторное тестирование через определенный промежуток времени. Можно также использовать результаты одного сеанса тестирования. При этом выполняют расщепление теста, например, на четные и нечетные задания и, затем, находят корреляцию между этими двумя половинами.

Надежность теста определяется разными методами. Рассмотрим их.

Из классической теории теста следует, что надежность теста есть

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста (3.8.1)

Когда ошибка отсутствует, коэффициент надежности равен единице. Если измеренный тестовый балл полностью обусловлен ошибкой измерения, то надежность теста равна нулю.

Ошибка измерения зависит от надежности теста rt.

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста (3.8.2)

В работе 13 показано, что корреляция rjT j-го задания с истинными тестовыми баллами T связана со средним значением его корреляции с другими заданиями теста 7

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста (3.8.3)

Если тест содержит задания с высокой внутренней корреляцией, то он будет высоко надежным и ошибка измерений будет низкой.

Для вычисления надежности теста нужны результаты двух испытаний, которые организуются следующими способами:

1-й способ – тестирование с помощью двух параллельных тестов (parallel-form reliability);

2-й способ – повторное тестирование с помощью одного и того же теста (test-retest reliability);

3-й способ – расщепление теста (split-half method).

Первый способ, пожалуй, самый лучший, с точки зрения расчета надежности. Основной проблемой здесь является разработка параллельных тестов. Крайне сложно создать тесты параллельные и по содержанию и по результатам. Ранее нами приводился пример «параллельных» заданий, дающих разные результаты:

6 + 3 = ____; 6 + ___ = 9; ___ + 3 = 9.

Второй способ технически гораздо проще, однако здесь появляются новые факторы.

Во-первых, первое тестирование изменяет уровень подготовленности испытуемых. Это может произойти по разным причинам, в частности, запоминание заданий теста. Поэтому повторное тестирование необходимо проводить спустя некоторый интервал времени. Этот интервал должен быть как можно больше.

Во-вторых, к моменту повторного тестирования изменяются внешние условия – другие социальная среда, другие взаимодействия с членами микросоциальной группы, другое время года, и т.д. Кроме того, изменились и сами испытуемые, изменился их уровень знаний как специальных, так общекультурных. В результате повторное тестирование проводится в иных условиях и иной группе испытуемых. В этой связи желательно временной интервал между тестированиями выбирать как можно короче. Мы получили взаимоисключающие требования к интервалу повтора тестирования, следовательно, здесь придется идти на компромисс. Можно рекомендовать интервал в один месяц, хотя подобные рекомендации должны подтверждаться экспериментально.

Надо осознавать, что повторное тестирование в силу указанных причин, в принципе не позволяет получить параллельные результаты даже для идеального теста с надежностью равной единице.

Третий способ очень прост. На основании всего лишь одного тестирования мы можем оценить надежность теста. Полученные результаты тем или иным способом делятся на две группы. Например, в первую входят результаты по четным заданиям, во вторую – результаты по нечетным заданиям. Затем вычисляется коэффициент корреляции между этими группами. Недостаток этого способа обусловлен неидентичностью этих групп.

В качестве примера проанализируем надежность четырех гипотетических тестов, выполненных на одной и той же выборке испытуемых (таблица 3.8.1).

Таблица 3.8.1. Индивидуальные баллы по четырем тестам.

Как можно установить надежность частей теста

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Как можно описать надежный тест? Надежный тест измеряет некое качество, делает это устойчиво, относительно времени, позволяет сравнивать результаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии.

Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психологии. Для повышения качества психологического измерения в психометрике используется такой показатель как валидность.

На результаты исследования действуют две группы факторов: (1)изменчивость, присущей самому измеряемому свойству, (2) нестабильность измерительной процедуры.

Свойства надежности могут изменяться при изменении:

1. условия проведения обследования,

2. характера заданий,

3. степени сложности заданий,

4. психологического состояния испытуемого.

Ретестовая надежность – характеристика надежности метода психодиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.

Алгоритм вычисления ретестовой надежности:

1. первичное тестирование на выборке (при N ≥ 30);

2. повторное тестирование через 5 – 6 месяцев на той же самой выборке;

3. вычисление коэффициента корреляции между первичным и повторным тестированием.

Коэффициент надежности rt соответствует коэффициенту корреляции между результатами первичного и повторного обследований.

Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое количество пунктов (ММ PI ). Одним из «минусов» процедуры определения ретестовой надежности является «эффект тренировки», который безусловно снижает достовенность надежности теста.

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Для порядковых шкал в качестве меры устойчивости к повторному тестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

Еще одним достаточно популярным видом надежности является надежность параллельных форм. Параллельные (или взаимозаменяемые, или сопоставимые) формы:

· параллельные или взаимозаменяемые (снабженные таблицами эквивалентности);

· уравненные (попарно уравненные по структуре и содержанию задания);

· эквивалентные (результаты с близкими статистическими характеристиками).

Надежность параллельных форм – характеристика надежности методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных. В практике встречается два алгоритма вычисления надежности параллельных форм.

Первый алгоритм определения надежности параллельных форм:

1. тестирование группы при помощи формы А теста;

2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время);

3. вычисление коэффициента корреляции между результатами тестирования разными формами.

Второй алгоритм вычисления надежности параллельных форм:

1. разделение всех испытуемых на две группы (первая и вторая);

2. тестирование первой группы при помощи формы А теста;

3. тестирование второй группы при помощи формы Б теста;

4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время);

5. тестирование второй группы при помощи формы А теста (или сразу, или через определенное время);

6. вычисление коэффициента корреляции между результатами первичного и вторичного исследований.

Надежность частей теста достаточно популярный и просто-просчитываемый вид надежности. Надежность частей теста – характеристика надежности методики путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.

Основным методом вычисления надежности частей теста является расщепление – выполнение испытуемым двух равноценных частей теста. Для оценки надежности методом расщепления выбираются две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов:

1) распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности).

2) разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в которых обязателен ответ на все пункты).

3) разделение задач по времени решения каждой из частей (для тестов скорости).

Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов.

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

1. провести однократное тестирование на выборке (при N ≥ 30);

2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания;

3. посчитать коэффициент корреляции между выполнением первой и второй половины теста;

4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона).

Алгоритм вычисления надежности отдельных заданий теста:

1. провести однократное тестирование на выборке (при N ≥ 30);

2. используя результаты выполнения каждого задания, подсчитать коэффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронбаха (для более дифференцированных заданий);

Коэффициент Кьюдера-Ричардсона используется для заданий типа «да-нет», «решил – не решил», «верно-неверно».

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости-согласованности экспертных оценок.

Алгоритм вычисления экспертной надежности:

Сравнительные методы установления надежности

Необходимость повторного тестирования

Достаточное число форм

Источники ошибки индекса надежности

Запоминание, тренировка, научение, длина интервала.

Запоминание, тренировка, научение, недостаточная эквивалентность форм

Частей теста (методом расщепления)

Неоднородность содержания, число заданий в тесте

Число заданий в тесте неоднородность содержания,

Материально-техническое обеспечение и технико-методические средства обеспечения освоения студентами дисциплин «Психодиагностика» и «Практикум по психодиагностике»

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Необходимыми материальными и техническими средствами обеспечения эффективного усвоения студентами дисциплин являются:

А) типовое учебное помещение (комната, кабинет, аудитория), укомплектованное стандартной учебной мебелью (партами и стульями), имеющее типовое, функционально необходимое электрическое освещение, имеющее стандартную меловую или типовую «маркеровую» учебную доску и обычное мультимедийное проекционное оборудование;

Б) библиографические источники из списка основной литературы по дисциплинам, в стандартно-типовом количестве и качестве наименований на одного студента (как минимум – три наименования разноплановых библиографических источников, с минимальным расчётом – один экземпляр одного наименования на трёх студентов);

В) копировальная и множительная техника (принтер, сканер, ксерокс) с целью сканирования и тиражирования в бумажном (печатном) виде бланков, заданий и стимульных материалов к используемым тестовым психодиагностическим методикам.

Специальное (особое) материально-техническое обеспечение для успешного освоения студентами данных учебных дисциплин не требуется.

ПРИЛОЖЕНИЯ К НАСТОЯЩЕМУ ПОСОБИЮ

ПРИЛОЖЕНИЕ № 1.

«ТЕСТОВЫЕ ПРОВЕРОЧНЫЕ КОНТРОЛЬНЫЕ ВОПРОСЫ

ПО ДИСЦИПЛИНАМ ″ПСИХОДИАГНОСТИКА″ И ″ПРАКТИКУМ ПО ПСИХОДИАГНОСТИКЕ″»

1.Наука, разрабатывающая методы выявления и измерения индивидуально-психологических особенностей человека, наука и практика постановки психологического диагноза (выбор единственно правильного ответа):а) социология;б) медицина;в) педагогика;г) психодиагностика.

2.Психодиагностика – это (выбор двух правильных ответов):а) наука, изучающая индивидуально-психологические особенности человека;б) наука о принципах и способах организации научного познания человека;в) комплексная дисциплина, изучающая человека в конкретных условиях его деятельности;г) наука о закономерностях психического развития человека;д) наука, разрабатывающая методы измерения индивидуально-психологических особенностей человека.

3.Когда завершилось формирование психологической диагностики в самостоятельную область исследований(выбор единственно правильного ответа):а)20-е гг. ХХ века;б) 40-е гг. ХХ века;в) 60-е гг. ХХ века;г) 80-е гг. ХХ века.

4.Сколько этапов выделяют в развитии отечественной психодиагностики (выбор единственно правильного ответа):а) два;б) один;в) три;г) четыре.

5.Что явилось первым диагностическим тестовым методом по форме проведения теста (выбор единственно правильного ответа):а) тесты-опросники;б) тесты-задания;в) проективные техники;г) психофизиологические методики.

6.Кто впервые использовал психодиагностические тесты-опросники (выбор единственно правильного ответа):а) Ф. Гальтон;б) Т. Рибо;в) Р. Вудвортс;г) Д. Юм.

7.Какие тесты, по содержанию, по направленности теста, первыми стали применяться в психодиагностике(выбор единственно правильного ответа):а) тесты интеллекта;б) тесты достижений;в) тесты креативности;г) личностные тесты.

8.В какого рода методиках от испытуемого требуется получить верный ответ (выбор единственно правильного ответа):а) тесты;б) анкеты;в) психофизиологические методики;г) проективные методики.

9.Единообразие проведения и обработки теста, независимость результатов теста от внутренних и внешних раздражителей, называется (выбор двух правильных ответов):а) надёжность теста;б) валидность теста;в) адаптация теста;г) стандартизация теста.

10.К проективным методикам относятся (выбор двух правильных ответов):а) тест «Прогрессивные матрицы Дж. Равенна»;б) Тематический апперцептивный тест (ТАТ) Г. Меррея и К. Моргана;в) Тест «Моторная проба К. Шварцландера»;г) Рисуночные тесты.

11.Как можно установить надёжность частей теста (выбор единственно правильного ответа):а) предложить испытуемому выполнить две равноценные части теста и сравнить результаты;б) повторно обследовать испытуемых с помощью одного и того же теста и сравнить результаты;в) предложить разным группам испытуемых разные части теста и сравнить результаты;г) предложить испытуемым выполнить основной набор заданий, а затем дополнительный набор заданий и сравнить полученные результаты.

12.Что такое статистический критерий (выбор единственно правильного ответа):а) правило принятия истинной гипотезы;б) метод расчета количества испытуемых;в) показатель наличия причинно-следственной связи между переменными;г) показатель влияния переменных на изменчивость изучаемого признака.

13.Какая измерительная шкала имеет фиксированное начало отсчета(выбор единственно правильного ответа):а) шкала отношений;б) шкала интервалов;в) шкала порядка;г) шкала наименований.

14.Какая из контрольных шкал направлена на анализ тенденции к ухудшению результатов обследования (выбор единственно правильного ответа):а) шкала валидности;б) шкала коррекции;в) шкала лжи;г) шкала вопросов.

15.Что такое выборка стандартизации (выбор единственно правильного ответа):а) группа людей, которые реально (непосредственно) подвергаются тестированию;б) группа, состоящая из людей, обладающих стандартным набором качеств;в) группа людей, к которой применяются формализованные методики;г) большая совокупность людей, относительно которой психологи-тестологи собираются делать выводы.

16.Что означает понятие «репрезентативность выборки» (выбор единственно правильного ответа):а) вероятностные свойства (конкретные параметры) данной выборки очень близки к свойствам генеральной совокупности респондентов;б) выборка ориентирована на широкую популяцию;в) выборка состоит из людей, пожелавших принять участие в исследовании;г) использование одной и той же выборки для двух разных исследований.

17.В чём, прежде всего, заключается надёжность психодиагностической тестовой методики (выбор единственно правильного ответа):а) в точности и достоверности имеющихся психологических измерений;б) в теоретической обоснованности методики;в) в единообразии проведения и оценки результатов методики;г) во внутренней однородности методики.

18.Кто автор теста интеллекта «Прогрессивные матрицы …», направленного на изучение невербального (геометрического, пространственного, графического) интеллекта (выбор единственно правильного ответа):а) Дж. Равенн;б) Дж. Гилфорд;в) Ж. Пиаже;г) К. Левин.

19.Каких субтестов нет в тесте Р. Амтхауэра, направленном на диагностику разнообразных видов интеллекта (выбор единственно правильного ответа):а) моторных (двигательных) субтестов;б) пространственных субтестов;в) числовых субтестов;г) вербальных субтестов.

20.На что направлен тест «кубиков Коса» (выбор единственно правильного ответа):а) на оценку способности к синтезу целого из частей;б) на оценку способности к формированию понятий;в) на исследование оперативной памяти;г) на оценку способности выделять существенные детали

21.Для чего применяется диагностический обучающий эксперимент (выбор единственно правильного ответа):а) для оценки интеллектуального развития;б) для оценки развития памяти;в) для оценки развития внимания;г) для оценки развития творческих способностей.

22.Кто создал первые тесты креативности (выбор единственно правильного ответа):а) Дж. Гилфорд;б) Е.П. Торранс;в) Р. Кеттелл;г) Д. Векслер.

23.Для каких сфер наиболее актуальна диагностика моторных (двигательных) способностей (выбор двух правильных ответов):а) спорт;б) профотбор;в) возрастная психология;г) медицинская психология.

24.Где, в основном, применяются тесты сенсорных способностей (выбор двух правильных ответов):а) в промышленности;б) в военном деле;в) в спорте;г) в образовании.

25.Что из названного является сущностной характеристикой эпилептоидного типа личности (выбор единственно правильного ответа):а) склонность к периодическому возникновению т.н. злобно-тоскливого настроения;б) устойчивая ориентация на нормы и ценности ближайшего окружения;в) повышенная тревожность, мнительность, склонность к сомнениям;г) повышенная впечатлительность и чувство неполноценности

26.Сколько цветов используется в тесте цветовых предпочтений (выбор единственно правильного ответа):а) восемь;б) пять;в) десять;г) двенадцать.

27.Какие личностные черты называются генерализованными, генирализированными (выбор единственно правильного ответа):а) те черты, которые характеризуются безусловным постоянством их проявлений;б) те черты, которые характеризуются эпизодичностью проявления;в) те черты, которые являются социально значимыми;г) те черты, проявление которых находится под сознательным контролем человека.

28.Кто автор теста цветовых предпочтений (выбор единственно правильного ответа):а) М. Люшер;б) Р. Мейли;в) Дж. Корт;г) В. Хьюлс.

29.Кто автор методики «Q-сортировка» (выбор единственно правильного ответа):а) В. Стефансон;б) Д. Бекман;в) А. Роде;г) М. Мансон.

30.С какого возраста применяется тест цветовых предпочтений (выбор единственно правильного ответа):а) с 3-4 лет;б) с 1-2 лет;в) с 6-7 лет;г) с 11-12 лет.

31.Какой из способов косвенной оценки межличностных отношений не касается «личностного пространства» (выбор единственно правильного ответа):а) паралингвистические средства;б) методики наблюдения реальной ситуации;в) методики символического моделирования реальной ситуации;г) проективные средства (методики).

32.В чём состоят аутосоциометрические методики (выбор единственно правильного ответа):а) испытуемые сами «измеряют» взаимные отношения людей друг к другу и к себе;б) испытуемые сравнивают реальное и желаемое отношение людей к себе;в) испытуемые «измеряют» взаимоотношения людей с точки зрения другого человека;г) испытуемые «измеряют» свои отношения с другими людьми с точки зрения другого человека.

33.Какая сфера общения рассматривается в методике «социометрия» (выбор единственно правильного ответа):а) все сферы;б) труд;в) досуг;г) учёба.

34.Каково минимальное количество членов малой группы (выбор единственно правильного ответа):а) 2-3 человека;б) 5-6 человек;в) 8 человек;г) 10 человек.

35.Кто автор теста-опросника, созданного для оценки уровня субъективного контроля – УСК (выбор единственно правильного ответа):а) Дж. Роттер;б) Ж. Тейлор;в) Г. Олпорт; г) Н. Бейли.

36.В чём состоят рефрактивные (рефрактерные) техники (выбор единственно правильного ответа):а) люди оценивают свои атрибуты, не осознавая, что оценивают свою личность;б) люди оценивают свои атрибуты с точки зрения малознакомого человека;в) люди оценивают свои атрибуты с точки зрения друга;г) люди оценивают свои атрибуты с точки зрения человека, с которым он находится в неприязненных отношениях.

37.О чём говорит выбор человеком, в основном (как правило), каких-либо средних значений в разнообразных тестах-опросниках самоотношений, самооценки личностных качеств (выбор единственно правильного ответа):а) о значительном включении психозащитных процессов;б) об оптимальном уровне самопринятия;в) о низком уровне самопознания;г) о действии психологического механизма социальной желательности.

38.Какое минимальное количество альтернатив предлагается при выборе ответа в тестах-опросниках самоотношения (выбор единственно правильного ответа):а) одна;б) две;в) три;г) четыре.

40.Что не относится к т.н. кратким функциональным пробам (выбор единственно правильного ответа):а) тесты-опросники;б) корректурная проба;в) таблицы Шульте;г) метод парных ассоциаций.

41.Каких психодиагностических тестов нет среди средств диагностики психических состояний личности, имеющих место «здесь и сейчас» (выбор единственно правильного ответа):а) личностные тесты;б) психофизиологические тесты;в) поведенческие тесты;г) т.н. субъективные тесты.

42.Что характерно для людей со слабой нервной системой (выбор единственно правильного ответа):а) обстоятельное выполнение заданий в строгой очередности, без перескакивания с одной операции на другую;б) умение собраться, сконцентрироваться в ответственных ситуациях;в) в шумной обстановке эффективность умственной работы не снижается;г) неудачи в деятельности мало отражаются на дальнейшей работе.

43.Что относится к формально-динамическим особенностям психического склада человека (выбор единственно правильного ответа):а) чувствительность органов чувств;б) убеждения;в) знания;г) интересы.

44.Что относится к физиологическим показателям сдвигов в функциональном состоянии человека (выбор единственно правильного ответа):а) частота сердечных сокращений;б) количество выполняемых операций за единицу времени;в) качество работы;г) скорость работы.

45.Для чего предназначена доска форм Сегена (выбор единственно правильного ответа):а) для исследования уровня умственного развития детей;б) для исследования памяти у детей;в) для исследования внимания у детей;г) для исследования пространственного восприятия у детей.

46.Что позволяет определить методика Д.Б. Эльконина «Графический диктант» (выбор единственно правильного ответа):а) умение ребенка выполнять задания взрослого, предлагаемые в устной форме;б) уровень ориентировки ребенка на заданную систему требований;в) уровень саморегуляции ребенка в интеллектуальной деятельности;г) готовность ребенка к коллективной учебной деятельности.

48.Когда проводится диагностика психологической готовности детей к школе (выбор единственно правильного ответа):а) за 3-4 месяца до поступления в школу;б) за 1 год до поступления в школу;в) за 1 месяц до поступления в школу;г) в первый месяц обучения в школе.

50.На какой возраст рассчитаны таблицы развития Гезелла (выбор единственно правильного ответа):а) от 4 недель до 6 лет;б) от 6 месяцев до 3 лет;в) от 5 до 10 лет;г) от 0 до 1 года.

51.По какому типу построено большинство тестов для раннего возраста, – 1 год – 3 года (выбор единственно правильного ответа):а) по типу шкал;б) по типу игровых методик;в) по типу проективных методик;г) по типу формирующего эксперимента.

52.В чём состоит отличие отечественных методик диагностики детей раннего возраста от западных (выбор единственно правильного ответа):а) в комплексном подходе к диагностике психического развития;б) в подробной диагностике отдельных сфер психики;в) в акценте на познавательной сфере ребенка;г) в акценте на двигательной активности ребёнка.

53.На какой возраст рассчитана проективная методика «Дом-дерево-человек» (выбор единственно правильного ответа):а) на все возраста;б) на детей;в) на подростков;г) на взрослых.

54.Что не является причиной различия в развитии познавательных процессов у представителей разных культур (выбор единственно правильного ответа):а) специфика самих познавательных процессов у разных народов;б) характер деятельности представителей разных сообществ;в) характер обучения у разных сообществ;г) участие в социальном взаимодействии с представителями более высокого уровня развития.

55.С чем связан запрет на свободное распространение психодиагностических методик (выбор двух правильных ответов):а) гласность в отношении содержания методики делает недейственным ее применение в будущем;б) предупреждение неправильного применения методики;в) защита авторских прав создателя методики;г) регулирование финансовых отношений в области психологической диагностики.

56.В каких источниках содержится описание методик, обеспечивающее их адекватное использование (выбор двух правильных ответов):а) инструктивные документы;б) научные сообщения (доклады, тезисы);в) справочно-методические издания;г) популярные издания.

57.Как можно устранить влияние фактора культуры на тестовые результаты (выбор единственно правильного ответа):а) полностью устранить влияние фактора культуры нельзя;б) тест должен проводить представитель той же культуры, что и испытуемые;в) проверить надежность методики в новых социокультурных условиях;г) проверить валидность методики в новых социокультурных условиях.

58.Чего нельзя сделать посредством традиционных интеллектуальных тестов (выбор единственно правильного ответа):а) произвести коррекцию интеллектуальной сферы;б) определить успешность ученика;в) классифицировать группу учащихся по уровню умственного развития;г) отобрать учеников в школы с усложненными программами.

59.Какие погрешности процедуры тестирования нельзя устранить с помощью компьютера (выбор единственно правильного ответа):а) отсутствие оптимальной мотивации испытуемых;б) несоблюдение временных стандартов выполнения тестовых заданий;в) нарушения правил инструктирования испытуемых;г) установки на определенные ответы испытуемых.

60.В какой области психологического тестирования применение компьютера не целесообразно (выбор единственно правильного ответа):а) сообщение результатов обследования;б) предъявление заданий испытуемым;в) обработка результатов;г) интерпретация результатов.

ПРИЛОЖЕНИЕ № 2.

«ПРИМЕРНЫЙ ПЕРЕЧЕНЬ КОНТРОЛЬНЫХ ВОПРОСОВ К ЗАЧЁТУ И К ДИФФЕРЕНЦИРОВАННОМУ ЗАЧЁТУ ПО ДИСЦИПЛИНАМ ″ПСИХОДИАГНОСТИКА″ И ″ПРАКТИКУМ ПО ПСИХОДИАГНОСТИКЕ″»

1.Определение, цели, задачи и предмет психодиагностики. Области практического использования результатов психодиагностической работы.

2.История развития психодиагностики на Западе.

3.Развитие психодиагностики в России. Критика тестов в отечественной психологии.

4.Классификация методов психодиагностики.

5.Требования к диагностическим методикам.

6.Методологические принципы в работе психолога-диагноста.

7.Понятие теста в психодиагностике. Объективные тесты и тесты-опросники.

8.Диагностика умственного развития. Тесты интеллекта. Примеры тестов.

9.Тесты интеллекта. Правила проведения тестирования и обработки результатов.

10.Тесты интеллекта. Тест структуры интеллекта Р. Амтхауэра.

11.Тесты интеллекта. Тест «Прогрессивные матрицы» Дж. Равенна.

12.Тесты интеллекта. Тест Д. Векслера.

13.Диагностика личности. Личностные опросники.

14.Конструирование личностных опросников как инструмента психодиагностики.

15.Требования, предъявляемые к личностным опросникам.

16.Личностные опросники Г. Айзенка, теоретические позиции автора.

17.Факторные технологии создания личностных опросников. Опросник 16-PF Кеттелла Р.

18.Тестовые методики на изучение эмоциональной сферы личности.

19.Тестовые методики изучения психологических защит личности.

20.Проективные методики, их классификация. Достоинства и недостатки проективной техники.

21.Рисуночные тесты как метод психодиагностического исследования.

22.Проективные методики. Цветовой тест предпочтений М. Люшера.

23.Проективные методики. Тематический апперцептивный тест (ТАТ) Г. Меррея и К. Моргана.

24.Проективные методики. Рисованный апперцептивный тест Л.Н. Собчик (РАТ).

25.Проективные методики. Тест фрустрации С. Розенцвейга.

26.Проективные методики. «Тест руки» («Hand test»). Тест «Пятна Г. Роршаха».

27.Проективные методики. Тест «Пятна Г. Роршаха».

28.Назначение и взаимосвязь основных методов исследования личности: наблюдения, беседы, тестирования.

29.Надёжность тестов. Основные методы оценки надёжности тестов.

30.Понятие валидности. Необходимость валидизации психодиагностических методик.

31.Понятие валидности. Виды валидности. Содержательная валидность.

32.Конструктивная валидность. Понятие конструкта. Технологии оценки конструктивной валидности.

33.Понятие валидности. Виды валидности. Критериальная валидность. Понятие внешнего критерия. Технологии оценки критериальной валидности.

34.Методы оценки критериальной валидности. Метод контрастных групп.

35.Психометрические процедуры стандартизации на этапе обработки диагностических данных.

36.Стандартизация психодиагностических методик. Статистическая норма. Первичные и вторичные показатели (стены, IQ, Т-баллы и др.)

37.Стандартизованные и нестандартизованные личностные опросники. Сравнительная оценка и примеры.

38.Тесты достижений. Диагностика учебных и профессиональных достижений. Школьный тест умственного развития (ШТУР), Групповой интеллектуальный тест (ГИТ).

39.Диагностика креативности. Тесты Е.П. Торранса.

40.Тестовые методики на мотивацию достижений и избегания неудач.

41.История развития психодиагностики в России: этапы и периоды.

42.Диагностика особенностей личности. «Тест руки – Hand test».

43.Предмет и задачи психодиагностики. Области практического использования результатов диагностики.

44.Классификация психодиагностических методов (Б.Г. Ананьев, А.А. Бодалёв, К.М. Гуревич, В.В. Столин и др.).

45.Тесты интеллекта (зарубежные и отечественные). Диагностика умственного развития.

46.Диагностика особенностей личности. Детский апперцептивный тест Л. Беллак. Рисуночный апперцептивный тест (РАТ) Л.Н. Собчик.

47.Проблема нормы в психодиагностике.

48.Тест как предмет исследования. Виды тестов. Правила проведения, обработки и интерпретации результатов тестирования.

49.Диагностика интеллектуального развития. Тест структуры интеллекта Р. Амтхауэера.

50.История возникновения и становления психодиагностики. Дифференциальная психология.

51.Возникновение и развитие тестирования. Тестовый бум в 20-е – 30-е годы XX-го века (В. Вундт, Т. Эббингауз, Р. Кеттелл, А. Бине и др.). Критика тестов.

52.Диагностика особенностей личности детей и взрослых. Тест фрустрации С. Розенцвейга.

53.Диагностика креативности. «Познавательное» и «личностное» направления в изучении креативности. Методика Е.П. Торранса и др.

54.Проективные техники как средство диагностики личности.

55.Тесты интеллекта, тесты достижений, тесты способностей. Сравнительный анализ.

56.Процедура получения вторичных показателей.

57.Рисуночные тесты как метод психодиагностического исследования.

58.Диагностика интеллекта. Прогрессивные матрицы Дж. Равенна.

59.Профессионально-этические принципы в психодиагностике. Этические стандарты психологов (1963, 1965, 1972).

60.Диагностика учебных и профессиональных достижений. Стенфордский тест достижений. Критериально-ориентированные и ориентированные на норму тесты достижений.

61.Требования к построению и проверке методик. Качественная и количественная интерпретация результатов обследования. Связь интерпретации с позициями исследования.

62.ГИТ (групповой интеллектуальный тест), ШТУР (школьный тест умственного развития).

63.Проективные методики. Их классификация (Л.К. Франк, Д. Линдсей). Достоинства и недостатки проективной техники, проектные оценки.

64.Психометрическое сопровождение создания тестов. Валидизация, стандартизация, проверка надёжности.

65.Диагностика интеллекта. Тест интеллекта Д. Векслера.

66.Тест как предмет исследования. Проблема адаптации и стандартизации тестов. Критика тестов.

67.Тесты способностей. Диагностика общих и специальных способностей (сенсорные, моторные, технические, профессионализированные).

68.Малоформализованные методы в психодиагностике: наблюдение, беседа, интервью и анализ продуктов деятельности, экспертные оценки.

69.Диагностика потребностно-мотивационной сферы личности.

70.Диагностика интеллекта. Тест структуры интеллекта Р. Амтхауэра, тест интеллекта Д. Векслера. Сравнительный анализ.

71.Метод тестов как предмет исследований. Виды тестов: по цели проведения и по форме проведения.

72.Диагностика особенностей личности. Цветовой тест отношений М. Люшера. Тест чернильных пятен Г. Роршаха.

73.Рисуночные методики как средство исследования личности.

74.Современное состояние психодиагностики. Критика теста как метода диагностики в отечественной и иностранной психологии.

75.История становления психодиагностики. Возникновение и развитие тестирования.

76.Диагностика особенностей личности. Проективные методики: «Несуществующее животное», «Дом-дерево-человек», «Завершение предложений», «Автопортрет».

77.Диагностика личности. Опросники и их виды. Факторные опросники. Теория черт личности Р. Кеттелла. Опросник 16 PF Кеттелла Р.

78.Особенности проведения психодиагностики с целью профориентации и профотбора.

79.Требования к психодиагностическим методикам. Валидность, виды валидности. Проверка теста на критериальную валидность методом контрастных групп.

80.Диагностика особенностей личности. Тематический апперцептивный тест (ТАТ) Г. Меррея и К. Моргана. РАТ (рисуночный апперцептивный тест).

ПРИЛОЖЕНИЕ № 3.

«МАЛОФОРМАЛИЗОВАННЫЙ ПСИХОДИАГНОСТИЧЕСКИЙ МЕТОД ″НАБЛЮДЕНИЕ″»

Методическое указание. Наблюдение осуществляется в процессе организованной специально, или имеющей место быть по факту трудовой профессиональной деятельности испытуемых, активности испытуемых в поведении, деятельности, общении, решении совместных деятельностных задач.

По форме проведения исследования, мы осуществляем прямое исследовательское наблюдение, применяем его в качестве практического психологического метода накопления данных.

По содержанию, по научной направленности исследования, мы исследуем человека как индивидуальность, как личность.

Цель наблюдения: изучение поведения и деятельности испытуемого в естественных условиях (как правило – в естественных условиях), выявление эмоциональных реакций субъекта, выяснение его чувственных отношений к действительности и т.д.

Вид (параметры) наблюдения: внешнее; стандартизированное; включённое; систематическое.

Инструкция. Наблюдение профессионально желательно осуществлять несколько раз (2–4 раза) подряд. Наблюдение осуществляется с фиксированными перерывами (промежутками) в течение полного дня жизнедеятельности субъекта или в течение нескольких часов (2–3 часа), находясь с ним в постоянном взаимодействии в процессе выполнения разнообразной деятельности. Наблюдателем должен являться только сам психолог, от лица которого и составляется протокол стандартизированного наблюдения. Протокол наблюдения, разработанный нами на основе многолетнего опыта, мы приводим в нижеследующей таблице.

«Протокол ведения стандартизированного систематического наблюдения за психологическими и ″деятельностными″ реакциями субъекта (субъектов)»(Автор-составитель Д.А. Донцов).

Объект (субъект, явление, процесс) внимания, поведения, деятельности наблюдаемого субъектаВысказывание (направленность вербальной активности; локализация, конкретизация речевой деятельности)Действие (движение, акт поведения, поступок)Экспрессивная (невербальная, двигательная) реакция (пантомимика)Вид, тип, форма (харак-терис-тика) прояв-ляемой эмоцииВыражение (прояв-ление) чувствен-ного и/или когнитив-ного отношения (к явлению, процессу, объекту, другому субъекту)
тексттексттексттексттексттекст

После проведения наблюдения, целесообразно осуществить системный целостный анализ его результатов. Собранный материал служит в качестве общей личностно-профессиональной информации об испытуемых. Путём наблюдения мы отмечаем наиболее актуальные проявления личности в процессе активности и коммуникации. Далее логично сделать психолого-педагогические и социально-профессиональные выводы о преобладающих в тех или иных случаях взаимодействия с окружающими различных реакциях испытуемых. После этого можно в ходе индивидуальных бесед дать испытуемым психолого-педагогические и социально-психологические рекомендации и указания относительно адекватности их эмоционально-чувственного реагирования, экспрессивных реакций, общения и дятельностного взаимодействия с коллегами и другими людьми как субъектами деятельности.

ПРИЛОЖЕНИЕ № 4.

«ОБЛАСТЬ СЕМАНТИЧЕСКИ ПОДРАЗУМЕВАЕМЫХ В ПСИХОДИАГНОСТИКЕ ЗНАЧЕНИЙ ВРЕМЕНИ»

Психологи-тестологи используют общеупотребимые термины для обозначения временных рамок (частоты времени) осуществления человеком чего-либо, наступления каких-либо событий, проявления (испытывания) субъектом некоторых эмоциональных реакций и т.д. Несмотря на то, что этим временным «промежуткам» присуща некоторая «широта границ», здесь приведён наиболее распространённый тестологический подход к пониманию данных слов как понятий (те сроки, которые наиболее часто подразумеваются под этими терминами).

«Всегда» (или «постоянно») – каждый день. «Почти всегда» (или «очень часто») – через день (почти каждый день). «Довольно часто» (или «часто») – 1-2 раза в неделю. «Нередко» («иногда», «подчас») – 2-4 раза в месяц. «Редко» – 1-3 раза в квартал (в три месяца). «Почти никогда» (очень редко) – 2-4 раза в год. «Никогда» («не случается», «не бывает») – какое-либо событие в принципе не происходило, какая-то эмоциональная реакция ни разу не имела места в жизни субъекта, какой-либо поступок субъектом никогда не совершался, – по крайней мере, до настоящего момента.

Так же, отвечая на вопросы любого теста, необходимо учитывать инструктивную постановку задачи (фраза об этом в подавляющем большинстве случаев есть в инструкции к каждому тесту-опроснику): заданы ли тестовые вопросы в расчете на то, что субъект охарактеризует своё самочувствие именно в настоящее время, в текущий (данный) момент времени; или субъекту необходимо описать свое состояние «по жизни», «обычно», «как правило», т.е., – отразить наиболее типичные для себя реакции, опираясь на анализ всех своих предыдущих поступков.

Если уточнения подобного рода в инструкции нет, то отвечать следует по прописанному выше второму варианту, – т.е. исходя из того, как Вы себя чувствуете в этом вопросе, как говорят, «по жизни».

ПРИЛОЖЕНИЕ № 5.

«ОСНОВЫ МЕТОДОЛОГИИ НАУЧНОЙ ПСИХОЛОГИИ И ПРАКТИЧЕСКОЙ ПСИХОДИАГНОСТИКИ ПО Б.Г. АНАНЬЕВУ»

Термин «Психология» имеет в основе два греческих слова: «психе» – душа, дыхание и «логос» – наука, учение. Современная психология – это наука о фактах, закономерностях и механизмах психики людей.

Надёжность психологического теста

Надёжность как устойчивость

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надёжность как внутренняя согласованность

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.

Для проверки внутренней согласованности применяются:

Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)

Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Помимо надежности тестов, есть также надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Мир психологии

психология для всех и каждого

Надёжность и валидность психодиагностических методик

Надёжность и валидность психодиагностических методик

Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность.

Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк, Е. Хаген и др.). Ими были разработаны формально-логический и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.

В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.

На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.

К.М. Гуревич предложил толковать надёжность как:

Определение надежности измерительного инструмента. От того как составлена методика, насколько правильно подобраны задания, насколько она однородна зависит точность, объективность измерения.

Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности) используют метод расщепления. Задания делят на четные и нечетные (необходимо выполнение всех заданий), а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д.

Методика надежна, если коэффициент не ниже 0,75 – 0,85, лучше 0,90 и выше.

Определение стабильности изучаемого признака. Также необходимо установить насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер.

Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования.

При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Экспериментатор сам устанавливает этот срок, но чаще в психологической литературе указывают на интервал от нескольких месяцев (но не более полугода). Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака.

Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.

Определение константности, т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Вопрос о валидности решается после того, как установлена надежность, так как ненадежная методика не может быть валидной.

Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность по своей сути – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность – соответствие конкретного исследования принятым стандартам (безупречному эксперименту).

Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая про-верка называется теоретической валидизацией. Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой.

Так как для определения теоретической валидизации тяжело найти какой-нибудь независимый критерий, лежащий вне методики, и поэтому раньше принимались на веру голословные утверждения о валидности этой методики. Так как теоретическая валидизация направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.

Для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой – отсутствие этой связи с методиками, имеющими другое теоретической основание (дискриминантная валидность).

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами Деятельности. Важно чтобы методика была проработана в теоретическом плане.

Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.

Для проверки прагматической валидности используется независимый внешний критерий – показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности – рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).

Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:

Внешний критерий должен обладать 3 основными требованиями:

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).

Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.

Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:

Надежность теста

Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Надежность теста

Надежность эксперимента

устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.

Добиться объективности психологического теста можно при выполнении следующих условий:

1) единообразие процедуры проведения теста для полу­чения сравнимых с нормой (см. ниже) результатов;

2) единообразие оценки выполнения теста;

3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тес­тирования (см. здесь «тре­тий этап стандартизации»).

Эти три условия называют этапами стандартизации психологического теста.

Этапы стандартизации

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1) условия тестирования (помещение, освещение и др. внешние факто­ры). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раз­дра­жителей, таких как посторонние звуки, голоса и т.д.

2) Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.

4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5) Стандартный бланк для выполнения данного теста. Использование стандартного блан­ка облегчает процедуру обработки.

6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испы­ту­емого (усталость, пере­напряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.

8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тес­тирования, преодолел чувство неизвестности и выработал опре­деленное отношение к тестовой ситуации. Например, если респон­дент уже выполнял тест Равена, то, скорее всего, не стоит предла­гать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в соз­дании единообразной оценки выполнения теста: стандартной интер­претации полученных результатов и предварительной стандартной обра­бот­ки. Этот этап предполагает также сравнение полученных пока­зателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:

Профессиональные нормы устанавливаются на основе тестов для разных про­фес­сиональных групп (например, механиков разного про­филя, машинисток и др.).

Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходи­мость таких норм определяется конкретной куль­турой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

Тема 11. НАДЕЖНОСТЬ ТЕСТА. ЕЕ ВИДЫ. ПРОЦЕДУРЫ ОПРЕДЕЛЕНИЯ НАДЕЖНОСТИ ТЕСТА (10 часов)

1. Надежность и ее виды.

2. Процедуры определения ретестововй надежности.

3. Определение одномоментной надежности теста

4. Надежность отдельных пунктов теста.

Тема 13. Надежность теста. Ее виды.

Процедуры определения надежности теста

Вопросы для обсуждения:

1. Понятие надежности. Виды надежности.

2. Ретестовая надежность тестовой методики. Процедуры ее определения: преимущества и недостатки.

3. Одномоментная надежность теста. Варианты определения одномоментной надежности: метод параллельных форм, метод расщепления, метод анализа согласованности ответов по всем пунктам методики (метод Кьюдера-Ричардсона). Преимущества и недостатки каждого из них.

3. Надежность отдельных пунктов теста. Характеристика требований, обеспечивающих надежность отдельных пунктов теста: объективность, валид-ность, устойчивость, сила/трудность, дискриминативность. Процедуры опреде­ления надежности отдельных пунктов теста

1) расчет ретестовой надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера;

2) расчет одномоментной надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера.

1. Надежность и ее виды.

В традиционной тестологии термин «надежность» означает относ тельное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место, занимаемое испытуемым в группе.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.)

меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.д.);

3) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);

4) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т.д.);

5) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т.п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важ­нейших средств повышения надежности психодиагностической ме­тодики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенно­сти контакта с испытуемыми, порядок предъявления заданий и т.д. При такой стандартизации процедуры исследования можно сущест­венно уменьшить влияние посторонних случайных факторов на ре­зультаты теста и таким образом повысить их надежность.

В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах ив какой мере они могут быть приписаны случайным ошибкам. В узком методическом смысле под надежностью понимают степень согласованности результатов теста при повторном его использовании.

На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой.

В настоящее время надежность все чаще определяется на наибо­лее однородных выборках, т.е. на выборках, схожих по полу, воз­расту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надеж­ности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Так как все виды надежности отражают степень согласованное двух независимо полученных рядов показателей, то математике статистический прием, с помощью которого устанавливается надежность методики, — это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот. Важнейшим средством повышения надежности ПД методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановка и условия работы, характер инструкции, временные ограничения, способы и особенности контакта с испытуемым и пр.) существенно повышается надежность теста.

Надежность тесно связана с валидностью. Надежность – это устойчивость процедуры относительно объектов исследования. Валидность – устойчивость относительно измеряемых свойств объекта (предмета измерения). Устойчивость теста относительно объектов исследования является необходимым, но не достаточным условием его устойчивости относительно измеряемых свойств объектов. То есть, надежность является необходимым, но не достаточным условием валидности. Валидность может качественно и количественно превышать надежность.

В данном пособии при описании видов надежности основной упор делается на работы К.М. Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зарубежной литературы по это£ проблеме, предложил толковать надежность как:

1) надежность самого измерительного инструмента;

2) стабильность изучаемого признака;

3) константность, т.е. относительную независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности; показатель, харак­теризующий стабильность измеряемого свойства, — коэффициентом стабильности; а показатель оценки влияния личности эксперимен­татора — коэффициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.

1. Определение надежности измерительного инструмента.От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологиче­ского измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так на­зываемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух по­лученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корре­ляции будет достаточно высоким.

Можно делить задания и другим путем, например сопоставить первую половину теста со второй, первую и третью четверть — со второй и четвертой и т.п. Однако «расщепление» на четные и не­четные задания представляется наиболее целесообразным, посколь­ку именно этот способ наиболее независим от влияния таких фак­торов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный ко­эффициент не ниже 0,75—0,85. Лучшие по надежности тесты дают коэффициенты порядка0,90 и более.

Но на начальном этапе разработки диагностической методики можно получить невысокие коэффициенты надежности, например, порядка 0,46—0,50. Это означает, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей спе­цифичности ведут к снижению коэффициента корреляции. Такие задания необходимо специально проанализировать и либо переде­лать их, либо вообще изъять.

Чтобы легче было установить, за счет каких заданий снижаются коэффициенты корреляции, необходимо проанализировать таблицы с выписанными данными, подготовленными для корреляций. Следу­ет отметить, что любые изменения в содержании методики — изъя­тие заданий, их перестановка, переформулировка вопросов или от­ветов требует заново высчитывать коэффициенты надежности.

При ознакомлении с коэффициентами надежности не следует за­бывать, что они зависят не только от правильного подбора заданий с точки зрения их взаимосогласованности, но и от социально-психологической однородности той выборки, на которой проверя­лась надежность измерительного инструмента.

2. Определение стабильности изучаемого признака.Опре­делить надежность самой методики — это не значит решить все во­просы, связанные с ее применением. Нужно еще установить, на­сколько устойчив, стабилен признак, который исследователь наме­рен измерять. Колебания признака не должны иметь непредсказуемого характера. Если не ясны причины резких колебаний, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойств используется прием, известный как тест — ретест. Он заключаете в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико Поэтому необходимо соблюдать требования единообразия процедуры проведения эксперимента.

При определении стабильности признака большое значение имеет промежуток времени между первым и повторным обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого, но не слишком, так как возможно, что испытуемые помнят свои ответы. В тестологической литературе наиболее часто называются вре­менные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные измене­ния и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.

Если тест исследует свойство, которое в период тестирования находится в процессе интенсивного развития (напри­мер, умение проводить обобщения), то коэффициент стабильности мо­жет оказаться невысоким, но это не следует истолковывать как недос­таток теста. Такой коэффициент стабильности должен интерпретиро­ваться как показатель определенных изменений, развития исследуемого свойства. Совсем другое требование предъявляется к коэффициенту ста­бильности, если автор методики считает, что измеряемое свойство уже сформировано и должно быть достаточно устойчивым. Коэффи­циент стабильности в этом случае должен быть достаточно высоким (не ниже 0,80).

Таким образом, вопрос о стабильности измеряемого свойства ре­шается не всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными эксперимен­таторами. Коэффициент корреляции не должен быть ниже 0,80.

2. Определение ретестовой надежности.

НАДЕЖНОСТЬ РЕТЕСТОВАЯ— ха­рактеристика надежности психодиагно­стической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надеж­ность в этом случае вычисляется по соот­ветствию результатов первого и второго обследований или по сохранению ранго­вых мест испытуемых в выборке при ретесте. Коэффициент надежности (г() соответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкалприменяет­ся коэффициент корреляции произведе­ния моментов Пирсона. Для шкал порядка в ка­честве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

При характеристике ретестовой надежности особое зна­чение имеет временной интервал между первым и вторым обследованиями. С его увеличением показатели корреляции име­ют тенденцию к снижению, существенно повышается вероятность воздействия по­сторонних факторов — могут наступить закономерные возрастные изменения из­меряемых тестом свойств, произойти раз­личные события, влияющие на состояние и особенности развития исследуемых ка­честв. По этой причине при определении ретестовой надежности стараются выбирать непродолжи­тельные временные интервалы (до не­скольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку воз­растные изменения и развитие в этом слу­чае происходят еще быстрее.

Несмотря на указанную тенденцию, при получении характеристик теста про­водятся повторные испытания и с дли­тельным временном промежутком. Определение ретестовой надежности ограничивается анализом краткосрочных случайных изменений, характеризующих тест как измери­тельную процедуру, а не его отношение к исследуемой области поведения.

Наряду с очевидной простотой ретестовая надежность как метод определения надежности обла­дает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интерва­ле между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуаль­ных результатов, хотя и не одинаково выраженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной вы­борке и, соответственно, ухудшению ко­эффициента надежности. Еще более за­метное воздействие на результаты анали­за надежности оказывает запоминание ис­пытуемыми отдельных решений, воспро­изведение в повторном обследовании пре­дыдущей картины правильных и непра­вильных решений. В этом случае резуль­таты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.

Один из путей устранения влияния тренировки на результаты оценки ретестовой надежности — формирование устойчивого навыка в ра­боте с соответствующей методикой перед проведением тест-ретеста. Однако коли­чество повторений теста при этом неиз­бежно возрастает, что приводит к увели­чению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, со­держащих большое количество элементов тестового материала.

Для других методик, очевидно, един­ственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоре­чие с определением надежности как ха­рактеристики теста.

Для большинства тестов общих спо­собностей характерно улучшение показа­телей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выпол­нения. Другим фактором увеличения рас­четных показателей Н. р. является отно­сительное замедление с возрастом темпа психического развития в области тех ха­рактеристик, которые могут стать объек­том измерения или влиять на результат теста. Благодаря этому, спустя время, со­ставляющее интервал ретеста, случайные искус­ственно завышает показатели Н. р. Эта закономерность требует отдельных изме­рений Н. р. в разных возрастных контингентах испытуемых, что особенно суще­ственно для методик, предназначенных для обследования в широком возрастном диапазоне.Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускаю­щих многократное повторное обследова­ние. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других мето­дик, отличающихся большим количеством пунктов.

3. Определение одномоментной надежности.

Одномоментная надежность теста. Понятие сопоставимых форм методи­ки. Варианты определения одномоментной надежности:

Метод параллельных форм.

Одни и те же испытуемые в выборке опре­деления надежности обследуются внача­ле с использованием основного набора заданий, а затем — с применением анало­гичных дополнительных наборов. Коэф­фициент надежности по типу параллельных форм мо­жет быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них пред­лагается форма А теста, а другой — фор­ма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.

Такая процедура обследования лише­на значительной части недостатков спосо­ба определения надежности ретестовой. Так как в параллельной форме ис­пользуется другой по содержанию мате­риал, возможность тренировки и запоми­нания отдельных решений уменьшается. Важнейшим преимуществом данного ме­тода является сокращение временного ин­тервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между резуль­татами первичного и повторного обследо­ваний, который позволяет оценить как временную стабильность теста (собствен­но надежность), так и степень соответ­ствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.

Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только от­вечать одним и тем же требованиям, измеряя идентичные показатели и давая сход­ные результаты, но вместе с тем быть от­носительно независимыми друг от друга. На практике эта задача осуществима да­леко не для всех тестовых. Другим недостатком характеристики надеж­ности по типу Н. п. ф. является возмож­ность усвоения испытуемым принципа ре­шения, общего для основной и параллель­ной форм. Таким образом, в случае оцен­ки Н. п. ф. влияние тренировки и навыка, приобретаемого при повторном обследо­вании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.

Наиболее простым и распространен­ным способом определения Н. ч. т. явля­ется метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайногонабора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отно­шению к тесту в целом).

Для оценки надежности методом рас­щепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласован­ность, Трудность заданий теста). Раз­деление объема заданий теста на сопоста­вимые части достигается:

—распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);

— распределением пунктов по принципу близости или равенства значений индексов трудности и дискриминативности.

При расщеплении тестов скорости применяется особая процедура группи­ровки заданий. Определяется минималь­ное время (t^J решения целого теста, за­тем отсчитываются половина и четвертая часть этого времени. Все испытуемые ра­ботают половину минимального времени, после чего ставят отметку против зада­ния, выполняемого в момент подачи сиг­нала, и продолжают работать еще чет­верть минимального времени. Коэффици­ент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигна­ла (0,5tm]n) и решенных за время между первым и вторым сигналами (0,25fmln).

Разделение заданий теста на равно­ценные половины является лишь частным случаем Н. ч. т. Вполне возможно рас­щепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутрен­ней согласованности.

При разделении всего набора заданий теста на любое количество групп для пра­вильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания те­ста должны быть в высокой степени од­нородны по содержанию и трудности (го­могенны). При гетерогенных задачах значения rt ниже истинных.

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кьюдера—Ричардсона

При отсутствии коэффициента диск­риминации применим вариант формулы Кьюдера—Ричардсона:

Как можно установить надежность частей теста. Смотреть фото Как можно установить надежность частей теста. Смотреть картинку Как можно установить надежность частей теста. Картинка про Как можно установить надежность частей теста. Фото Как можно установить надежность частей теста

Где ∑σ² ‑ сумма дисперсий результатов отдельных заданий. В практике психологической диагностики считается, что тест надежен, если r>0,6.

Характеристика надежности по типу частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм, главным образом благодаря отсутствию необходимости в повторном обследова­нии. Таким образом, снимается влияние многих посторонних факторов, в частно­сти тренировки, запоминания решений и т. д. Это обстоятельство определяет ши­рокое распространение метода Кьюдера-Ричардсона по сравнению с другими типами надежности. К недостаткам мето­да относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комби­нирования метода Кьюдера-Ричардсона с другими типа­ми характеристики надежности психоло­гической методики

4. Надежность отдельных пунктов теста.

Надежность отдельных пунктов теста. Характеристика требований, обес­печивающих надежность отдельных пунктов теста: объективность, валидность, устойчивость, сила/трудность, дискриминативность. Процедуры определения надежности отдельных пунктов теста.

Текст книги «Психодиагностика: конспект лекций»

Автор книги: Алексей Лучинин

Медицина

Текущая страница: 5 (всего у книги 13 страниц) [доступный отрывок для чтения: 5 страниц]

4. Надежность частей теста, ее определение методом расщепления. Уравнение Спирмена – Брауна. Определение коэффициента надежности с помощью формул Дж. Фланагана и Рюлона

Надежность частей теста – характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста. Наиболее простым и распространенным способом определения надежности частей теста является метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайного набора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий, по отношению к тесту в целом).

Для оценки надежности методом расщепления выбирают две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий теста на сопоставимые части достигается:

1) распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);

2) распределением пунктов по принципу близости или равенства значений индексов трудности. Такой принцип разделения пригоден для тестов достижений, в которых обязателен ответ испытуемых на все пункты;

3) распределением задач по времени решения каждой из частей (для тестов скорости).

Для испытуемых в выборке определения надежности (раздельно для каждой из частей теста) вычисляются оценки успешности решений, среднеквадратические отклонения первого и второго рядов оценок и коэффициенты корреляции сравниваемых рядов. Естественно, эти коэффициенты будут характеризовать надежность лишь половины теста.

Уравнение Спирмена – Брауна отражает влияние изменения количества заданий на коэффициент надежности теста:

rt = nr’ t / 1 + (n – 1) r’ t,

где rt – коэффициент надежности для полного объема заданий, r’ t – его значение после изменения числа заданий, n – отношение нового числа заданий к первоначальному (если число заданий полного теста – 100, а его части, полученной методом расщепления на половины, – 50, то n = 0,5).

Отсюда для полного теста:

rt = 2r’ t / 1 + r’ t.

Приведенные формулы справедливы для случаев равных стандартных отклонений обеих половин теста (σxl = σх2). Если σxl отличается от σх2, для определения коэффициента надежности применяется формула Фланагана:

rt = 4σ xlσ х2r’ t / σ xl + σх2 + 2σxlσх2r’ t.

При определении rt целого теста можно воспользоваться формулой Рюлона:

rt = 1 – σ 2 Δ / σ 2 x,

где σ 2 Δ – дисперсия разностей между результатами каждого испытуемого по двум половинам теста,

σ 2 x – дисперсия суммарных результатов.

В данном случае коэффициент надежности рассчитывается как доля истинной дисперсии результатов теста.

Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Вполне возможно расщепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При разделении всего набора заданий теста на любое количество групп для правильного определения надежности частей теста, как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания теста должны быть в высокой степени однородны по содержанию и трудности (гомогенны). При гетерогенных задачах значения rt ниже истинных.

Характеристика надежности по типу надежности частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм главным образом благодаря отсутствию необходимости в повторном обследовании. Таким образом, снимается влияние многих посторонних факторов, в частности тренировки, запоминания решений и т. д. Это обстоятельство определяет широкое распространение методов характеристики надежности частей теста по сравнению с другими типами надежности. К недостаткам метода относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комбинирования метода надежности частей теста с другими типами характеристики надежности психологической методики.

ЛЕКЦИЯ № 10. Сущность валидности

1. Определения валидности

Валидность (от англ. valid – «действительный, пригодный, имеющий силу») – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

В наиболее простой и общей формулировке валидность теста – это «понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» А. Анастази, 1982). В стандартных требованиях к психологическим и образовательным тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы с помощью методики, а также о степени обоснованности выводов при использовании конкретных тестовых оценок или других форм оценивания. В психодиагностике валидность – обязательная и наиболее важная часть сведений о методике, включающая (наряду с указанными выше) данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретических ожиданий, наблюдений, экспертных оценок, результатов других методик, достоверность которых установлена и т. д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами. Валидность описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культурной принадлежности и т. д.) и степень обоснованности выводов в конкретных условиях использования теста. В совокупности сведений, характеризующих валидность теста, содержится информация об адекватности применяемой модели деятельности с точки зрения отражения в ней изучаемой психологической особенности, о степени однородности заданий (субтестов), включенных в тест, их сопоставимости при количественной оценке результатов теста в целом.

2. Важнейшие составляющие валидности

Важнейшая составляющая валидности – определение области изучаемых свойств – имеет принципиальное теоретическое и практическое значение при выборе методики исследования и интерпретации ее данных. Содержащаяся в названии теста информация, как правило, недостаточна для суждения о сфере его применения. Это лишь обозначение, «имя» конкретной процедуры исследования. В качестве примера можно привести широко известную корректурную пробу. Область изучаемых свойств личности включает устойчивость и концентрацию внимания, психомоторную подвижность. Данная методика позволяет получать оценки выраженности этих психологических качеств у испытуемого, хорошо согласуется с показателями, полученными другими методами, и, следовательно, обладает высокой валидностью. Наряду с этим результаты выполнения корректурной пробы подвержены влиянию большого количества других факторов (нейродинамических особенностей, характеристик кратковременной и оперативной памяти, индивидуальной переносимости монотонии, развития навыка чтения, особенностей зрения и т. д.), по отношению к которым методика не является специфичной. В случае применения корректурной пробы для их измерения валидность будет невелика или сомнительна.

Таким образом, очерчивая сферу применения методики, валидность отражает и уровень обоснованности результатов измерения. Очевидно, что при небольшом количестве сопутствующих факторов, влияющих на результат исследования, а значит, при их незначительном воздействии на результат теста достоверность тестовых оценок будет выше. Еще в большей степени достоверность данных теста определяется набором измеряемых свойств, их значимостью для осуществления диагностируемой сложной деятельности, полнотой и существенностью отражения в материале теста предмета измерения. Так, чтобы удовлетворить требованиям валидности, диагностическая методика, предназначенная для профотбора, должна включать анализ широкого круга нередко различных по своей природе показателей, наиболее важных для достижения успеха в данной профессии (уровеня внимания, особенностей памяти, психомоторики, эмоциональной устойчивости, интересов, склонностей и т. д.). Как видно из вышеизложенного, в понятие валидности входит большое количество самой разнообразной информации о тесте. Различные категории этих сведений и способы их получения образуют типы валидности.

Диагностическая (конкурентная) валидность отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической валидности имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования. Примером определения этого типа валидности может быть исследование по методу контрастных групп. Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической валидности оценки умственного развития, получаемой с помощью данной методики.

Сведения, характеризующие степени обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляют прогностическую валидность методики. Заключение об этом типе валидности может быть получено, например, путем сравнения тестовых оценок в одной и той же группе испытуемых спустя определенное время. Основой прогностической валидности является определение того, насколько важен исследуемый признак с точки зрения деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, перехода на другой уровень развития.

Большинство методик, особенно тестов способностей и интеллекта, исследуется на предмет диагностической и прогностической валидности. Два этих типа валидности нередко объединяют в понятие эмпирической валидности. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия (см. валидности критериальная). Критерий валидности выступает в качестве меры, показателя исследуемых психологических особенностей. Так, тесты специальных способностей проверяются путем сопоставления с результатами обучения по другим предметам, достижениями в музыке, рисовании и т. д. Тесты общих интеллектуальных способностей валидизируются сравнением с еще более широкими характеристиками школьных достижений (общей успеваемостью, овладением сложными системами знаний и навыков). Критерий валидности является независимым от теста показателем, обладающим непосредственной ценностью для определенных областей практической деятельности. Например, в области педагогической психологии это успеваемость, в психологии труда – производительность, в медицинской психологии – состояние здоровья и т. д. В качестве непосредственных критериев часто используются экспертные оценки и характеристики лиц, обследованных с помощью валидизируемого теста, данные педагогами, сотрудниками, руководителями.

Во многих случаях бывает сложно или невозможно подобрать адекватный критерий валидизации. При этом особую важность приобретает комплекс характеристик, входящих в тип теоретической валидности. При разработке и использовании теста может быть сформулирован ряд гипотез о том, как будет коррелировать исследуемый тест с другим тестом, измеряющим родственные или противоположные психологические характеристики испытуемых. Эти гипотезы выдвигаются на основании теоретических представлений об измеряемых свойствах как о психологическом конструкте. Подтверждение гипотез свидетельствует о теоретической обоснованности методики, т. е. о степени ее конструктной валидности. Этот тип валидности является наиболее сложным и комплексным. Для подтверждения соответствия получаемых с помощью теста результатов теоретическим ожиданиям и закономерностям используется самая различная информация, в том числе относящаяся к другим типам валидности.

Валидность содержательная (внутренняя, логическая) – комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Одним из основных требований при валидизации методики в этом направлении является отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность очень сложна, то содержательная валидность требует представления в заданиях теста всех важнейших составных элементов исследуемого явления. Так, при разработке теста вербального интеллекта необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по своему операциональному составу навыков письма и чтения.

Наряду с перечисленными основными типами валидности (содержательной, критериальной и конструктной) на практике выделяют факторную, перекрестную (конвергентную) и дискриминантную валидности.

3. Основные типы валидности (диагностическая, прогностическая, эмпирическая, критериальная, конструктная, содержательная). Классификация типов валидности

Классификация типов валидности в достаточной мере условна, так как, с одной стороны, нередко для различных критериев валидности применяются общие методы определения, – а стороны, одни и те же исходные данные могут интерпретироваться с точки зрения различных типов валидности.

Источники информации:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *