Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть?
Дисклеймер
Педагогические и психологические тесты
Почему именно тесты?
Измерение
Конструкты
Операциональное определение
Операциональное определение
Валидность
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Разработка теста
Зачем это все?
Кроме того: одномерность теста
Эталоны
Концепт тестового балла
Ошибка измерения
Ошибка измерения
Систематическая ошибка измерения
Случайная ошибка измерения
Ошибка измерения и надежность теста
Инвариантность измерения относительно инструмента
Поговорим про практические аспекты?
Трудность задания
Различительная способность задания
Коэффициенты корреляции
Коэффициенты корреляции (КК)
Коэффициенты корреляции
Критические значения параметров
Изящество классической модели
Итого: абсолютный релятивизм
Что же делать?
Нужны ли тесты вообще?
Спасибо за внимание!
Психологическое тестирование: математический взгляд
Тестирование: математический взгляд
Про вероятность правильного ответа на вопрос
Шкалирование Гуттмана
Все сложнее: “дисперсия ошибки”
Классическая Теория Тестирования
Современная теория тестирования
Логистическая регрессия
Логистическая регрессия
Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам
Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам
Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам
Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам
Карта переменных (Wright Map, Kidmap, Variable Map)
Статистические основания продвинутых психометрических методов: пример теста из трех заданий
Поговорим про модели
Дихотомические модели: 1PL
Дихотомические модели: 5PL
Специфические модели
9.02M
Категория: ПсихологияПсихология

Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть

1. Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть?

Денис Федерякин, Ирина Угланова
НИУ ВШЭ, Институт образования, Измерения в психологии и образовании
При подготовке использовались материалы
Тюменевой Ю.А., Васина Г.М., Кардановой Е.Ю.

2.

Вы не можете этим управлять,
если не сможете это измерить
Измерения в психологии и образовании
2

3. Дисклеймер

• Как потерять всех друзей-психологов и заставить их
себя ненавидеть?
• Стань методологом
• Нечего сказать про исследование?
• Пристань к методологии
• Как выбрать лучший тест?
• Никак. Все тесты разные, и это нормально.
Измерения в психологии и образовании
3

4. Педагогические и психологические тесты

• Способность = черта
• Уровень способности = уровень черты
• Трудность задания = трудность согласиться
с утверждением
• Правильный ответ на задание говорит о самом
высоком уровне способности, которое может
измерить это задание; вариант ответа «Абсолютно
согласен» говорит о самом высоком уровне черты,
которое может измерить задание.
Измерения в психологии и образовании
4

5. Почему именно тесты?

• Отделение одной характеристики респондентов от смежных
• Объективность и справедливость
• Экономически выгодно
• Тиражируемость
• Предсказуемость результатов применения:
• Таблицы Taylor-Russell и таблицы Lawshe: сколько процентов поступающих на
работу будут справляться с ней при определенной корреляции баллов по
инструменту и job performance
• Таблицы Naylor-Shine: показывает как много денег для организации
заработают сотрудники в зависимости от корреляции баллов по инструменту
и результативности сотрудника при сравнении с набранными случайно
Измерения в психологии и образовании
5

6. Измерение

• В естественных науках:
• Понимание величины четко определено
• Сравнение с эталоном (пре-реквизит: эталоны четко заданы и
конвертируемы друг в друга)
• Присутствует ошибка измерения (ВСЕГДА), но иногда ею можно пренебречь
• Не зависит относительно измерительного инструмента
• В социальных науках:
• Все плохо
Но: по одному шагу за раз.
Измерения в психологии и образовании
6

7. Конструкты

• Вы когда-нибудь видели критическое мышление
или тревожность ходящими по комнате?
• Если да, Вам следует обратиться за помощью.
• Ненаблюдаемые (латентные) конструкты не существуют в
реальности
• То, что мы измеряем – это наше представление об
определенных
чертах
или
способностях
(операционализация конструкта, модель конструкта)
Измерения в психологии и образовании
7

8. Операциональное определение

Операциональное определение – определение конструкта в терминах
операций, выполняемых при его измерении
Напрямую конструкты измерить невозможно, поэтому мы:
• Собираем свидетельства о проявлении некоторого поведения
• Допускаем, что это поведение объясняется нашим пониманием
конструкта
• Допускаем, что чем чаще проявляется определенное поведение,
тем сильнее выражен конструкт
• Допускаем, что все многообразие поведения, соответствующее
конструкту, объясняется только этим конструктом и ничем другим
Один конструкт = одна размерность
Измерения в психологии и образовании
8

9. Операциональное определение

Операциональное определение – определение конструкта в терминах
операций, выполняемых при его измерении
Операционализация
Измерения в психологии и образовании
9

10. Валидность

Измеряет ли тест то, что Вы хотите им измерить?
• Действительно ли Ваш тест измеряет конструкт в Вашем понимании?
Давным-давно в далекой-далекой галактике существовала только
критериальная валидность, и все были очень тревожные.
Конструктная валидность – это выход.
• Валидность – это сумма доказательств,
поддерживающих вашу интерпретацию тестового балла
• Процесс валидизации никогда не может быть полностью завершен,
поэтому Вы можете собирать свидетельства о валидности хоть всю жизнь.
Измерения в психологии и образовании
10

11. Разработка теста

ЧЕРТА
ЗАКЛЮЧЕНИЕ
Интерпретация
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ОЖИДАЕМЫЙ БАЛЛ
ЦЕЛЕВОЙ ОБЛАСТИ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Экстраполяция
ОЖИДАЕМЫЙ ТЕСТОВЫЙ
БАЛЛ ОГ
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

12.

Разработка теста
МЕЛКАЯ МОТОРИКА
ЧЕРТА
Измерения в психологии и образовании
12

13. Разработка теста

Операционализация:
под мелкой моторикой
мы понимаем то,
насколько
скоординировано
человек двигает
пальцами?
Или как ловко он
оперирует мелкими
предметами?
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ЧЕРТА

14. Разработка теста

Определение области
проявления поведения:
мелкая моторика может
проявляться в
бесконечном множестве
ситуаций.
От того, насколько ловко
человек ковыряется в
носу, до часового и
ювелирного мастерства.
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ЧЕРТА
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)

15. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
Мелкая моторика связана с общей
координацией
движений
и
физическим развитием?
С социальной ситуацией действия:
человек
может
мастерски
ковыряться в носу, но не
показывать этого на людях?

16. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Человеку может нравиться
быть часовщиком, но может не
нравиться ковыряться в носу.
Или наоборот.
¯\_(ツ)_/¯

17. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Опросник, основанный на самоотчете;
эксперимент (как много гаек он
закрутит пальцами, пока не скажет,
что с него хватит);
наблюдение.
Или ещё миллион способов.
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE

18. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
Это все, конечно, прекрасно, но
мы будем исследовать мелкую
моторику по тому, как он играет
в LEGO.

19. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
Знакомство и отношение
испытуемого к LEGO
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE

20. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
Знакомство и отношение
испытуемого к LEGO
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
Испытуемому нравятся наборы The
Avengers, а мы будем использовать
наборы Star Wars

21. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
Знакомство и отношение
испытуемого к LEGO
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
Испытуемому нравятся наборы The
Avengers, а мы будем использовать
наборы Star Wars
Дизайн сбора данных

22. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
Использование данных о
процессе деятельности или
использование результата
деятельности?

23. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
Мы будем смотреть на то, собран ли
конструктор и на
время сбора конструктора.

24. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Что бы Вы не решили
оценивать, сами оценки
должны быть продуманы.
Нужно задать правила
начисления баллов.
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ

25. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
2 балла – конструктор аккуратно
и полностью собран;
1 балл – конструктор собран
неаккуратно или неполностью;
0 баллов – конструктор не
собран.
Время – в секундах
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ

26. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Психометрические характеристики
инструмента?
• Кроме Альфы Кронбаха что-то еще
существует?
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

27. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Как испытуемый играет с
LEGO Star Wars Collection?
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

28. Разработка теста

ЧЕРТА
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Допущение: респондент играет
со всем LEGO точно так же, как и
с Star Wars Collection
ОЖИДАЕМЫЙ ТЕСТОВЫЙ
БАЛЛ ОГ
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

29. Разработка теста

ЧЕРТА
Как респондент работает со всем
LEGO?
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Экстраполяция
ОЖИДАЕМЫЙ ТЕСТОВЫЙ
БАЛЛ ОГ
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

30. Разработка теста

ЧЕРТА
Допущение: респондент
работает со всем LEGO точно так
же, как и работает со всеми
мелкими предметами
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ОЖИДАЕМЫЙ БАЛЛ
ЦЕЛЕВОЙ ОБЛАСТИ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Экстраполяция
ОЖИДАЕМЫЙ ТЕСТОВЫЙ
БАЛЛ ОГ
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

31. Разработка теста

ЧЕРТА
То, как респондент обращается с
мелкими предметами, действительно
отображает уровень развития его мелкой
моторики?
Интерпретация
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ОЖИДАЕМЫЙ БАЛЛ
ЦЕЛЕВОЙ ОБЛАСТИ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Экстраполяция
ОЖИДАЕМЫЙ ТЕСТОВЫЙ
БАЛЛ ОГ
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

32. Разработка теста

«У респондента мелкая
моторика развита лучше,
чем у N% населения»
Разработка теста
ЧЕРТА
ЗАКЛЮЧЕНИЕ
Интерпретация
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ОЖИДАЕМЫЙ БАЛЛ
ЦЕЛЕВОЙ ОБЛАСТИ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Экстраполяция
ОЖИДАЕМЫЙ ТЕСТОВЫЙ
БАЛЛ ОГ
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

33. Разработка теста

«Респондент относится к уровню
«Высокий» по уровню развития
мелкой
моторики
с
вероятностью К»
ЧЕРТА
ЗАКЛЮЧЕНИЕ
Интерпретация
ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ
ОЖИДАЕМЫЙ БАЛЛ
ЦЕЛЕВОЙ ОБЛАСТИ
ПРОЯВЛЕНИЯ ПОВЕДЕНИЯ
(ЦЕЛЕВАЯ ОБЛАСТЬ)
Экстраполяция
ОЖИДАЕМЫЙ ТЕСТОВЫЙ
БАЛЛ ОГ
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
Brennan R. (Ed.). (2006). Educational
Measurement. 4th ed. NCME&ACE
ВЫБОРКА
ИНДИКАТОРОВ
НАЧИСЛЕНИЕ БАЛЛОВ
Генерализация
НАБЛЮДАЕМЫЙ
ТЕСТОВЫЙ БАЛЛ

34. Зачем это все?

• После получения тестового балла мы меняли только наше понимание того, что
тестовый балл значит. Но больше ничего не менялось.
Не совсем так.
• Мы работаем с выборкой. Если выборка репрезентативна, то на этих шагах
делаются математические допущения о распределении черты в генеральной
совокупности (во всей популяции людей, на которую мы можем распространять
результаты).
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ
ЛЮДЕЙ
• А если нерепрезентативная?
• Ой, всё.
ВЫБОРКА
ЛЮДЕЙ
Измерения в психологии и образовании
34

35. Кроме того: одномерность теста

• Когда читаете про Альфу Кронбаха, всегда натыкаетесь на то, что
«она не должна использоваться как мера одномерности теста»
• Чё?
• Одномерность предполагает, что все многообразие поведения,
стоящего за конструктом можно отразить одномерной шкалой.
• Действия, которые должны относиться к нашему конструкту,
происходят из-за нашего конструкта. И только из-за него.
• Респондент не может быть лучше в одном аспекте конструкта, чем в
другом.
Измерения в психологии и образовании
35

36. Эталоны

• Что такое тестовый балл?
• Что является единицей измерения?
Измерения в психологии и образовании
36

37. Концепт тестового балла

• А одинакова ли разница между респондентами с 29 и 30 баллами и
респондентами с 30 и 31?
• Тестовый балл дискретен, конструкт тоже?
Измерения в психологии и образовании
37

38. Ошибка измерения

• Кто о ней вообще думает?
• Самая известная модель классической теории тестирования:
X = T + E, где
X – это полученный (наблюдаемый, тестовый) балл
T – это истинный балл
E – это ошибка определения истинного балла
• Ошибка есть всегда. Какие-то ответы определяются истинной способностью
испытуемого, а какие-то – ошибкой.
• Как определить, какие ответы будут истинными?
Измерения в психологии и образовании
38

39. Ошибка измерения

• Поскольку определить ошибку напрямую
невозможно, для нее придуманы философские
допущения.
• Есть случайная ошибка измерения.
Есть систематическая ошибка измерения.
Измерения в психологии и образовании
39

40. Систематическая ошибка измерения

• Систематическая ошибка измерения систематически и
предсказуемо изменяет его на одну и ту же величину
• Как её определить?
• Никак, она входит в истинный балл, поехали дальше.
Измерения в психологии и образовании
40

41. Случайная ошибка измерения

Случайная ошибка измерения (Standard Error of Measurement)
– это общий эффект всех неконтролируемых и
неспецифических влияний на тестовый балл.
• Средняя ошибка при бесконечном повторении тестирования равна нулю.
• Ошибки двух людей не связаны, ошибки двух вопросов не связаны.
• Ошибка не связана с истинным баллом.
Измерения в психологии и образовании
41

42. Ошибка измерения и надежность теста

• Надежность теста – это мера того, насколько данные свободны от ошибки
• Измеряет ли тест вообще что-либо или все результаты – набор ошибок?
• Но как определить величину ошибки, если не существует даже единицы
измерения?
• Напрямую – никак
• Множество мер надежности, самая известная
[и самая плохая] – α Кронбаха
Измерения в психологии и образовании
42

43. Инвариантность измерения относительно инструмента

• Разные варианты (формы) теста.
Все задания разные: какие-то легче, какие-то труднее.
• Как доказать, что варианты теста эквивалентны?
• Как определить, какие баллы по одному варианту эквивалентны каким баллам по
другому?
• Проще умереть.
Измерения в психологии и образовании
43

44. Поговорим про практические аспекты?

• Трудность задания
• Различительная способность задания
• Надежность
Измерения в психологии и образовании
44

45. Трудность задания

В дихотомическом случае
В политомическом случае
(0/1 балл) коэффициент
трудности равен доле
правильно решивших задание
от всей выборки (среднему
баллу за задание)
(шкала Ликерта от 1 до 4)
коэффициент трудности равен
среднему баллу по заданию,
деленному на количество
категорий задания
P-value = 0.8
P-value = 0.3
20%
4
10%
3
45%
70%
80%
Relative p-value = 1.5
Absolute p-value = 0.38
2
30%
1
15%
30%
Задание 1
Задание 2
P-value – коэффициент трудности

46. Различительная способность задания

• Вы хотите, что бы ваши задания выполняли сильные респонденты, и
не выполняли слабые, т.е., чтобы ваши задания дифференцировали
респондентов по уровню способности
• NB!: Это не вопрос
• Существует несколько способов измерить различительную
способность задания
• Посмотреть различия «самых сильных» и «самых слабых» респондентов
• Коэффициенты корреляции: корреляция балла по заданию с баллом по
тесту (+ скорректированные коэффициенты корреляции)
Измерения в психологии и образовании
46

47. Коэффициенты корреляции

• Мы можем посмотреть, как связан балл за одно задание
с итоговым баллом по тесту
• Связано должно быть сильно
• И положительно, если вопрос прямой
• Зачем на это смотреть?
• Итоговый балл за задание – выраженность конструкта
• Связь балла за задание с итоговым баллом – связь отдельного аспекта
конструкта с конструктом в целом
Измерения в психологии и образовании
47

48. Коэффициенты корреляции (КК)

• Правомерно ли рассчитывать корреляцию баллов за задание с баллом
за тест, в который входит это задание?
• Ни в одной из параллельных реальностей
• Скорректированные КК особенно критично применять, когда в тесте
мало заданий, и вклад каждого задания в тестовый балл особенно
силен; тем не менее, их рекомендуется применять всегда
• Формулы скорректированных КК не отличаются ничем, но они
рассчитываются на скорректированном тестовом балле, который лишен
вклада изучаемого задания
• Скорректированный тестовый балл = Тестовый балл – Балл по
заданию*
*Скорректированный тестовый балл различается для всех заданий
Измерения в психологии и образовании
48

49. Коэффициенты корреляции

Точечно-бисериальная
корреляция (rpb)
Корреляция Пирсона (r)
ID респондента
Задание 1
Задание 2
Тестовый балл
01
0
0
0
02
0
1
1
03
0
1
1
04
1
0
1
05
1
1
2
Измерения в психологии и образовании
49

50. Критические значения параметров

• АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1
• Трудность:
• Редко когда мы заинтересованы в экстремально легких задания
(>0.95) и экстремально трудных заданиях (<0.05)
• Различительная способность:
• Мы не заинтересованы в заданиях с низкой (<0.20) и, тем более
отрицательной различительной способностью
• Взаимосвязь различных мер различительной способности изучена
плохо, т.к. показатель зависит от многих факторов.
Но конвенциональный стандарт 0.20 един для всех мер
Измерения в психологии и образовании
50

51. Изящество классической модели

Экстремально полезен коэффициент
«Альфа Кронбаха, если удалить это
задание из теста» - если тест
становится без этого заданий более
надежным, это плохой знак. Очень
плохой.
Измерения в психологии и образовании
51

52. Итого: абсолютный релятивизм

• Измеряемые величины плавают от одного определения к другому, от одной
операционализации к другой
• Единых эталонов измерения нет, даже внутри одного теста
• Ошибка измерения неотделима от истинного балла непосредственно, поэтому
придумано множество косвенных способов, как её определить опосредованно (и ни
один из них не правилен абсолютно)
• Измерение зависит от варианта измерительного инструмента
Психология – наука победившего постмодернизма
(как и педагогика).
Измерения в психологии и образовании
52

53. Что же делать?

• Один тест не может сравниваться с другим тестом, только если это
не цели валидизации
• «Ну, мааааааам, эта опелацианализация лууууучше!»
vs.
«Модель конструкта, заложенная в этот тест, лучше отвечает целям нашей
работы».
• Работать в современной теории тестирования
Измерения в психологии и образовании
53

54. Нужны ли тесты вообще?

Да. Особенно хорошие.
• Экономически выгоднее
(тиражируемость)
• Объективнее оценивают
отдельные ключевые
характеристики
• Справедливость и равенство
(лишены индивидуальных
искажений экспертов)
Измерения в психологии и образовании
54

55. Спасибо за внимание!

hse.ru/ma/psyedu
Измерения в психологии и образовании
55

56.

Классическая Теория Тестирования (КТТ)
Classical Test Theory (CTT)
Тест – это [неделимый] блок заданий
Респонденты – это [неделимый] блок
людей
Все элементы внутри одного блока
взаимозаменяемы
Допущения философские, не
проверяемы
Все построено на допущении о
нормальности распределения примерно
всего
Современная Теория Тестирования (СТТ)
Item Response Theory (IRT)
Тест – это набор заданий, предъявленных
конкретному респонденту
Респонденты – это группа людей,
ответивших на одно и то же задание
vs. Элементы внутри одного блока НЕ
взаимозаменяемы
Все допущения проверяемы
математически
Нормальность распределения примерно
ничего не требуется
Измерения в психологии и образовании
56

57.

Классическая Теория Тестирования (КТТ)
Classical Test Theory (CTT)
Тест – это [неделимый] блок заданий
Респонденты – это [неделимый] блок
людей
Все элементы внутри одного блока
взаимозаменяемы
Допущения философские, не
проверяемы
Все построено на допущении о
нормальности распределения примерно
всего
Современная Теория Тестирования (СТТ)
Item Response Theory (IRT)
Тест – это набор заданий, предъявленных
конкретному респонденту
Респонденты – это группа людей,
ответивших на одно и то же задание
vs. Элементы внутри одного блока НЕ
взаимозаменяемы
Все допущения проверяемы
математически
Нормальность распределения примерно
ничего не требуется
57

58. Психологическое тестирование: математический взгляд

Выраженность конструкта
Задание 1:
Задание 2:
Задание 3:
Задание 4:
Измерения в психологии и образовании
58

59. Тестирование: математический взгляд

Выраженность конструкта
Задания:
Респондент 1:
1
1
1
1
Респондент 2:
1
0
0
0
Где-то здесь
Измерения в психологии и образовании
0
0
59

60. Про вероятность правильного ответа на вопрос

Вероятность правильного ответа
Про вероятность правильного ответа на вопрос
Трудность задания
Задание 1
Задание 2
Измерения в психологии и образовании
60

61. Шкалирование Гуттмана

Вероятность правильного ответа
Шкалирование Гуттмана
Трудность задания
Задание 1
Задание 2
Измерения в психологии и образовании
61

62. Все сложнее: “дисперсия ошибки”

Выраженность конструкта
Задания:
Респондент 1:
1
1
1
1
Респондент 2:
1
0
0
0
0
Респондент 3:
1
1
0
1
0
?
Где-то здесь
Измерения в психологии и образовании
0
62

63. Классическая Теория Тестирования

Вероятность правильного ответа
Классическая Теория Тестирования
Трудность задания
Задание 1
Задание 2
Измерения в психологии и образовании
63

64. Современная теория тестирования

Вероятность правильного ответа
Современная теория тестирования
Логистическая регрессия:
характеристическая кривая
респондента (Person Characteristic
Curve, PCC)
Трудность задания
Задание 1
Задание 2
Измерения в психологии и образовании
64

65. Логистическая регрессия

Балл по вопросу
1
0
0
Супер-способность
Измерения в психологии и образовании
65

66. Логистическая регрессия

Балл по вопросу
1
0
0
Супер-способность

67. Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

• θ – уровень подготовленности респондента
• δ – уровень трудности задания
• P – вероятность правильно ответить на задание

68. Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

• Мы допускаем, что есть некоторый параметр здания (трудность), который
лежит на одной на одной шкале с параметром испытуемого (способностью)
• Чем больше разница между этими параметрами (их разность по модулю,
|θ-δ|), тем сильнее вероятность ответа отличается от 0,5

69. Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

• Получение 1 балла по заданию перестает рассматриваться как часть итогового
тестового балла
• Оно рассматривается как дихотомическое событие, вероятность наступления
которого зависит от разницы между трудностью и способностью

70. Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

• Таким образом, мы можем смоделировать латентную непрерывную
характеристику способностей испытуемых (и заданий)
• NB!: вероятность никогда не будет равна 0 или 1 (в силу формулы)

71. Карта переменных (Wright Map, Kidmap, Variable Map)

Измерения в психологии и образовании
71

72. Статистические основания продвинутых психометрических методов: пример теста из трех заданий

Неодномерность теста
(т.н. «локальная
зависимость заданий»,
«Local Item
Dependency», LID)
Вариация ответов,
определяющаяся
целевым конструктом
Вариация
ситуативной
ошибки
Измерения в психологии и образовании
72

73. Поговорим про модели

• Строго говоря, IRT – не теория, а набор моделей
• Эти модели используются, потому что они удобны, никакой теоретической
рамки за этим набором моделей нет
• IRT Моделирует вероятность исхода случайного дихотомического события на
основе ряда других дихотомических событий
• Представляет собой конфирматорный факторный анализ (CFA) с
использованием логистических, а не линейных уравнений. Смена типа
уравнений увеличивает количество информации, которую мы можем
получить и о тесте, и о респондентах.
• Если Вы поняли этот пункт, то зачем Вы вообще нас слушали до этого момента?
• Существует большое количество различных моделей, но традиционно их
разделяют на два семейства:
• Семейство моделей Раша (Rasch Modeling)
• Собственно IRT-модели
Измерения в психологии и образовании
73

74. Дихотомические модели: 1PL


У фасета заданий оценивается только трудность, у фасета респондентов – только способность
Дискриминативность считается фактором, не влияющим на вероятность ответа
Все ICC параллельны
Объяснительная модель
exp( n i )
Pni
1 exp( n i )
Измерения в психологии и образовании
74

75.

“In reality no one does 3PL model. Even 2PL model using is seldom.
However, I’m going to show you 5PL model.”
Dr. David Stillwell, Cambridge Psychometrics Centre
7 Sep 2017
Измерения в психологии и образовании
75

76. Дихотомические модели: 5PL

• У фасета заданий оценивается трудность, дискриминативность, угадывание, невнимательность и
«снижение» (unfolding), у фасета респондентов – только способность
• ICC могут пересекаться, имеют нижнюю асимптоту, верхнюю асимптоту и немонотонны
• СУПЕР описательная модель
76

77. Специфические модели

• Политомические модели (в том числе, для психологических данных)
• Многомерные модели (когда несколько шкал коррелируют друг с другом)
• Многофасетные модели (когда в модель включаются дополнительные
фасеты, влияющие на вероятность получить определенный балл за задание,
например, проверяющие)
• Тестлет-модели (когда несколько шкал иерархически вкладываются в одну)
• Многоуровневые модели (когда выборка кластеризована на основе
содержательного признака)
• Модели для номинальных данных (Nominal Response Models)
• Модели для ипсативных данных (Thurtstonian IRT Model)
• Модели, учитывающие время ответа на вопрос
• И другие…
Измерения в психологии и образовании
77
English     Русский Правила