Основные шкалы измерений. Критерии оценивания педагогических экспериментов

Курсовая работа

измерение шкала гипотеза статистическая

Шкала

Допустимое преобразование

Наименований

Взаимно-однозначное

Порядковое

Интервальная

Линейное (y=kx+b, k>0)

Отношений

Подобия (y=kx, k>0)

получение

Для решения проблемы адекватности можно воспользоваться свойствами взаимосвязи шкал и допустимых для них преобразований, так как отнюдь не любая операция при обработке исходных данных является допустимой. Так, например, такая распространенная операция, как взятие среднего арифметического, не может быть использована, если измерения получены в порядковой шкале. Общий вывод таков — всегда возможен переход от более мощной шкалы к менее мощной, но не наоборот (например, на основании оценок, полученных в шкале отношений, можно строить балльные оценки в порядковой шкале, но не наоборот).

Классификация x i

x i =0

x i =1

Классификация y i

y i =0 yi =1

a+b

c+d

a

( число пар, у которых xi =0, yi =0)

b

( число пар, у которых xi =0, yi =1)

c

( число пар, у которых xi =1, yi =0)

d

( число пар, у которых xi =1, yi =1)

a+c b+d

Возьмём случайные выборки:

о 1 , о2 . о i . о N ; (4)

з 1 , з 2 . з i . з N ; (5)

Допущения.

1. выборки зависимые*

2. пары (о i , з i ) взаимно независимы, то есть члены выборки никак не влияют друг на друга (в педагогических исследованиях выполнение этого требования равносильно, например, исключению возможности консультаций и списывания членами выборок ответов друг у друга)

3. шкала измерений — шкала наименований с двумя категориями (выше — ниже, хуже — лучше и т.д.)

Гипотезы.

P (о i =0, з i =1) = P (о i =1, з i =0) (6)

для всех N пар (о i , з i ) .

Критерий Макнамары и предназначен для проверки справедливости данного равенства. Нулевая гипотеза имеет вид

H 0 : P (о i =0, з i =1) = P (о i =1, з i =0)

для всех i. В качестве альтернативной гипотезы выбирается гипотеза

H 1 : P (о i =0, з i =1) ? P (о i =1, з i =0)

для всех i. Если гипотеза H 1 справедлива, то это означает, что законы распределения переменных X и Y различны, то есть состояния изучаемого свойства существенно (значимо) различны в одной и той же совокупности при первичном измерении этого свойства (например, до применения нового метода обучения) и при вторичном его измерении (например, после применения нового метода обучения).

Справедливость нулевой гипотезы приводит к выводу об отсутствии значимых различий в состоянии изучаемого свойства при первичном и вторичном изучениях его состояния у объектов рассматриваемой совокупности.

Гипотезы могут быть записаны в другой форме, которая позволяет их проще интерпретировать в соответствии с содержанием и особенностями проводимого эксперимента:

H 0 : P (оi =0) = P (зi =0) для всех i (7)

H 1 : P (оi =0) ? P (зi =0) для всех i (8)

H 0 : P (оi =1) = P (зi =1) для всех i (9)

H 1 : P (оi =1) ? P (зi =1) для всех i (10)

Например, при проверке эффективности беседы по профориентации равенство (5) можно интерпретировать так: вероятность изменения после беседы отрицательного отношения к профессии на положительное равна вероятности изменения положительного отношения на отрицательное. Равенство (6) можно интерпретировать так: вероятность положительного отношения к профессии одинакова до и после проведения беседы, равенство (8) — вероятность отрицательного отношения к профессии одинакова до и после проведения беседы.

Статистика критерия.

Допустим, что N пар (x i , yi ) распределились следующим образом: число пар вида (xi =0, yi =1) равно b, число пар вида (xi =1, yi =0) равно c. Тогда, если b+c>20, то в качестве статистики выбирается величина

(11)

Если b+c?20, то используется величина T 2 , равная наименьшему из значений b и c:

T 2 =min (b, c).

(12)

Значения статистик T 1 и T2 не зависят от значений a и d — чисел пар вида: (xi =0, yi =0) и (xi =1, yi =1), так как эти пары представляют измерения объектов, индифферентных к воздействию средства, эффективность которого, проверяется в проводимом эксперименте и, естественно не учитывается при рассматриваемом способе оценки результатов эксперимента.

Правило принятия решения.

Проводится проверка гипотезы H 0 : P (xi =0, yi =1) = P (xi =1, yi =0) — при альтернативе H1 : P (xi =0, yi =1) ? P (xi =1, yi =0).

Если справедлива нулевая гипотеза, то статистика критерия T 2 =min (b, c) распределена по биномиальному закону* с p=0,5. Поэтому для n?20 по таблице по значению n и величине статистики критерия T2 находим P (T2 ? T2наблюдаемое ), то есть вероятность появления значения статистики, меньшего или равного наблюдаемому значению T2 при данном значении n. Если эта вероятность меньше половины заданного уровня значимости б, то H0 отклоняется на уровне значимости б. При этом в случае, когда b<c, принимается гипотеза H1 : P (xi =0, yi =1) < P (xi =1, yi =0), а в случае

b>c — гипотеза H 1 : P (xi =0, yi =1) > P (xi =1, yi =0).

Таблицы биномиального распределения, удобные для применения критерия Макнамары, составлены для n?25. Однако для n>20 при предположении о справедливости нулевой гипотезы распределение статистики критерия T 1 аппроксимируется распределением ч2 с одной степенью свободы. H0 отклоняется на уровне значимости б, если наблюдаемое значение T1 превосходит критическое значение статистики критерия, отвечающее данному уровню значимости б, которое определяется по таблице распределения ч2 с одной степенью свободы.

При отклонении H 0 принимается гипотеза H1 : P (xi =0, yi =1) < P (xi =1, yi =0), если b<c, и гипотеза H1 : P (xi =0, yi =1) > P (xi =1, yi =0), если b>c.

В случае, когда b=c, применение статистики критерия T 2 при n?20 и статистики T1 при n>20 заведомо не позволяет отвергнуть нулевую гипотезу при любом уровне значимости б. Поэтому при b=c результаты эксперимента не позволяют использовать критерий Макнамары для проверки статистических гипотез. Рассмотрим пример [3]

Пример:

Проверялось влияние формы контроля знаний учащихся по некоторому разделу программы на результаты контрольного опроса. На одном и том же содержательном материале были составлены: письменная работа обычного типа из 3 заданий и тест из 20 вопросов. На основе результатов выполнения каждой из форм в отдельности учащиеся распределялись на 2 категории: усвоил — не усвоил. При выполнении письменной работы в первую группу относили учащихся, получивших оценки «3», «4», «5», выставленные в соответствии с нормами, разработанными экспериментаторами. При выполнении теста в первую группу относили учащихся, верно ответивших на 13 и более вопросов. Остальные учащиеся были отнесены ко второй группе.

Из разных школ было выбрано методом случайного отбора 100 учащихся. Каждый из них выполнял обе формы контрольных работ одну за другой. Результаты двукратного контроля знаний этих учащихся представляют измерения по шкале наименований с двумя категориями (усвоил — не усвоил) состояния знаний учащихся по этому разделу. В этих условиях возможно применения критерия Макнамары для выявления значимости различия в распределении учащихся по состоянию знаний при различных формах контроля.

Результаты двукратного выполнения работы запишем в виде таблицы:

Таблица 3

усвоил

не усвоил

усвоил не усвоил

84

16

а=63

b=21

c=4

d =12

67 33

Проверяется гипотеза Н 0 : форма контроля за усвоением данного раздела программы не оказывает влияния на распределения учащихся по состоянию знаний. В связи с задачами эксперимента альтернативная гипотеза Н1 формулируется следующим образом: распределения учащихся по состоянию знаний различно при различных формах контроля.

В этих условиях для проверки гипотезы применяется двусторонний критерий Макнамары для n>20 (n=b+c=4+21=25), то есть подсчитывается значение статистики T 1 . В данном случае

Для уровня значимости б=0,05 критическое значение T 1критич =3,84. Следовательно верно неравенство Т1наблюд1критич Поэтому нулевая гипотеза отвергается на уровне значимости б=0,05 и принимается альтернативная гипотеза. Таким образом, на основе результатов проведённого эксперимента можно сделать вывод о том, что форма контроля за усвоением раздела программы существенно влияет на распределение учащихся по состоянию знаний.

Назначения критерия

Критерий может применяться:

для сопоставления эмпирического распределения признака с теоретическим — равномерным, нормальным или каким-то иным,

для сопоставления двух, трех или более эмпирических распределений одного и того же признака

Описание критерия

Критерий отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях

Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтернативного распределения «да — нет», «допустил брак — не допустил брака», «решил задачу — не решил задачу» и т.п. мы уже можем применить критерий .

Допустим, некий наблюдатель фиксирует количество пешеходов, выбравших правую или левую из двух симметричных дорожек на пути из точки А в точку Б (см рис 1).

Рис.1 Иллюстрация к примеру о теоретически равновероятном выборе из двух альтернатив — правой и левой дорожек, ведущих из точки А в точку Б

Пусть, в результате 70 наблюдении установлено, что 51 человек выбрали правую дорожку, и лишь 19 — левую С помощью критерия мы можем определить, отличается ли данное распределение выборов от равномерного распределения, при котором обе дорожки выбирались бы с одинаковой частотой. Это вариант сопоставления полученного эмпирического распределения с теоретическим. Такая задача может стоять, например, в прикладных психологических исследованиях, связанных с проектированием в архитектуре, системах сообщения и др.

Но представим себе, что наблюдатель решает совершенно другую задачу: Совпадение полученного распределения с равномерным его интересует гораздо в меньшей степени, чем совпадение или несовпадение его данных с данными других исследователей. Ему известно, что люди с преобладанием правой ноги склонны делать круг против часовой стрелки, а люди с преобладанием левой ноги — круг по ходу часовой стрелки, и что в исследовании коллег преобладание левой ноги было обнаружено у 26 человек из 100 обследованных.

С помощью метода он может сопоставить два эмпирических распределения: соотношение 51: 19 в собственной выборке и соотношение 74: 26 в выборке других исследователей.

Это вариант сопоставления двух эмпирических распределений по простейшему альтернативному признаку (конечно, простейшему с математической точки зрения, а отнюдь не психологической).

Аналогичным образом мы можем сопоставлять распределения выборов из трех и более альтернатив. Например, если в выборке из 50 человек 30 выбрали ответ (а), 15 человек — ответ (б) и 5 человек — ответ (в), то мы можем с помощью метода проверить, отличается ли это распределение от равномерного распределения или от распределения ответов в другой выборке, где ответ (а) выбрали 10 человек, ответ (б) — 25 человек, ответ (в) — 15 человек.

В тех случаях, если признак измеряется количественно, скажем, в баллах, секундах или миллиметрах, нам, быть может, придется объединить все обилие значений признака в несколько разрядов. Например, если время решения задачи варьирует от 10 до 300 секунд, то мы можем ввести 10 или 5 разрядов, в зависимости от объема выборки. Например, это будут разряды: 0-50 секунд; 51-100 секунд; 101-150 секунд и т.д. Затем мы с помощью метода будет сопоставлять частоты встречаемости разных разрядов признака, но в остальном принципиальная схема не меняется.

При сопоставлении эмпирического распределения с теоретическим мы определяем степень расхождения между эмпирическими и теоретическими частотами.

При сопоставлении двух эмпирических распределений мы определяем степень расхождения между эмпирическими частотами и теоретическими частотами, которые наблюдались бы в случае совпадения двух этих эмпирических распределений. Формулы расчета теоретических частот будут специально даны для каждого варианта сопоставлений.

Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое значение .

Гипотезы

Возможны несколько вариантов гипотез, в зависимости от задач, которые мы перед собой ставим.

Первый вариант:

Н 0 : Полученное эмпирическое распределение признака не отличается от

теоретического (например, равномерного) распределения.

Н 1 : Полученное эмпирическое распределение признака отличается от

теоретического распределения.

Второй вариант:

Н 0 : Эмпирическое распределение 1 не отличается от эмпирического распределения 2.

Н 1 : Эмпирическое распределение 1 отличается от эмпирического распределения 2.

Третий вариант:

Н 0 : Эмпирические распределения 1, 2, 3,. не различаются между собой.

Н 1 : Эмпирические распределения 1, 2, 3,. различаются между собой.

Критерий позволяет проверить все три варианта гипотез.

Графическое представление критерия [2]

Проиллюстрируем пример с выбором правой или левой дорожек на пути из точки А в точку Б. На Рис.2 частота выбора левой дорожки представлена левым столбиком, а частота выбора правой дорожки — правым столбиком гистограммы. На оси ординат отмеряются относительные частоты выбора, то есть частоты выбора той или иной дорожки, отнесенные к общему количеству наблюдений. Для левой дорожки относительная частота, которая называется также частостью, составляет 19/70, то есть 0,27, а для правой дорожки 51/70, то есть 0,73.

Левая Правая

Рис.2 Частоты выбора левой и правой дорожек, теоретическая частота представлена в виде горизонтальной планки, стрелками обозначены области расхождения между эмпирическими и теоретическими частотами

Если бы обе дорожки выбирались равновероятно, то половина испытуемых выбрала бы правую дорожку, а половина — левую. Вероятность выбора каждой из дорожек составляла бы 0,50.

Мы видим, что отклонения эмпирических частот от этой величины довольно значительны. Возможно, различия между эмпирическим и теоретическим распределением окажутся достоверными.

На Рис.3 фактически представлены две гистограммы, но столбики сгруппированы так, что слева сопоставляются частоты предпочтения левой дорожки в выборе нашего наблюдателя и в выборке Т.А. Доброхотовой и Н.Н. Брагиной, а справа — частоты предпочтения правой дорожки в этих же двух выборках.

Левая Правая

Рис.3 Частоты выбора левой и правой дорожек в двух выборках испытуемых

Выборка наблюдателя,

Выборка других исследователей

Мы видим, что расхождения между выборками очень незначительны. Критерий скорее всего, подтвердит совпадение двух распределений.

Ограничения критерия

1. Объем выборки должен быть достаточно большим n?30. При n<30

критерий дает весьма приближенные значения. Точность критерия повышается при больших n.

2. Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: f?5. Это означает, что если число разрядов задано заранее и не может быть изменено, то мы не можем применять метод , не накопив определенного минимального числа наблюдений. Если, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяются по 7 дням недели, то нам потребуется 5*7=35 обращений. Таким образом, если количество разрядов (k) задано заранее, как в данном случае, минимальное число наблюдений (nmin ) определяется по формуле: nmin =k*5.

Выбранные разряды должны «вычерпывать» все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях.

Необходимо вносить «поправку на непрерывность» при сопоставлении распределений признаков, которые принимают всего 2 значения. При внесении поправки значение уменьшается.

Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может быть отнесено ни к какому другому разряду.

Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.

Главное же «ограничение» критерия — то, что он кажется большинству исследователей пугающе сложным.

Попытаемся преодолеть миф о непостижимой трудности критерия . Рассмотрим пример, который приведён в книге Е.В. Сидоренко.

Шутливый пример [2]

В гениальной комедии Н.В. Гоголя «Женитьба» у купеческой дочери Агафьи Тихоновны было пятеро женихов. Одного она сразу исключила из рассмотрения, потому что он был купеческого звания, как и она сама. А из остальных она не знала, кого выбрать: «Уж как трудно решиться, так просто рассказать нельзя, как трудно. Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому еще дородности Ивана Павловича, я бы тогда тотчас решилась. А теперь поди подумай! просто голова даже стала болеть. Я думаю, лучше всего кинуть жребий» (Гоголь Н.В., 1959, с.487).

И вот Агафья Тихоновна положила бумажки с четырьмя именами в ридикюль, пошарила рукою в ридикюле и вынула вместо одного — всех!

Ей хотелось, чтобы жених совмещал в себе достоинства всех четверых, и, вынимая все бумажки вместо одной, она бессознательно совершала процедуру выведения средней величины. Но вывести среднюю величину из четверых людей невозможно, и Агафья Тихоновна в смятении. Она влюблена, но не знает, в кого. «Такое несчастное положение девицы, особливо еще влюбленной» (там же, с.487).

Вся беда в том, что ни Агафья Тихоновна, ни ее тетушка, ни сваха Фекла Ивановна не были знакомы с критерием ! Именно он мог бы им помочь в решении их проблемы. С его помощью можно было бы попробовать установить, в кого больше влюблена Агафья Тихоновна. Но для этого нам не нужно измерять губы Никанора Ивановича или нос Ивана Кузьмича, или объем талии дородного экзекутора Ивана Павловича; не нужно нам и пускаться на какие-нибудь опасные эксперименты, чтобы определить, насколько далеко простирается развязность Балтазара Балтазарыча. Мы эти их достоинства принимаем как данность потому лишь, что они нравятся Агафье Тихоновне. Мы принимаем их за разряды одного и того же признака, например, направленности взгляда Агафьи Тихоновны: сколько раз она взглянула на губы Никанора Ивановича? На нос Ивана Кузьмича? Благосклонно взирала на дородного Ивана Павловича или развязного Балтазара Балтазаровича? Внимательная сваха или тетушка вполне могла бы этот признак наблюдать. Допустим, за полчаса смотрин ею зафиксированы следующие наблюдения.

Агафья Тихоновна:

сидела с опущенными глазами 25 минут

благосклонно смотрела на Никанора Ивановича 14 раз

благосклонно смотрела на Ивана Кузьмича 5 раз

благосклонно смотрела на Ивана Павловича 8 раз

благосклонно смотрела на Балтазара Балтазарыча 5 раз.

Представим это в виде таблицы.

Таблица 4 Распределение взгляда Агафьи Тихоновны между 4 женихами

Женихи

Никанор

Иванович

Иван

Кузьмич

Иван Павлович

Балтазар Балтазарыч

Всего взглядов

Количество взглядов

14

5

8

5

32

Теперь нам нужно сопоставить полученные эмпирические частоты с теоретическими. Если Агафья Тихоновна никому не отдает предпочтения, то данное распределение показателя направленности ее взгляда не будет отличаться от равномерного распределения: она на всех смотрит примерно с одинаковой частотой. Но если достоинства одного из женихов чаще притягивают ее взор, то это может быть основанием для матримониального решения.