Менеджмент: цинизм и пафос
Добрый ночи!
Вот уж пятый час ночи, а меня больше всего беспокоит вопрос: почему Колмогоров и Пирсон считают это распределение нормальным?


Иными словами, я прошу проверить (на грубые ошибки в расчётах и и в алгоритме), правильно ли я применял критерии согласия:

Пирсона


Колмогорова


Что было дано



Срок до 4 февраля

Прошу прощения за большие скрины, иначе там не видно будет(

@темы: Математическая статистика

Комментарии
03.02.2011 в 15:41

На свете есть всего 10 разновидностей людей. Те, которые понимают бинарный код, и те, кто не понимают
КС я давно не пользовалась, но с Пирсоном вроде как все правильно. Конечно, вычислительные ошибки я не проверяла. Если Вы считали вручную, попробуйте таблички в Ексель загнать и через формулы проверить.
Еще можно попробовать пойти от смысла задачи =) Откуда она? Это научное исследование или надо сделать типовую лабораторную? Если второе, то не сомневайтесь в нормальности) по графику сильных противоречий с нормальностью нет, и Пирсон это подтверждает. Яма справа, конечно, смущает, но если сомневаетесь, попробуйте сделать графики для 6 и 8 интервалов. Возможно, яма станет мельче или даже вовсе пропадет.
03.02.2011 в 16:00

Менеджмент: цинизм и пафос
alba-longa
да вроде всё в экселе считалось кроме Фи - я уж из таблицы вручную копировал...

яма точно не пропадёт))
там дано 50 значений, я раскидал их по 7ми интервалам, и вот в 5й только 4 значения попало... И, конечно, этот интервал и даёт наибольший вклад в расхождение


Спасибо что посмотрели! Понимаю, это трудоёмко

А Колмогорова не глянете?)
03.02.2011 в 16:17

На свете есть всего 10 разновидностей людей. Те, которые понимают бинарный код, и те, кто не понимают
Dmitry Grass
там дано 50 значений, я раскидал их по 7ми интервалам, и вот в 5й только 4 значения попало...
Да я поняла. Но что будет, если их раскидать по 6 интервалам или по 8? Попробуйте исследовать этот вопрос тем же Пирсоном. Раз все расчеты в екселе, то все дело займет несколько минут. Чисто чтобы убедиться.

Колмогорова сейчас точно смотреть не буду. Я его не помню, надо искать книжку и разбираться, а времени уже нет, извините)
03.02.2011 в 17:21

Менеджмент: цинизм и пафос
alba-longa
перестроил для 8 интервалов: в принципе, провал поменьше, но он есть:

03.02.2011 в 17:29

Мыслить последовательно, судить доказательно, опровергать неправильные выводы должен уметь всякий: физик и поэт, тракторист и химик. (с)Э. Кольман
Dmitry Grass
Может просто ошибка эксперимента. Где-то там где провал.
03.02.2011 в 18:21

Менеджмент: цинизм и пафос
Heor
ошибка-то ошибкой, но почему оба критерия говорят, что это нормальное распределение? Или они не учитывают ошибки?;) очень даже
03.02.2011 в 18:41

Мыслить последовательно, судить доказательно, опровергать неправильные выводы должен уметь всякий: физик и поэт, тракторист и химик. (с)Э. Кольман
1. Если я правильно помню. На использование критериев `x^2` есть ограничения. Одно из которых требует, что бы минимальное значение эмпирической частоты было не менее 10, а теоретической — не менее 5. И оно у Вас не выполнено. Надо изменить интервалы.

2. Критерий не говорит, что некоторое распределение является нормальным. Оно говорит о том, что теоретическое и эмпирическое распределения близки или нет. В данном случае, судя по результату, эти распределения близки, но несовпадения возможны. И вроде бы в неравенстве был обратный знак. Не помню точно. Надо уточнить.
03.02.2011 в 18:47

Ну, как минимум:
а) критерий Колмогорова никогда в жизни не проверяет сложной гипотезы - он для этого в принципе не предназначен, не умеет. Предельное распределение статистики (тем более точное распределение при фиксированном n) при подстановке оценок вместо параметров совершенно другое, чем должно быть.
А Вы проверяете именно сложную гипотезу
б) эмпирическая функция распределения никогда не строится по группированной выборке, поэтому то, что посчитано выше, никакого отношения к статистике Колмогорова (или статистикам Смирнова) не имеет.

Сейчас посмотрю, как Вы считали Пирсона. Пока буду смотреть, отвлекающий вопрос: а сумма теоретических вероятностей-то равна единице? :-)
03.02.2011 в 18:57

Менеджмент: цинизм и пафос
Heor
это при каком общем количестве измерений?

Я видел примеры того, как концы объединяли с соседними интервалами, но мне кажется, тут это не нужно...
но я попробую пересчитать, хотя не похоже, что там сильно изменится статистика...

Посмотрел в Гмурмане неравенство - нет, всё верно. А про частоты там написано

А что с Колмогоровым?
03.02.2011 в 19:12

Мыслить последовательно, судить доказательно, опровергать неправильные выводы должен уметь всякий: физик и поэт, тракторист и химик. (с)Э. Кольман
это при каком общем количестве измерений?
Вроде бы при любом. Но я плохо помню этот материал. Могу и ошибаться.
03.02.2011 в 19:24

Менеджмент: цинизм и пафос
true-devil
как интересно)

значит, ребята тоже погорячились...
я-то всё как у них делал...
А где бы адекватные примеры взять, не подскажете?)

а про частоты: Вы про то, что накопленная получилась 0.97?) Меня насторожило, но я это списал на хвостик теоретического нормального распределения, который не вошёл ни в одни из интервалов=) Чушь, да?)

Никогда раньше с этими критериями не имел дела...
03.02.2011 в 19:31

Вообще, откровенно говоря, этот раздел Гмурмана читать не стоит - про применение критерия хи-квадрат. Там рекомендуется теоретические вероятности (соответственно, частоты) считать по плотности через площадь прямоугольника (по теореме о среднем). Тогда как нет никаких проблем их посчитать по функции Лапласа. Разница с реальными получается при малом числе интервалов довольно большая, хотя в данном случае и некритичная - см., если интересно, правильные расчёты: n.cher.pp.ru/chi2Pearson.xls .

Но в данном случае это мелочи, поскольку в целом насчитанная статистика при правильном подсчёте получится даже меньше, чем та, что у Вас: 6,97 против 9,01.

Теперь о главном вопросе: критерий Пирсона является асимптотическим критерием. Его вероятность ошибки 1-го рода не равна 0,05, а лишь стремится к ней при увеличении объёма выборки к бесконечности. Иными словами, реальное распределение статистики критерия при n=50 и при справедливости основной гипотезы - совсем не хи-квадрат. Для этого реального распределения критическая точка для уровня значимости 0,05 - непонятно, какая, вряд ли её можно легко посчитать. Мы же считаем, что оно хи-квадрат, т.е. для малых n используем то, что будет лишь для больших n.
Поэтому доверять каким-либо выводам асимптотического критерия по столь малой выборке в жизни не стоит. В учебной задаче - можно.
03.02.2011 в 19:46

Менеджмент: цинизм и пафос
true-devil
ого! Право не стоило за меня решать, мне совсем неудобно стало... задание-то не столько для меня, хоть я и сам в нём хочу для себя разобраться

Так а что тогда с Колмогоровым делать?
построить не по группированной выборке, а по исходным 50 значениям как-то?
03.02.2011 в 19:53

значит, ребята тоже погорячились...
я-то всё как у них делал...

Увы. Есть:
1) есть модификация критерия Колмогорова - т.н. критерий Лиллиефорса (можно погуглить, лучше на Engl, дословная калька с английского - Lillieforce). Он работает со сложными гипотезами.
2) есть такой интересный товарищ, к книгам которого в целом нужно осторожно относиться :-). Но: он давно и упорно борется с неправильным (и с тем, что он считает неправильным) применением статметодов. В частности, вот тут orlovs.pp.ru/stat/s1p5sogl.zip (не нахожу статью, где он приводит результаты моделирования и т.п. - в этой тоже есть кое-что интересное, но нет математики) в аннотации сказано очень по теме:

"Широко распространенные ошибки состоят в том, что для критериев согласия с параметрическими семействами используют критические значения классических критериев. При этом, например, гипотеза нормальности принимается гораздо чаще, чем следует."
03.02.2011 в 20:03

ого! Право не стоило за меня решать, мне совсем неудобно стало

Так - ё-моё - думаете, отвечая, я посмотрела на ник? :))) Мельком глянула аву - незнакомый чел, ну и отвечаю ему как чайнику :))) Вот последнее сообщение - точно Вам, а предыдущее - "топикстартеру" :))) Извините, право.

А что - в задании требуется проверять критерием Колмогорова? Ну и сделайте, пусть препод отвечает перед богом за своё "обучение"... Ну да, конечно, по выборке, если она есть негруппированная. Никак не по группированной.

Что же до числа точек в интервалах - то обычно 2-3-4 в паре крайних интервалов - это не смертельно. Нет, частоты (когда 7 интервалов) вполне годятся при таком объёме выборки, не нужно ничего объединять.
03.02.2011 в 21:07

Менеджмент: цинизм и пафос
true-devil
По правде говоря, меня знакомая попросила посмотреть...
у меня уже просто накипело, хочу с Вами поделиться ради хохмы:

Задание вообще треш:
1) Оно для заочников-экономистов заштатного по моим экономическим меркам, хоть и с понтами вуза Питера
2) Выложенная на сайте теория лишь частично охватывает курс, и, конечно, в дебри типа критериев Колмогорова или Манна-Уитни она не влезает
3) Приведены примеры, но тоже отчасти похожи на контрольную
4) Литература, мягко говоря, не о том
5) В задании к контрольной нужно пользоваться критериями согласия Колмогорова и Пирсона, а на примерах и в теории подробно разобран какой-то критерий Жарка-Бера. Против него ничего не имею - но таки зачем?)
6) В контрольную добавлено задание про критерии Стьюдента и Манна-Уитни... так прям будут заочники искать

Я уже давно понял, что обучение на заочке делится на 3 вида:
- дают сравнительно несложную теорию и несложные примеры, люди радостно решают подстановкой - и все счастливы
- дают элементарные знания, почти не мучают
- дают слишком сложные задания (я что-то когда и на экономиста учился, и на радиотехника, не вдавался так подробно в статистику), видимо, ожидают, что заведомо сделают на стороне или заплатят преподавателю
03.02.2011 в 21:19

Менеджмент: цинизм и пафос
true-devil
А что - в задании требуется проверять критерием Колмогорова?
ага..
сейчас она ещё пришлёт примеры, посмотрим

А я пока засяду за T-критерий Стьюдента для "оценки влияния номинального фактора на количественный отклик" двух массивов данных =)
03.02.2011 в 21:39

Посмотрела, спасибо! Надо же, я и не предполагала, что есть всё ещё такое учебное заведение :))) Сразу вспомнилось из полуфинала КВН 1991: "В См-й свезём из обеих столиц всех оставшихся девиц..."

Ну, видимо, заочникам следует читать литературу из списка "и любую другую" :))) Критерий Жарка - Бера (Jarque - Bera) как раз был бы более разумен тут, чем Колмогорова. Он хоть именно нормальность проверяет, и с неизвестными параметрами. Правда, есть и помощнее него (Андерсона - Дарлинга, например), но этот уж очень просто выглядит, удобно. В оправдание преподавателя: у Кремера из ВЗФИ в его учебнике как раз критерий Колмогорова использован для проверки параметрической гипотезы :((( Что уж от преподавателя из Питера хотеть...

На самом деле в последнем случае есть свой резон: тех, кто сделает на стороне, не научишь, на них рассчитывать не следует. А ведь находятся всё же (немножко) тех, кто делает это сам. А для них полезнее сложнее, чем проще. Сама не верила, что такие бывают, пока не увидела парочку :)
03.02.2011 в 22:49

Менеджмент: цинизм и пафос
true-devil
Это Вам спасибо =)

Это мировая хохма про благородных девиц)
у меня в последнее время команда "Фёдор Двинятин" ассоциируется с пародией на такое заведение)))

мне на самом деле тоже понравился критерий Жарка-Бера...

короче говоря, благодаря Вам я был (именно что был) лучшего мнения об учебниках по мат. статистике (а вот этому преподавателю, по-моему, всё равно: литература-то по описательной простой экономической статистике), и вообще думал, что подобные критерии давно однозначно математически описаны, а вот оказывается куча подводных камней=)

Ага, есть такие.. наверное, если бы мне пришлось учиться на заочном, я бы тоже дотошно докапывался ... да и за примерами не надо далеко ходить. есть тут юзер daraptor что ли, коллеги по сообществу Вам расскажут, да и, я думаю, Вы тоже с ним сталкивались)

Тогда буду ждать материалов от преподавателя и заканчивать уже.. а то уже часов 12 точно убил на всё это, зато сижу, разбираюсь - вспоминаю студенчество

а тётя аж преподаватель-аналитик в Центре статистических технологий
Впрочем, в Герцена математики никакие выпускаются имхо...