случай данных из нормального распределения

Приступая к проверке формальной математической модели, статистик обычно не знает, какому рассредотачиванию соответствуют экспериментальные данные, но должен проверить, зависимы либо независимы регистрируемые величины, случайны ли ошибки либо же имеется периодическая ошибка, и т.д. Потому лучше, чтоб надлежащие статистические аспекты не зависели от (неведомого) закона рассредотачивания, а были применимы для случай данных из нормального распределения широкого класса рассредотачиваний, к примеру, всех непрерывных. Такие аспекты именуются свободными от рассредотачивания.

Мы будем заниматься в последнее время рассмотрением трёх задач:

(I) Проверка случайности. Имеется ряд независящих наблюдений , упорядоченных неким образом (к примеру, по номеру наблюдения либо по времени), так что ~ , т.е. каждое принадлежит к собственной случай данных из нормального распределения популяции. Проверяется догадка , все эти наблюдения принадлежат одной и той же генеральной совокупы, т.е. что = = ... = для всех .

(II) Проверка независимости. Рассматривают подборку объёма , ,…, реализаций двумерной с.в. , имеющей ф.р. . Проверяется догадка независимости и , т.е. что ; тут и - маргинальные ф. р. для и .

(III) Проверка однородности, либо случай данных из нормального распределения задачка о 2-ух подборках. Независящим образом получены подборка изпопуляции и 2-ая подборка из популяции (вообщем говоря, ). Проверяется догадка однородности : .

Можно также обобщить задачку (III):

(IIIа) Задачка о k подборках. Имеется > 2 независящих выборок, любая из которых взята из собственной популяции с ф.р. , . Проверяется догадка : .

На 1-ый взор, задачки I, III и задачка случай данных из нормального распределения II касаются совсем различных классов с.в.: задачка II рассматривает многомерную с.в., а две другие задачки – одномерные. В реальности эти три задачки плотно сплетены.

(а) Рассматриваем в задачке (I) двухкомпонентную величину , приписав значениям числа, характеризующие порядок их расположения, и рассматривая эти числа как наблюдения над с случай данных из нормального распределения.в. . Тогда (I) сводится к проверке независимости от , т.е. к личному случаю (II).

(б) Пусть сейчас в задачке (II) мы разбили на две части область значений 2-ой составляющие и полагаем = 1 либо = 2 зависимо от того, в какую часть попадёт наблюдение . Если мы сейчас будем инспектировать независимость и , то задачка (II) сведётся случай данных из нормального распределения к задачке (III), потому что, если верна, то не находится в зависимости от –систематизации, и если разбить две подборки в согласовании с тем, равно ли единице либо двум, то рассредотачивания для = 1 и = 2 должны быть тождественны.

Поначалу разглядим решение задач (I) – (III) в принципиальном личном случае обычного рассредотачивания данных случай данных из нормального распределения. Аргументы для этого:

1. Ошибки измерений обычно предполагаются обусловленными действием огромного числа независящих, идиентично распределённых “простых” погрешностей (Хаген и Бессель), представляют собой их сумму. Позже Лаплас представил, что в пределе эта сумма распределена нормально. Наблюдения для разных классов измерений в почти всех областях науки и техники подтверждают, что обычный закон имеет случай данных из нормального распределения место в очень большенном числе случаев (но не во всех). Это положение вещей приводило к большой неурядице при рассмотрении справедливости обычного закона, которая остроумно характеризована в замечании, изготовленном Липманом: "Каждый уверен в справедливости закона ошибок: экспериментаторы – поэтому, что они задумываются, что это математическая аксиома; а арифметики – поэтому случай данных из нормального распределения, что они задумываются, что это экспериментальный факт" [приводится Пуанкаре во 2-м издании (1912) Poincaré "Calcul. des prob.", p. 149]. Позже слово произнесла теория: как понятно по ц.п.т. (скажем, в форме Ляпунова либо Линдеберга), сумма огромного числа независящих с.в. таких, что вклад каждого члена в сумму стремится к 0 при случай данных из нормального распределения неограниченном увеличении числа слагаемых, в пределе распределена по нормальному закону.

2. Многие наблюдения, рассредотачивание которых отлично от обычного, в предельных критериях отлично описываются обычным рассредотачиванием. К примеру, биномиальное рассредотачивание при = const, ® ¥ (аксиома Муавра-Лапласа), рассредотачивание Пуассона при , -распределение при ® ¥, рассредотачивание Стъюдента Stp при ® ¥.

Докажем это для случай данных из нормального распределения рассредотачивания Пуассона. Для ~ имеем , ,

.

Разглядим с.в.

.

По аксиоме 1.3

.

Разложим внутреннюю экспоненту по формуле Тейлора:

.

При последнее выражение стремится к exp{– t 2/2}, т.е. к х.ф. обычного рассредотачивания. По 2-ой аксиоме Леви (аксиома 1.1 вводной лекции), . ÿ

На дом: 1)Обосновать утверждение для -распределения при ® ¥ . (Если ~ , то , ).

2) Используя выражение для случай данных из нормального распределения ф.п.в. рассредотачивания Стьюдента c степенями свободы ([1], стр. 198)

и формулу Стирлинга для гамма-функции при огромных значениях аргумента

(там же, стр. 190), обосновать, что при ® ¥ рассредотачивание Стъюдента Stp сходится к стандартному нормальному.

По сути большая часть этих асимптотик сущность следствия ц.п.т., ибо, к примеру, если ~ , то можно случай данных из нормального распределения представить её в виде

,

где – независящие идиентично распределённые (н.о.р.) с.в., причём ~ , и пусть = const при ® ¥, ® ¥. Дальше необходимо пользоваться воспроизводимостью рассредотачивания Пуассона и ц.п.т. Ещё легче прибегнуть к ц.п.т. в случае -распределения.

Потому при формировании статистики огромное внимание уделялось задачкам (I) – (III) для варианта обычного случай данных из нормального распределения рассредотачивания. Есть рациональные процедуры для их решения, которые полезно подразумевать, осуществляя анализ на независимость, случайность либо однородность. Эффективность свободных от рассредотачивания процедур можно будет сопоставить с эффективностью процедур обычной теории для совокупностей нормально распределённых данных. В конце концов, мы будем воспользоваться эвристическим правилом: в соответственной статистике обычной теории необходимо случай данных из нормального распределения поменять значения обычных с.в. на свободные от рассредотачивания величины, и мы получим свободный от рассредотачивания аспект (правда, не гарантировано, что это будет неплохой аспект).

Вспомним, что одномерное обычное рассредотачивание характеризуется 2-мя параметрами: , . Сформулируем задачки (I) – (III) применительно к нормальному случаю и опишем методы их решения.

(I) Случайность случай данных из нормального распределения. В общем случае имеем ряд независящих наблюдений , каждое из которых представляет свою популяцию: ~ . Проверяется догадка : , . Обычно кандидатурой является кандидатура тренда : наблюдения независимы, нормальны, , но

(тренд ввысь),

либо

(тренд вниз) .

Общая дисперсия обычно неведома (при известной статистика

~ , и для проверки против употребляется правый хвост - рассредотачивания, так что для данного размера аспекта критичное случай данных из нормального распределения огромное количество есть

, где ),

и также непонятно. Тогда можно оценить 2-мя методами, если верна – через выборочную дисперсию

(1)

(это несмещённая оценка , её эффективность равна ([1], стр. 399)), и через сумму квадратов разностей примыкающих значений:

. (2)

Оценка (2) – несмещённая и безбедная, если верна. Вправду,

,

тогда и , потому что – н.о.р. с.в. Отсюда = – оценка несмещённая случай данных из нормального распределения.

Покажем, что – безбедная оценка. Для этого разглядим разность 2 - 2 и покажем, что эта с.в. сходится по вероятности к 0, если верна: 2 - 2 = - 2 =

= =

(3)

1-ое и 2-ое слагаемые – однотипные, так что разглядим, к примеру, 2-ое слагаемое в (3). Его можно записать как

=

(4)

С.в. имеет дисперсию , так что = . Отсюда для хоть какого данного малого по неравенству случай данных из нормального распределения Чебышёва (если h - с.в. с м.о. E{h} = m и дисперсией Var{h}, и пусть e > 0 – случайное число, то P ³ e £ ), получим

,

т.е. возможность этого действия стремится к 0 при .

1-ое слагаемое в (4) – сходится к 0 по вероятности (в книжке [1], стр. 212, подтверждено, что если – подборка из рассредотачивания с дисперсией и случай данных из нормального распределения четвёртым центральным моментом , то , а = , откуда, применив неравенство Чебышёва, доказываем состоятельность . Кстати, для обычного рассредотачивания = ).

Итак, мы проявили, что сходится к 0 по вероятности; рассмотрение первой суммы в (3) аналогично. Третье слагаемое в (3) – двойная оценка автоковариации с лагом 1 (если – стационарный случайный процесс c дискретным параметром t, то E{xt} = m случай данных из нормального распределения при всех t, а функция лага , именуется автоковариационной функцией; её оценкой по совокупы ( ) является

=

– см. [1], стр. 517, 522), и потому что с.в. и статистически независимы, она стремится к 0 по вероятности, когда ® ¥ (см. формулу (5.3.25) книжки Priestley, M.B. (1981) Spectral Analysis and Time Series, Vol.1: Univariate Series. Academic Press, Inc., London: при случай данных из нормального распределения >> 1

; (5.3.25)

итог получен Бартлеттом в 1946 г. См. также аналогичную формулу (48.7) в книжке М.Кендалла, А.Стьюарта «Многомерный статистический анализ и временные ряды». М.: Наука, 1976. В нашем случае речь идёт о стационарном гауссовом процессе с некоррелированными данными, для которого .Потому сумма в правой части (5.3.25) конечна, и третье слагаемое в случай данных из нормального распределения (3) сходится к 0 по вероятности в силу неравенства Чебышёва), что завершает подтверждение состоятельности .

Пусть верна . Тогда статистика дела оценок дисперсии (1) и (2)

(5)

с большой вероятностью близка к 1, ибо оценки в числителе и знаменателе (5) несмещённые и безбедные. Вправду, ещё в XIX веке Хельмерт обосновал, что если верна Н, то E{q} = 1, Var{q} = Если же случай данных из нормального распределения верна кандидатура тренда , то знаменатель больше числителя, так что для избранного размера аспекта малые значения

<

свидетельствуют в пользу (тренда) против . Это аспект Аббе (см. Большев Л.Н., Смирнов Н.В. “Таблицы математической статистики”. М.: Наука, 1965). Процентные точки для £ 60 имеются в обозначенной книжке Большева и Смирнова, также в [13]. При огромных случай данных из нормального распределения вспомогательная с.в. = имеет стандартное обычное , и отвергается при данном размере аспекта , если < (т.е. -квантили ). Аспект Аббе есть в российском пакете анализа временных рядов «Эвриста». В забугорных статистических пакетах, мне доступных, я не нашёл аспекта Аббе, но в STATGRAPHICS и STATISTICA есть тесновато связанная с q статистика случай данных из нормального распределения Дарбина-Уотсона (Durbin-Watson) , и нередко пользуются ей (о ней можно прочесть в книжке Дж.Себера “Линейный регрессионный анализ”, п. 6.6.2, и Дрейпер Н., Смит Г. “Прикладной регрессионный анализ”, т.1 (1986), с.209-213).

(II) Независимость. Есть наблюдения , ,…, над двумерной с.в. ~ . Проверяется догадка независимости компонент и .Дальше (см. [7], гл.6) будет подтверждено, что нужным случай данных из нормального распределения и достаточным условием независимости -мерных обычных с.в. ( ³ 2) является их некоррелированность (см. также аксиому 6.0 темы «Нормальная регрессия»).

Вправду, в нашем случае двумерной с.в.

~ (где , , , , = corr{ , }), её х.ф. равна

.

Если , то

=

= ,

т.е. характеристическая функция двумерной с.в. представляется в виде произведения х.ф. одномерных с.в.; а, по аксиоме случай данных из нормального распределения 1.2, это нужное и достаточное условие независимости компонент. ÿ

Итак, проверяется догадка : . Её кандидатуры , либо обоесторонняя кандидатура . В гл.5 моей книжки [7] показано, что для характеристик и двумерного обычного рассредотачивания статистики , , и являются МП–оценками (оценками наибольшего правдоподобия). Тут – выборочный коэффициент корреляции

, (6)

а, к примеру, – оценка для , равная

= . (7)

Статистика ОП для проверки : равна , так случай данных из нормального распределения что огромные значения являются критичными против кандидатуры , отрицательные » -1 – критичные при кандидатуре , а его модуль – против кандидатуры (мы докажем это позже, в корреляционном анализе). Тогда же будет подтверждено, что в личном случае (т.е. когда верна), статистика

(8)

имеет рассредотачивание Стъюдента Stn – 2 . Потому несложно вычислить процентные точки аспекта для проверки , основанного случай данных из нормального распределения на . Более того, если отвергается, имеются номограммы доверительных зон для , если для неких стандартных размеров аспекта, вроде = 0.05 (см. [2], Приложение Ш), так что есть возможность выстроить интервальные оценки . Во всех мне узнаваемых статистических пакетах, и даже в Maple, Mathematica и Excel имеется процедура вычисления и квантилей рассредотачивания Стьюдента.

(3) Однородность случай данных из нормального распределения (two-sample problem). Пусть рассматриваются две с.в. и , и в итоге наблюдений с.в. получена подборка ~ , а наблюдений за с.в. дают вторую независимую подборку из популяции ; вообщем говоря, . Проверяется догадка : в личном случае обычного рассредотачивания, т.е. : , . Эта задачка рассматривается в теоретическом плане в [4], стр. 227 – 233, а исходя случай данных из нормального распределения из убеждений практических применений – в [2], стр. 273 и след. Вероятные кандидатуры:

: ;

: , ;

: .

Мы уже отмечали, что согласно общему курсу статистики выборочное среднее и выборочная дисперсия являются достаточными статистиками для характеристик и . И тогда аспекты для проверки являются функциями этих статистик. Эти аспекты сущность ([2], [4]):

(а) для : Могут быть две ситуации: общая дисперсия известна случай данных из нормального распределения, или неведома. Разглядим поначалу более лёгкую, с известной . Так как МП-оценкой для является выборочное среднее, то представляется разумным избрать в качестве статистики для проверки против разность выборочных средних , имеющую обычное рассредотачивание , если верна; рассредотачивание tmp следует из статистической независимости , и из аксиомы Фишера. К огорчению, эта статистика случай данных из нормального распределения неудобна для практического внедрения, потому что её критичные точки зависят от объёмов выборок и , и от значения стандартного отличия . Но можно масштабировать tmp и разглядеть статистику вида

, (9)

~ , если известна (рассредотачивание с.в. следует из усиленной воспроизводимости обычного рассредотачивания). Если же неведома, то, по аксиоме Фишера, для подборки с.в.

~ .

Точно так случай данных из нормального распределения же для подборки с.в.

~ .

Наши подборки не зависят друг от друга, и потому, в силу воспроизводимости Хи- квадрат рассредотачивания, с.в.

~ .

Вспоминаем, что если с.в. h ~ , то E{h} = k. Потому

E{ } = n + m – 2,

и оценивают выборочной дисперсией для объединённой подборки

. (10)

Статистика

~ , (11)

где . По той же аксиоме с.в. и случай данных из нормального распределения статистически независимы. Как следует, статистика

(12)

имеет рассредотачивание Стъюдента Stp. Для проверки против при данном размере аспекта критичным обилием является

(13)

где процентная точка – решение уравнения

, (14)

а – ф.п.в. для St p . Другими словами, употребляется двухсторонний аспект (13), потому что кандидатурой служит . К огорчению, это «наивное» рассмотрение ничего не гласит о мощности аспекта случай данных из нормального распределения (12), (13). Потому дальше мы разглядим применение аспекта ОП для задачки с одной и с 2-мя подборками.

Лемма 2.1. Пусть – среднее арифметическое для . Для случайного , справедливо тождество:

. (15)

Подтверждение. =

= =

= . ÿ

Чтоб получить статистику из аспекта ОП, разглядим поначалу более ординарную задачку: имеется подборка = ~ . Проверяется догадка : против кандидатуры : произвольно. Функция правдоподобия (ФП) есть

, (16)

а её логарифм

. (16¢)

Введём случай данных из нормального распределения с.в.

. (17)

Пользуясь леммой 2.1, можно записать логарифмическую ФП (16¢) в виде:

.

Максимизация по и равносильна минимизации функции

g( , ) = ln( ) + + .

Сначала, последний член, , всегда ³ 0, и он обращается в 0 при = . Отсюда МП-оценка

. (18)

Осталось разглядеть выражение ln( ) + как функцию ; оно эквивалентно ln + = - ln t + t (мы положили t = ). Но при t > 0 функция случай данных из нормального распределения t - ln t ³ 1, причём равенство наступает только при t = 1. Отсюда

s 2МП = . (19)

Таким макаром, что МП-оценки характеристик и (18) и (19) реализуют глобальный максимум ФП (16). Значение логарифма ФП в точке бесспорного максимума равно .

Если же максимизировать в предположении, что верна, т.е. , то МП–оценкой дисперсии является

, (20)

(На дом случай данных из нормального распределения: показать, что - не просто стационарная точка, а точка условного максимума ФП (16) ! ), и для неё

(m0 , ) = const - m / 2 ln – m/2.

Тогда логарифм дела правдоподобия (ОП) равен

ln l( ) = (m 0 , ; ) – ( , ; ) =


sluzhbi-snabzheniya-suples-services.html
sluzhbi-upravleniya-personalom.html
sluzhebnaya-zapiska-2-go-specotdela-nkvd-sssr-v-uoo-nkvd-sssr-s-viderzhkami-iz-pisem-voennosluzhashih-izyatih-organami-vc-21-oktyabrya-1942-g.html