bat

polenadisto


Перелеты опылителя

Все цветет, все опыляется


Previous Entry Share Next Entry
Почему дисперсия в квадрате?
bat
polenadisto
Когда еще в курсе теорвера рассказывают о параметрах случайных величин, как-то стороной обходят причину того, что основным параметром разброса является дисперсия, то есть средний квадрат отклонения от среднего (да, точнее говорить про математическое ожидание, чем про среднее, но тут сойдет и так).
Вначале обычно бойко доказывается, что бессмысленно использовать среднее отклонение от среднего - ибо оно равно нулю для любой случайной величины (на то оно и среднее!). После чего говорится, что вот - чтобы положительные и отрицательные величины друг с другом не аннигилировали. Правда, в итоге показатель разброса оказывается несоизмерим с самой величиной и ее средним значением: меряете вы длину - а дисперсия оказывается площадью, меряете объемы - а дисперсия вообще шестимерными гиперобъемами оказывается! Да, из дисперсии извлекают корень и получают среднеквадратичное отклонение. Но почему исходно не взять, например, модуль?! Что за прихоть математиков?
Помнится, когда я спросил своего преподавателя Мамбы на биофаке, почему не модуль - он ушел от ответа. Ну я так и оставил это дело.
Потом как-то Николай Николаевич Константинов (если кто не знает: ссылка 1 ссылка 2) на беломорской практике биокласса обронил, что, мол, дисперсия в квадрате не потому, что надо положительные и отрицательные отклонения спасти от гарантированного взаимного уничтожения - а потому что "иначе у Гаусса теория не получилась"! Я тогда почему-то вдаваться в детали не стал, но сейчас уже несколько лет разъясняю школьникам и студентам пользу именно такой странной дисперсии (как Гаусс или кто еще из отцов теорвера до этого дошел - всё еще не знаю).

Есть у дисперсии замечательное свойство: дисперсия суммы независимых случайных величин равна сумме их дисперсий. Проще говоря, дисперсию можно раскладывать на компоненты, объясняющие ту или иную долю общей вариации. На это строится и дисперсионный анализ, и метод главных компонент, и количественная генетика - и много чего еще!
А ведь таким свойством не обладает ни гипотетический средний модуль отклонения от среднего, не соизмеримый со средним квадратный корень из дисперсии

  • 1
Это, кстати, тот же вопрос, что и "почему самое простое расстояние - евклидово, а самые хорошие пространства - со скалярным произведением". Вот как-то так выходит, что для них самые простые формулы получаются.

(Собственно, дисперсия и есть почти что скалярный квадрат. А "дисперсия суммы независимых случайных величин равна сумме их дисперсий" - теорема Пифагора в чистом виде:)

Кстати, да. Спасибо за дополнение.
Наверное, за этой простотой что-то стоит - но я пока не понимаю, что.

Еще интересно порассуждать, что первично: среднее значение или дисперсия.

А то есть целый ряд случаев, когда правильно среднее определять через дисперсию, а не наоборот. Когда не дисперсия - по определению среднеквадратичное отклонение от среднего, а среднее - по определению та точка из множества возможных значений, от которой среднеквадратичное отклонение наименьшее.

А это, какие, например, случаи?

Когда допустимые значения лежат не в евклидовом пространстве, а просто в каком-то множестве с заданным на нем расстоянием между точками. Если на этом множестве не определено сложение точек, мы принципиально не можем определить среднее стандартным образом.


Например, пусть есть какая-то случайная величина со значениями на сфере. Скажем, координаты падения метеоритов на какую-то планету. Хочется найти, куда "в среднем" они падают.

Если просто взять среднее значение по обычной формуле, у нас почти всегда получится точка, лежащая под поверхностью планеты. Выходит, что "в среднем" метеориты падают внутрь планеты - что выглядит довольно странно. А вот если мы для всякой точки А на поверхности посчитаем среднеквадратичное отклонение M|X-A|^2, а потом найдем точку (или, иногда, точки), для которой(ых) оно минимально, то эта точка по определению будет лежать на поверхности. (И если вдруг каким-то чудом планета плоская, эта точка будет совпадать с обычным матожиданием)

Распределение Гаусса определяется только двумя параметрами - мат. ожиданием и дисперсией. При этом с этим распределением можно получить много аналитических результатов. Далее показывается, что бесконечная сумма случайных величин с любым распределением сходится к распределению Гаусса.

Определение дисперсии, соотвественно, просто связано с нормальным распределением (распределением Гаусса). Другого смысла нет.

Вообще говоря, мне не до конца ясна изложенная вами логика. Ведь упомянутое свойство дисперсии применимо и для конечных сумм случайных величин, в том числе и никак не нормальных (а к нормальному стремится, как справедливо замечено, именно бесконечная сумма).
И всё-таки скорее нормальное распределение связано с дисперсией, чем дисперсия - с нормальным распределением (в смысле, что ее можно определить и без нормального распределения, хотя в нем она становится нагляднее).

При обсуждении математической статистики необходимо помнить про то, что доказывают математики. Только в этом случае можно понять логику математиков.

Все начинается с положения о существания случайной величины, которую можно представить себе в виде случайного генератора чисел. Только настоящего случайного генератора, а не компьютерного генератора псевдослучайных чисел. Ограничим обсуждение непрерывными случайными величинами. Соотвественно, существующая случайная величина характеризуется непрерывной функцией распределения, которая в свою очередь характеризуется моментами (интегральными характеристиками). Дисперсия случайной величины является одним из моментов.

В этом отношении дисперсия есть у всех случайных величин, хотя по-моему есть извращенные распределения, у которых дисперсия равняется бесконечности. Отличие нормального распределения заключается в том, что два момента (мат. ожидание и дисперсия) определяют все остальные моменты. У других распределений вполне возможно есть большее число независимых параметров.

Утверждения выше относятся к самой случайной величине, то есть к тому, что обычно неизвестно. Тем не менее, изначально утверждается, что вот такое существует. Теперь задачей становится определение параметров распределения из последовательности чисел, сгенерированных случайной величиной, или проверка других гипотез.

На этом пути вводятся оценки (по-моему в мат. статистике используют другой термин, сейчас не помню какой): некоторые функции от сгенерированных чисел. Обсуждаемая вами формула относится к одной из оценок. Оценки сами по себе также являются случайные величинами в том смысле, что их применение к другой сгенерированной последовательности даст другое численное значение.

Так вот, у оценок есть свои свойства и когда ищут оценки стараются найти наиболее оптимальные оценки. Обсуждаемая формула будет оптимальной в случае нормального распределения. В случае другие распределений ее свойства требуют отдельного изучения.

>> В этом отношении дисперсия есть у всех случайных величин, хотя по-моему есть извращенные распределения, у которых дисперсия равняется бесконечности

Да, распределение Коши (может, и еще есть).

>>У других распределений вполне возможно есть большее число независимых параметров.

Возможно. Хотя мне привычнее распределения, определяемые двумя или одним параметром (хи-квадрат, ФИшера...).

>>На этом пути вводятся оценки (по-моему в мат. статистике используют другой термин, сейчас не помню какой)
Нет, именно "оценки".


А по сути: я обсуждал именно генеральную, а не выборочную дисперсию. Да, как средний квадрат отклонения от среднего она определяется только для дискретных распределений, но для непрерывных определение "аналогично", через интеграл.

>>Обсуждаемая формула будет оптимальной в случае нормального распределения.
Оптимальность (эффективность, несмещенность...) выборочной дисперсии (которая, кстати, считается по несколько иной формуле; впрочем, можно воспользоваться и формулой для генеральной дисперсии - если мы точно знаем мат.ожидание) доказывается для произвольного распределения, а не нормального.



Генеральная дисперсия - это просто один из моментов. Насколько я понмю, есть теорема, которая говорит, что в произвольном случае все моменты однозначно определяют распределение. В этом отношении надо ее рассматривать просто как определение.

В случае же нормального распределения дисперсия к тому же входит в явном видет в формулу нормального распределения.

Спасибо за пост!

(Anonymous)
Круто что кто-то пишет такие объяснения. Это очень нужно.

Из той же оперы. Зачем в методе наименьших квадратов двойка? Тоже не для того чтобы учитывать отрицательные и положительные расстояния без аннигиляции. А оказывается для того чтобы потом производная не обратилась в константу. По сути это следует из логики метода, но это тоже нигде не объясняется, а просто пишут "очевидно, что...". И что-то не совсем очевидно.

  • 1
?

Log in