Методы обработки данных, имеющих распределения с тяжелыми хвостами, предложенные Малинецким Г.Г.
Один из общих подходов к обработке положительных величин, имеющих распределения с тяжелым хвостом, состоит в переходе от наблюдаемых величин xi к их логарифмам yi = ln xi. В случае степенного убывания хвостов с любым показателем степени величины yi уже будут иметь все статистические моменты и, таким образом, к ним можно применять стандартные методы статистической обработки. Следует отметить важный недостаток этого подхода. Если нас интересует суммарный эффект Sn, то переход к логарифмам не поможет, ибо связать поведение Sn и ln x1 + ln x2 +… + ln xn в общем случае очень трудно. Остановимся подробнее на важном частном случае, когда можно считать априори известным, что хвост распределения удовлетворительно описывается степенной зависимостью при x, превышающем некоторый также известный порог x0 (отметим, что для каждого типа природных и техногенных катастроф этот вопрос должен рассматриваться отдельно на основе известной статистики или результатов математического моделирования). При этом не обязательно, чтобы это приближение выполнялось для всего диапазона наблюдаемых значений, достаточно, чтобы оно выполнялось для хвоста распределения, т.е. при x > x0. Действительно, для распределений с тяжелыми хвостами основной вклад в суммарный эффект Sn вносят наибольшие наблюдения. Поэтому указанное пороговое ограничение не скажется заметно на оценке вероятностных характеристик сумм Sn при достаточно больших значениях n. После перенормировки на известное значение порога можно считать, что нормированные величины x/x0 имеют распределение Парето. Нужно только выбирать порог x0 так, чтобы осталось достаточное для оценки параметра число наблюдений выше этого порога. Практика показывает, что следует оставлять не менее 25-30 наибольших наблюдений. Оценка максимального правдоподобия
для параметра
имеет вид:
(1.22)
В качестве разброса этой оценки можно взять стандартное отклонение :
. (1.23)
Если для медианы максимального члена med mn использовать выражение (1.12) то в качестве оценки характерного значения суммы можно взять значение
, (1.24) где
. (1.25)
Для распределения Парето математическое ожидание (1.25) можно вычислить точно:
, (1.26)
где через обозначена бета-функция. В табл.1.2 приведены величины Rn для некоторых значений
и n.
Таблица 1.2 - Средние значения отношений Sn/mmax
Параметр | ||||||||
10 |
20 |
50 |
100 |
2000 |
5000 |
1000 |
¥ | |
0,7 |
2,23 |
2,52 |
2,78 |
2,92 |
3,03 |
3,13 |
3,18 |
3,33 |
0,9 |
2,66 |
3,21 |
4,32 |
4,74 |
5,25 |
5,60 |
6,60 |
10,0 |
1,0 |
2,97 |
3,62 |
4,51 |
5, 19 |
5,88 |
6,79 |
7,49 |
¥ |
1,5 |
5,84 |
7,36 |
9,98 |
12,58 |
15,85 |
21,51 |
27,10 |
¥ |