СРАВНЕНИЕ ДВУХ АЛГОРИТМОВ НАСТРОЙКИ ДЛИНЫ РЯДА ДЛЯ ПРОЕКЦИОННОЙ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ Браништи В.В.

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнёва


Номер: 9-1
Год: 2016
Страницы: 10-15
Журнал: Актуальные проблемы гуманитарных и естественных наук

Ключевые слова

функция плотности вероятности, статистическое оценивание, ортогональные системы, пространство L, w, проекционная оценка, probability density function, statistical estimation, orthogonal systems, L, w space, projective estimate

Просмотр статьи

⛔️ (обновите страницу, если статья не отобразилась)

Аннотация к статье

В работе рассматривается проекционная оценка функции плотности вероятности случайной величины. Рассматриваются два подхода к оцениванию длины ряда проекционной оценки, основанные на двух разных способах оценивания функционала качества. С помощью численных экспериментов показано, что подход, основанный на построении несмещённой оценки функционала качества, оказывается более эффективным.

Текст научной статьи

Оценивание функции плотности вероятности случайной величины является центральной задачей математической статистики [1, 5]. Большинство современных алгоритмов классификации, распознавания образов, восстановления стохастических зависимостей используют те или иные алгоритмы восстановления неизвестной плотности. При этом перспективным направлением является применение так называемых непараметрических методов восстановления, т.е. методов, не использующих информацию о виде закона распределения. К непараметрическим методам оценивания плотности относятся гистограммные оценки, оценки ядерного типа [2, 1065; 3, 23] и проекционные оценки плотности [4, 45]. При построении проекционной оценки предполагается, что истинная функция плотности f(x) исследуемой случайной величины ξ принадлежит функциональному гильбертову пространству L2,w(Ω). В работе [5, 21] показано, что для любой непрерывной случайной величины существует содержащее его пространство L2,w(Ω). В этом случае функция f(x) представима в виде ряда: , где , (1) {φ1, φ2, …} - ортонормированный базис пространства L2,w(Ω), Ω ⊆ (-∞; +∞) - множество, на котором восстанавливается функция плотности. Проекционной оценкой функции плотности вероятности называется проекция функции f(x) на конечномерное подпространство пространства L2,w: , где l - длина ряда. Оптимальные коэффициенты αj неизвестны, следовательно, подлежат оцениванию. Соответствующие оценки коэффициентов αj обозначаются как aj. Кроме того, оцениванию подлежит длина ряда l. Проекционная оценка функции плотности, в которой используются оценки aj оптимальных коэффициентов αj обозначается через , а в которой, кроме того, используется оценка длины ряда l - через . Критерием качества оценки плотности является математическое ожидание квадрата отклонения от истинной плотности f(x) в пространстве L2,w: . (2) Пусть имеется независимая выборка x1, x2, …, xn. Стандартный приём к оцениванию коэффициентов αj приведён в работе [4, 45] и состоит в следующем. Выражение (1) рассматривается как математическое ожидание случайной величины φj(ξ)w(ξ): , которое оценивается с помощью выборочного среднего: . Отсюда . (3) В работе [6, 10] показано, что при использовании оценок (3) существует оптимальное в смысле критерия (2) конечное значение длины ряда l. Оценка длины ряда l строится путём минимизации функционала (2), который преобразуется следующим образом: . Так как при любом законе распределения выражение (f,f)w не зависит от l, то минимизация функционала (2) эквивалентна максимизации функционала . (4) Функционал (4) также использует вид истинной плотности f(x), которая считается неизвестной. Поэтому оценку строят путём максимизации оценки функционала (4). В работе [6, 24] строится смещённая оценка функционала (4), смещение которой пропорционально случайной составляющей ошибки приближения: , (5) где k - коэффициент пропорциональности, рассчитываемый по формуле: Проекционную оценку плотности вероятности, в которой коэффициенты находятся по формулам (3), а длина ряда оценивается путём максимизации значения (5), будем называть оценкой (А) и обозначать через . При k = 0 получаем несмещённую оценку функционала (4): . (6) Проекционную оценку плотности вероятности, в которой коэффициенты находятся по формулам (3), а длина ряда оценивается путём максимизации значения (6), будем называть оценкой (Б) и обозначать через . В настоящей работе предлагается сравнение качества оценок (А) и (Б) в смысле критерия (2). В качестве тестовых восстанавливаемых плотностей были взяты следующие: 1) - равномерное распределение на отрезке ; 2) - треугольное распределение на отрезке [-1; 3]; 3) - кубическое распределение на отрезке ; 4) - показательное распределение, λ = 1; 5) - нормальное распределение, μ = 1, σ = 1. Все восстанавливаемые плотности принадлежат пространству L2,w(Ω) при w(x) ≡ 1. Для восстановления плотности в этом пространстве используются следующие полные ортонормированные системы [7, 447]: 1) - базис Лежандра, Ω = [-1; 1]; 2) - базис Фурье, Ω = [-π; π]; 3) - базис Лагерра, Ω = [0; +∞); 4) - базис Эрмита, Ω = (-∞; +∞). Соответствие между восстанавливаемой плотностью, используемой в работе ортонормированной системой, множеством Ω, а также некоторыми свойствами восстанавливаемой плотности приведено в таблице 1. Таблица 1 Свойства восстанавливаемых функций плотности вероятности № Распределение Базис Ω Непрерывна Дифференцируема 1 равномерное Лежандра [-1; 1] нет нет 2 треугольное Фурье [-π; π] да нет 3 кубическое Лежандра [-1; 1] да да 4 показательное Лагерра [0; +∞) нет нет 5 нормальное Эрмита (-∞; +∞) да да Для каждой восстанавливаемой плотности строились оценки (А) и (Б), для которых находилось значение функционала (2). Так как расчёт теоретического значения функционала (2) затруднён, то для него находилось численное значение методом, предложенным в [8, 15]. Результаты расчётов при разных объёмах выборки n занесены в таблицу 2. Таблица 2 Приближённые значения функционала (2) для оценок (А) и (Б) при восстановлении различных законов распределения Равномерное распределение n = 10 n = 20 n = 30 n = 40 n = 50 0,799±0,078 0,466±0,033 0,362±0,022 0,313±0,016 0,277±0,013 0,68±0,066 0,46±0,034 0,36±0,022 0,308±0,016 0,274±0,012 Треугольное распределение n = 10 n = 20 n = 30 n = 40 n = 50 0,288±0,025 0,228±0,013 0,208±0,009 0,199±0,007 0,186±0,005 0,268±0,022 0,224±0,013 0,201±0,008 0,196±0,007 0,189±0,006 Кубическое распределение n = 10 n = 20 n = 30 n = 40 n = 50 0,531±0,073 0,225±0,032 0,149±0,02 0,118±0,016 0,093±0,013 0,44±0,066 0,202±0,028 0,151±0,021 0,115±0,016 0,089±0,012 Показательное распределение n = 10 n = 20 n = 30 n = 40 n = 50 0,136±0,022 0,078±0,013 0,049±0,007 0,037±0,005 0,030±0,004 0,142±0,026 0,071±0,01 0,050±0,008 0,040±0,006 0,030±0,004 Нормальное распределение n = 10 n = 20 n = 30 n = 40 n = 50 0,102±0,013 0,051±0,006 0,034±0,004 0,027±0,003 0,021±0,002 0,102±0,013 0,047±0,005 0,031±0,004 0,025±0,003 0,020±0,002 Как видно из таблицы 2, не зависимо от объёма выборки и вида восстанавливаемого закона распределения метод настройки длины ряда l, основанный на максимизации значения (6), показывает близкие или лучшие результаты по сравнению с методом, основанным на максимизации значения (5). Кроме того, построение оценки (Б) требует меньше вычислительных затрат. Полученные результаты позволяют сделать вывод о том, что при отсутствии априорной информации о виде закона распределения в проекционной оценке плотности вероятности длину ряда l целесообразно оценивать методом максимизации несмещённой оценки функционала (4).

Научные конференции

 

(c) Архив публикаций научного журнала. Полное или частичное копирование материалов сайта возможно только с письменного разрешения администрации, а также с указанием прямой активной ссылки на источник.