Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Шапиро — Уилка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №10 (457) март 2023 г.

Дата публикации: 07.03.2023

Статья просмотрена: 277 раз

Библиографическое описание:

Дручинин, Д. О. Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Шапиро — Уилка / Д. О. Дручинин. — Текст : непосредственный // Молодой ученый. — 2023. — № 10 (457). — С. 6-9. — URL: https://moluch.ru/archive/457/100583/ (дата обращения: 29.04.2024).



Актуальность и цели. В данной работе производится анализ логарифмических доходностей акций, входящих в состав российского IT сектора. Предполагается, что дневная логарифмическая доходность распределена по нормальному закону. Цель работы — проверить гипотезу о нормальном распределении дневных логарифмических доходностей на реальных данных. С экономической точки зрения задача исследования — определить таймфреймы и промежутки времени, на которых логарифмические доходности будут иметь нормальное распределения, а также те, на которых условия не выполняются. Помимо этого, необходимо выяснить, как повлияло изменение цен акций в 2022 года на сектор информационных технологий. В дальнейшем эту информацию можно использовать для прогнозирования цен акций исследуемых компаний. Для проверки используется критерий Шапиро — Уилка, являющийся одним из наиболее эффективных критериев. После этого проверяется гипотеза на реальных данных и вычисляется процент проверок, в которых гипотеза будет приниматься при уровне значимости в 5 % и 1 %.

Временной отрезок для рассмотрения: 01.01.2022–31.12.2022

Ключевые слова : логарифмическая доходность, уровень значимости, нормальное распределение, проверка гипотезы

Введение

Информационный сектор играет важную роль в экономике России и является одной из самых быстро развивающихся отраслей. Он включает в себя производство и распространение информационных товаров и услуг, таких как программное обеспечение, интернет-сервисы, мультимедиа-контент и многое другое. Информационные технологии также широко применяются в других отраслях, таких как финансы, производство, здравоохранение, транспорт и телекоммуникации.

Вклад информационного сектора в экономику России растет из года в год. Согласно отчету Аналитического центра при Правительстве Российской Федерации, в 2020 году доля информационных технологий в ВВП России составила 4,5 %, а объем рынка информационных технологий оценивался в 3,4 трлн рублей.

Этот сектор является ключевым для развития экономики России, поскольку способствует созданию новых рабочих мест, привлечению инвестиций, улучшению качества жизни и повышению конкурентоспособности страны в мировом рынке. Более того, информационные технологии могут существенно повысить эффективность работы государственных органов и бизнеса, что в свою очередь ведет к увеличению производительности и экономического роста.

С экономической точки зрения, оценивается изменение цен акций в 2022 году в сектор информационных технологий. Определение на каких промежутках логарифмические доходности имели нормальное распределение позволит спрогнозировать дальнейшее изменение в данном секторе.

Основная часть

Для проверки критерия были взяты акции компаний, которые входят в сектор информационных технологий, а именно:

YNDX — Яндекс

HHRU — HeadHunter

VKCO — Вконтакте

OZON — Озон

MTSS — МТС

POSI — Positive Technologies

SFTL — Softline

Для того чтобы использовать эти данные для проверки нормальности по критерию Шапиро — Уилка, необходимо провести их предварительный анализ. В первую очередь, посчитаем логарифмические доходности акций.

1 Теоретическая справка по проверке гипотез

1.1 Статистическая проверка гипотез

Статистическая гипотеза — это любое утверждение о виде или параметрах генерального распределения. Гипотезу называют основной и обозначают

, если он утверждает, что отсутствуют различие между сравниваемыми характеристиками, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, которые используются для сравнения. Помимо основной гипотезы существует альтернативная ей гипотеза . Стоит отметить, что и — являются взаимоисключающими статистическими гипотезами. Утверждение о справедливости одной из этих гипотез принимается в качестве предположения. Статистический критерий, который является случайной величиной с точным или приближенным известным распределением, используется для проверки гипотезы.

Пусть - некоторое подмножество . В этом случае правило, в соответствии с которым H 0 отвергается, если выборка , и принимается, если , называется статистическим критерием с критической областью К. Так как и являются гипотезами, которые исключают друг друга, принятие

ведет за собой отклонение . Напротив, отклонение приводит к принятию из-за базисного предположения.

Использование статистического критерия может привести к ошибкам двух типов, которые приведены в таблице 1:

  1. Ошибка первого рода заключается в том, что отвергается верная гипотеза .
  2. Ошибка второго рода заключается в том, что отвергается верная гипотеза .

При этом, уровнем значимости критерия называется вероятность ошибки первого рода и обозначается . Вероятность ошибки второго рода обозначается , а величина — это мощность критерия.

Таблица 1

Гипотезы

H 0 верна

H 0 неверна

H 0 отвергается

Ошибка I рода

+

H 0 не отвергается

+

Ошибка II рода

Для реализации случайной выборки , которая зафиксирована, P-значением критерия (P-value) называется такое число , что для любого уровня значимости α, при котором гипотеза принимается и для любого уровня значимости , при котором отвергается.

Предполагается, что Р-значение уже каким-либо способом найдено. В этом случае решение о принятии или отклонении

для заданного осуществляется на основе следующего простого правила: если , гипотеза H 0 отвергается, а если гипотеза принимается.

Рассматривается отдельно случай В этом случае где c(- непрерывная убывающая функция, и для имеет место равенство , означающее, что принимается. Отсюда уже легко получить широко применяемую формулу:

1.2 Критерий Шапиро — Уилка

В данной работе используется критерий Шапиро — Уилка. Он используется для проверки гипотезы H 0 : «случайная величина X распределена нормально».

Критерий Шапиро — Уилка основан на анализе линейной комбинации разностей порядковых статистик. Критерий применяется при объемах выборки от 3 ≤ n ≤ 50, так как табулированы константы, необходимые для вычисления статистики критерия и аппроксимации P-значения.

Пусть имеется выборка Статистика вычисляется по формулам:

, где , ,

Значение k в последней формуле определяется следующим образом:

, если n — четное

, если n — нечетное

Нормальная аппроксимаций используется для вычисления реально достигнутого уровня значимости:

, где

— стандартное нормальное распределение, в котором , и — константы, табличные значения которых известны, в зависимости от объема выборки. Значения приведены в таблице 2.

Если , то нулевая гипотеза нормальности распределения отклоняется на уровне значимости .

Ж. П. Ройстон предложил другой способ вычисления P-значения для n вплоть до 2000: и , где z — стандартная нормальная случайная величина, а и ее матожидание и среднеквадратичное отклонение. Данная формула будет использована для нахождения уровня значимости и p — значений. Чтобы найти уровень значимости для конкретного

, необходимо посчитать вероятность того, что случайная величина будет меньше . Для проведения расчетов понадобятся следующие данные из таблицы. Значения , аппроксимируются многочленами от , где , если и , если .

Таблица 2

Коэффициенты

Параметр

n

Коэффициенты

0

1

2

3

4

5

6

7–20

0,118898

0,133414

0,327907

21–2000

0,480358

0,318828

0

-0,02417

0,008797

0,00299

7–20

-0,37542

0,492145

-1,12433

-0,19942

21–2000

-1,91487

-1,37888

-0,04183

0,1066339

-0,03514

-0,01506

7–20

-3,15805

0,729399

3,01855

1,558776

21–2000

-3,73538

-1,01581

-0,33189

0,1773538

-0,01639

-0,03215

0,003853

2 Проверка гипотезы на реальных данных

В данном разделе анализируются данные логарифмической доходности и применяется к ним критерий Шапиро — Уилка. Далее выбираются данные, в которых гипотеза принимается при 5 % и 1 % уровнях значимости. Строиться ряд гистограмм и делаются выводы.

Для удобства использования уровни значимости будут отмечаться следующим образом: 5 % — 0.12 , 1 % — 0.02

2.1 Гипотеза о нормальности распределения логарифмической доходности для периода в 6 месяцев

Далее анализируются данные на промежутке в 6 месяцев. Результаты приведены в таблице 3.

Таблица 3

Проверка критерия на промежутке в 6 месяцев

01.01.2022–30.06.2022

01.07.2022- 31.12.2022

HHRU

0.0

0.0

VKCO

0.0

0.0

MTSS

0.0

0.0

POSI

0.0

0.000348

SFTL

0.0

0.0

OZON

0.0

0.0

YNDX

0.0

0.000006

Из таблицы следует, что на временных промежутках в 6 месяцев p-значение выше 1 % не имела ни одна компания.

2.2 Гипотеза о нормальности распределения логарифмической доходности для периода в 3 месяца

Проверяются данные на промежутке в 3 месяца. Результаты приведены в таблице 4.

Таблица 4

Проверка критерия на промежутке в 3 месяца

1 квартал

2 квартал

3 квартал

4 квартал

HHRU

0.000075

0.916383

0.006304

0.000123

VKCO

0.0

0.041

0.000557

0.301379

MTSS

0.0

0.0

0.0

0.185686

POSI

0.000001

0.000001

0.006477

0.137620

SFTL

0.0

0.001329

0.0

0.0

OZON

0.006810

0.174743

0.000477

0.0038

YNDX

0.0

0.996487

0.001316

0.597753

Из таблиц видно, что с уменьшением исследуемого периода, возрастает количество логарифмических доходностей, которые имеют нормальное распределение.

Таблица 5

Итоговые результаты

6 месяцев

3 месяца

5 %

0 %

25 %

1 %

0 %

28,57 %

Итоговые результаты показывают, что логарифмические доходности имели нормальное распределение лишь на промежутке в 3 месяца. Также следует отметить, что это было характерно только для 2 и 4 квартала.

Заключение

В данной работе проводился анализ логарифмических доходностей акций, входящих в состав сектора информационных технологий. В ходе работы были получены следующие результаты:

На промежутке в 1 год с таймфреймом 1 день не нашлось значений, которые имеют p-значение выше 5 %. На промежутке в 6 месяцев с таймфреймом 1 день количество значений, которые имеют нормальное распределение не увеличилось.

На промежутке в 3 месяца с таймфреймом 1 день, лишь 25 процентов акций имеют нормальное распределение. При этом, нормальное распределение акций встречалось только во втором и четвертом квартале.

Можно сделать вывод, что использование критерия Шапиро — Уилка для проверки нормальности распределения не позволяет выявить закономерности для предсказания будущих цен акций.

Литература:

1. Браилов А. В. Лекции по математической статистике. М.: Финакадемия, 2007

2. В. Е. Гмурман Теория вероятностей и математическая статистика, Юрайт, 2011

3. Фадеева Л. Н. Лебедев А. В. Теория вероятностей и математическая статистика, Эксмо, 2010

4. J. P. Royston, Extension of Shapiro and Wilk's W Test for Normality to Large Samples, p. 118

5. Shapiro S. S., Wilk M. B. An analysis of variance test for normality (complete samples) Biometrika, 52 No. 3/4. (Dec., 1965), pp. 591–611

Основные термины (генерируются автоматически): нормальное распределение, уровень значимости, HHRU, MTSS, OZON, POSI, SFTL, VKCO, YNDX, Гипотеза.


Ключевые слова

нормальное распределение, уровень значимости, логарифмическая доходность, проверка гипотезы

Похожие статьи

Шаблон Excel для проверки законов распределения данных...

Критическое значение статистики U, которая имеет распределение с r степенями свободы

на рис. 4, задаваясь уровнем значимости (например, 0,05, что соответствует доверительной

7. Фаюстов А. А. Проверка гипотезы о нормальном распределении выборки по критерию

В силу аппроксимации значения индекса нормальным законом распределения, а также.

Метод оценки нормальности распределения результатов...

Критическое значение статистики U , которая имеет распределение χ 2 с f степенями

о нормальном распределении с помощью критерия Пирсона при уровне значимости 0,05.

Меняя закон распределения на этом листе можно проверить три гипотезы за несколько...

7. Фаюстов А. А. Проверка гипотезы о нормальном распределении выборки по критерию...

Отсеивание грубых погрешностей результатов измерений...

Задаются вероятностью Р или уровнем значимости α ( ) того, что результат наблюдения

Проверяемая гипотеза состоит в утверждении, что результат наблюдения x i не содержит

Квантили распределения статистики τ при уровнях значимости α = 0,10; 0,05; 0,025 и 0,01

о нормальном распределении с помощью критерия Пирсона при уровне значимости 0,05.

Обзор методик, используемых для оценки уровня...

В рамках данной статьи будут рассмотрены основные методики оценки уровня цифровой трансформации, применимые на практике деятельности коммерческих предприятий, на примере предприятий из банковской сферы.

Проверка нормальности распределения оценок параметров...

, где является стандартной нормально распределённой случайной величиной, параметр

При невысоком уровне шума можно рассчитывать на то, что в модели (3) остатки будут

Гипотеза отвергается, если статистика превышает квантиль распределения статистики заданного уровня значимости α.

Проверка статистических гипотез проводилась на уровне значимости .

Оценивание параметров генеральных совокупностей...

Однако, в отличие от теории нормального распределения, теория t -распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности.

Распределение Хотеллинга и его применение | Статья в сборнике...

Значение, соответствующее и выбранной степени свободы, представляет собой значение плотности распределения , правая часть которого имеет поверхность (рис. 6). Мы отвергнем нулевую гипотезу на уровне , если статистика больше критического значения в таблице

Использование языка R для эконометрического моделирования...

При данном уровне значимости P = 0.05 имеем нулевую гипотезу H0: r = 0 о равенстве нулю коэффициента корреляции и альтернативную гипотезу H1: r ≠ 0. Для проверки нулевой гипотезы используют величину (1), имеющую распределение Стьюдента с n-2 степенями...

Применение вектора Шепли и индекса Банзафа для определения...

...нормальным или патологическим состоянием и т. д. Разнообразие в профилях генной

полученные с помощью технологии микрочипов, с учетом уровня взаимодействия между

В [1] введен класс игр с микрочипами, позволяющий количественно оценить значимость каждого

Вывод. Результатом использования рассмотренного подхода является распределение вектора...

Похожие статьи

Шаблон Excel для проверки законов распределения данных...

Критическое значение статистики U, которая имеет распределение с r степенями свободы

на рис. 4, задаваясь уровнем значимости (например, 0,05, что соответствует доверительной

7. Фаюстов А. А. Проверка гипотезы о нормальном распределении выборки по критерию

В силу аппроксимации значения индекса нормальным законом распределения, а также.

Метод оценки нормальности распределения результатов...

Критическое значение статистики U , которая имеет распределение χ 2 с f степенями

о нормальном распределении с помощью критерия Пирсона при уровне значимости 0,05.

Меняя закон распределения на этом листе можно проверить три гипотезы за несколько...

7. Фаюстов А. А. Проверка гипотезы о нормальном распределении выборки по критерию...

Отсеивание грубых погрешностей результатов измерений...

Задаются вероятностью Р или уровнем значимости α ( ) того, что результат наблюдения

Проверяемая гипотеза состоит в утверждении, что результат наблюдения x i не содержит

Квантили распределения статистики τ при уровнях значимости α = 0,10; 0,05; 0,025 и 0,01

о нормальном распределении с помощью критерия Пирсона при уровне значимости 0,05.

Обзор методик, используемых для оценки уровня...

В рамках данной статьи будут рассмотрены основные методики оценки уровня цифровой трансформации, применимые на практике деятельности коммерческих предприятий, на примере предприятий из банковской сферы.

Проверка нормальности распределения оценок параметров...

, где является стандартной нормально распределённой случайной величиной, параметр

При невысоком уровне шума можно рассчитывать на то, что в модели (3) остатки будут

Гипотеза отвергается, если статистика превышает квантиль распределения статистики заданного уровня значимости α.

Проверка статистических гипотез проводилась на уровне значимости .

Оценивание параметров генеральных совокупностей...

Однако, в отличие от теории нормального распределения, теория t -распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности.

Распределение Хотеллинга и его применение | Статья в сборнике...

Значение, соответствующее и выбранной степени свободы, представляет собой значение плотности распределения , правая часть которого имеет поверхность (рис. 6). Мы отвергнем нулевую гипотезу на уровне , если статистика больше критического значения в таблице

Использование языка R для эконометрического моделирования...

При данном уровне значимости P = 0.05 имеем нулевую гипотезу H0: r = 0 о равенстве нулю коэффициента корреляции и альтернативную гипотезу H1: r ≠ 0. Для проверки нулевой гипотезы используют величину (1), имеющую распределение Стьюдента с n-2 степенями...

Применение вектора Шепли и индекса Банзафа для определения...

...нормальным или патологическим состоянием и т. д. Разнообразие в профилях генной

полученные с помощью технологии микрочипов, с учетом уровня взаимодействия между

В [1] введен класс игр с микрочипами, позволяющий количественно оценить значимость каждого

Вывод. Результатом использования рассмотренного подхода является распределение вектора...

Задать вопрос