Maximizing the number of allowable approximation errors when building a linear regression model

Cover Page

Cite item

Full Text

Abstract

Subject of research: errors in approximation of a linear regression model within the framework of a logical-algebraic approach to data analysis.

Purpose of the study: to develop an algorithmic method for solving the problem of maximizing the number of permissible approximation errors using a linear-Boolean programming computer.

Methods and objects of research: the object of research is a linear regression model, the methods are linear regression analysis and mathematical programming apparatus.

Main results of the study: an algorithmic method is proposed for maximizing the number of permissible absolute and relative errors in approximation of a linear regression equation, which reduces to solving linear-Boolean programming problems of a dimension acceptable for practical situations. Solving generated problems of this type should not cause computational problems due to a significant number of effective software tools, for example, the LPsolve program, which is freely available on the Internet.

Full Text

ВВЕДЕНИЕ

Методы математического моделирования являются эффективным средством исследования сложных, с множеством межфакторных структурных взаимодействий, систем различного характера и масштаба. Эти методы позволяют формализовывать свойственные таким системам закономерности функционирования и развития путем создания их качественных абстрактных аналогов, что открывает широкие перспективы в существенном повышении действенности вырабатываемых управляющих сигналов.

Регрессионные модели – весьма широкий класс математических моделей, разрабатываемых для исследования сложных объектов любой природы. Рассмотрим необходимый составной элемент практически любой модели этого типа – регрессионное уравнение (зависимость) вида:

yk=i=1mαixki+εk, k=1,n, (1)

где у − зависимая, а xii-я независимая переменная, αii-й подлежащий оцениванию параметр, εk − ошибки аппроксимации, k − номер наблюдения, n – их число (длина выборки данных). Будем считать все переменные и ошибки уравнения (1) детерминированными.

Представим уравнение (1) в векторной форме:

y=Xα+ε,

где y=(y1,…,yn )T, α=(α1,…,αm )T, ε=(ε1,…,εn )T, X−(n×m) – матрица с компонентами xki . При наличии в уравнении (1) свободного члена первый столбец матрицы Х состоит из единиц.

Построение и использование регрессионных моделей в прикладных целях часто сопровождается анализом свойств ошибок аппроксимации. Так, в работе [1] представлена гладкая функция для аппроксимации функции контрольных потерь с тем, чтобы можно было использовать методы оптимизации на основе градиента для подбора модели квантильной регрессии. Обсуждаются свойства гладкого приближения, предложены два алгоритма минимизации сглаженной целевой функции. В [2] рассматривается задача выбора и оценки модели квантильной регрессии с известной структурой групп в предикторах. Для медианного случая модель оценивается путем минимизации штрафной целевой функции потерь (ошибок аппроксимации) Хубера. Статья [3] посвящена анализу существования двух непротиворечивых оценок параметров линейных предикторов в регрессии Пуассона, где ковариата измеряется с ошибками. В [4] рассматривается проблема выбора переменных в квантильной регрессии с авторегрессионными ошибками аппроксимации.

Все наиболее часто используемые в регрессионном анализе критерии адекватности моделей, в частности множественной детерминации, Фишера, Стьюдента, Дарбина – Уотсона, включают в свои расчетные формулы ошибки аппроксимации и отражают те или иные частные характеристики в качестве модельного описания сложных объектов. Так, в работе [5] критерий множественной детерминации использовался при разработке регрессионной модели индекса нормализации разницы растительности лугов и пахотных земель вдоль нарушенной полосы отвода трубопроводов Баку – Тбилиси – Джейхан и Южно-Кавказского трубопровода для целей планирования восстановления растительности. В качестве климатических факторов были выделены годовое количество осадков, годовое суммарное испарение, температура поверхности Земли, годовая минимальная и максимальная температура воздуха и солнечная радиация. Учитывались также грунтовые факторы: высота, ракурс, грунтовые воды и глубина верхнего слоя почвы. В [6] отмечается, что регрессия Стьюдента является полезным расширением нормальной модели, которую можно использовать для статистического моделирования наборов данных, включающих ошибки с тяжелыми хвостами и/или выбросами. Обсуждается также регрессия Стьюдента с переменной дисперсией, в которой как среднее значение, так и дисперсия зависят от объясняющих переменных. Проблема, представляющая интерес, заключается в одновременном выборе значимых переменных как в модели среднего значения, так и в модели дисперсии. Описана унифицированная процедура, позволяющая выделять значимую переменную. В работе [7] предложен алгоритм применения критерия Дарбина – Уотсона для анализа автокорреляции ошибок аппроксимации. В исследовании [8] этот критерий использован при моделировании качества воздуха. В качестве независимых переменных при этом использованы концентрация твердых частиц и метеорологические параметры (температура, влажность, скорость и направление ветра) за 5 лет с трех промышленных станций мониторинга качества воздуха в Малайзии. В работе [9] предлагаются простые, основанные на критерии Дарбина – Уотсона тесты для проверки корреляции рядов, которые применимы в моделях линейной регрессии. Процедуры тестирования устойчивы при различных распределениях случайных ошибок. Асимптотические распределения предложенной статистики получены с помощью совместной центральной предельной теоремы для нескольких общих квадратичных форм и дельта-метода. В [10] с помощью критерия Фишера проведен регрессионный анализ загрязнения тяжелыми металлами почв и донных отложений прудов, находящихся в зоне с повышенной автотранспортной нагрузкой.

В работе [11] предложен метод оценивания параметров модели (1) путем минимизации средней и максимальной относительных ошибок аппроксимации.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Наиболее популярными методами построения регрессионного уравнения (1) принято считать методы наименьших квадратов (МНК) и модулей (МНМ) (см., например, [12, 13]). Первый из них позволяет аналитически представить формулу для расчета вектора параметров:

α=(ХТХ)-1ХТу.

Для применения МНМ следует либо воспользоваться методом вариационно-взвешенных квадратичных приближений [14], основанным на использовании специальным образом организованной итерационной процедуры, либо путем [13] сведения задачи

E=k=1nεkmin (2)

к задаче линейного программирования (ЛП) следующим образом.

Введем в рассмотрение переменные uk ≥ 0 (положительные части ошибок εk) и vk ≥ 0 (отрицательные части ошибок εk), k=1,n̅ следующим образом:

uk=εk,0, εk>0в противном случае,

vk=-εk,0, εk<0в противном случае,'

Очевидно, что при этом справедливы следующие равенства:

εk = uk - vk , |εk | = uk + vk , uk vk = 0.

Представим уравнение (1) в виде системы тождеств:

i=1mαixki+uk-vk=yk, k=1,n (3)

uk0, vk0, k=1,n, (4)

Тогда задача (2) эквивалента задаче ЛП с ограничениями (3), (4) и целевой функцией

k=1nuk+vkmin (5)

Предложенный в [11] метод минимизации средней относительной ошибки аппроксимации E~=k=1nεkyk/n сводится к задаче ЛП с ограничениями (3), (4) и целевой функцией

k=1n1ykuk+vkmin (6)

Там же предложен способ минимизации максимальной относительной ошибки аппроксимации

r=maxk=1,nεkykmin

Для этого система ограничений (3), (4) дополняется неравенствами:

uk+vk-ykr0, k=1,n, (7)

а целевая функция (6) заменяется на следующую:

r → min. (8)

Решение трех сформированных задач ЛП (3) – (5), (3), (4), (6) и (3), (4), (7), (8) не вызывает вычислительных проблем в силу значительного числа эффективных программных средств, например размещенной в Интернете в свободном доступе программы LPsolve.

Поставим задачу максимизации числа наблюдений выборки, для которых модуль ошибки аппроксимации не превышает некоторой наперед заданной величины d (трактуемой как допустимая абсолютная ошибка), или, формально:

|S| → max, (9)

где

S = { k ∈ {1,2,…n}| |εk | ≤ d},

а через |S| обозначено число элементов (мощность) множества S. Таким образом, S – множество номеров наблюдений выборки, абсолютные ошибки аппроксимации для которых допустимы.

Допустимым ошибкам можно придать и относительный характер путем постановки задачи

S~max, (10)

где

S~=k1,2,n||εk|d~ yk,

а d~ представляет собой долю фактических значений зависимой переменной, выраженную в процентах (например, d~ = 0.03 соответствует 3 %).

Введем в рассмотрение булевы переменные σk , k=1,n по правилу:

σk=10 εkdв противном случае

а также ограничения

uk + vk + М σk ≤ М + d, (11)

где М – наперед заданная большая положительная константа.

Тогда задача (9) эквивалентна задаче линейно-булева программирования (ЛБП) с ограничениями (3), (4), (11),

σk0,1, k=1,n (12)

и целевой функцией

k=1nσk-δk=1nuk+vkmax, (13)

где δ – наперед заданное малое положительное число, сравнимое с нулем. Присутствие в (13) второго слагаемого гарантирует выполнение условия ukvk = 0 для всех k, следующего из приведенного выше определения переменных uk и vk.

При решении задачи (10) необходимо ограничение (11) в задаче ЛБП (3) (4), (11) – (13) заменить на следующее:

uk+vk+MσkM+d~yk. (14)

Применим описанный способ идентификации параметров линейной регрессии для моделирования пассажирооборота воздушного транспорта Российской Федерации. Введем следующие обозначения:

y – пассажирооборот воздушного транспорта, млрд пасс. км;

x1 – среднемесячная номинальная начисленная заработная плата работников организаций, руб.;

x2 – численность трудоспособного населения в России, млн чел.

В качестве информационной базы для моделирования используем статистиче скую ежегодную информацию за 2002– 2019 гг. [15]. С помощью МНК, МНМ и изложенного выше подхода будем строить линейную двухфакторную модель без свободного члена:

yk = α1xk1 + α2xk2 + εk, k=1,18.

В результате получим:

  •  МНК

y= 0.00586x1 + 0.36409x2,

Е = 173.1, E~ = 0.29 %, (15)

  • МНМ

y= 0,00577x1 + 0,40365x2,

Е = 172.3, E~ = 0.41 %. (16)

Значения критериев адекватности Е и E~ указывают на высокую адекватность моделей (15) и (16).

В таблицах 1 и 2 отражены мощности множеств S и  для моделей (15) и (16).

 

Таблица 1. Мощность множеств S для моделей (15) и (16)

d

|S|

Модель (15)

Модель (16)

1

2

2

2

4

3

3

6

3

4

7

9

5

7

9

6

7

9

7

9

9

8

10

11

9

11

11

10

11

12

 

Таблица 2. Мощность множеств |S ̃| для моделей (15) и (16)

d~

S~

Модель (15)

Модель (16)

0.01

2

3

0.02

6

5

0.03

6

5

0.04

8

7

0.05

9

10

0.06

10

11

0.07

10

12

0.08

10

13

0.09

13

14

0.1

14

15

 

Из анализа таблицы 1 следует, что при d≤ 3 число |S| для модели (15) не меньше, чем для модели (16), при d> 3 – не больше.

Из таблицы же 2 следует, что такой границей является число d~=0.04.

В таблице 3 представлены результаты решения задачи ЛБП (3), (4), (11) – (13) по максимизации числа абсолютных ошибок аппроксимации для различных значений d~.

 

Таблица 3. Результаты решения задачи (3), (4), (11) – (13) по максимизации числа абсолютных ошибок аппроксимации для различных значений d

d

α1

α2

|S|

Е

S

1

0.00449

0.51449

5

379.7

1,2,4,5,7

2

0.00480

0.49584

6

299.8

1,2,4,5,6,15

3

0.00481

0.47436

7

315.1

1,2,4,5,6,7,15

4

0.00577

0.40365

9

172.3

1,2,4,5,6,10,14,16,17

5

0.00474

0.51125

9

308.7

1,2,3,4,5,6,7,9,15

6

0.00576

0.42403

11

175.6

1,2,3,4,5,6,10,11,14,16,17

7

0.00576

0.41295

11

173.5

1,2,3,4,5,6,10,11,14,16,17

8

0.00590

0.39136

12

179.7

1,2,3,4,5,6,10,11,14,16,17,18

9

0.00579

0.39540

12

172.5

1,2,3,4,5,6,9,10,11,14,16,17

10

0.00597

0.32857

13

178.1

1,2,4,5,6,7,9,10,11,14,16,17,18

 

Отметим, что значение d=4 соответствует модели (16).

В таблице 4 помещены результаты решения задачи ЛБП (3), (4), (14), (12), (13) по максимизации числа относительных ошибок аппроксимации для различных значений d ̃.

 

Таблица 4. Результаты решения задачи (3), (4), (14), (12), (13) по максимизации числа относительных ошибок аппроксимации для различных значений

d~

α1

α2

S~

Е

S

0.01

0.00587

0.35011

6

174.8

5,6,10,14,16,17

0.02

0.00489

0.48631

7

285.8

1,2,4,5,6,9,15

0.03

0.00592

0.37499

9

178.4

4,5,6,10,11,14,16,17,18

0.04

0.00551

0.42849

10

195.6

1,2,4,5,6,9,10,14,16,17

0.05

0.00577

0.40847

11

173.0

1,2,4,5,6,10,11,14,16,17,18

0.06

0.00599

0.39015

13

189.0

1,2,4,5,6,10,11,12,13,14,16,17,18

0.07

0.00583

0.42082

14

181.0

1,2,3,4,5,6,10,11,12,13,14,16,17,18

0.08

0.00576

0.41629

15

174.4

1,2,3,4,5,6,9,10,11,12,13,14,16,17,18

0.09

0.00541

0.43853

15

208.5

1,2,3,4,5,6,7,9,10,11,14,15,16,17,18

0.1

0.00573

0.40035

16

175.9

1,2,3,4,5,6,7,9,10,11,12,13,14,16,17,18

 

Анализ таблиц 3, 4 позволяет сделать следующие выводы.

Поведение оценок параметров α1 и α2, а также суммы модулей ошибок Е не является монотонным при росте значений d и d~. При этом мощность множеств S и S~ естественным образом возрастает.

Попадание какого-либо номера наблюдения выборки в состав множеств S или S̃ для меньших значений d или d~ отнюдь не гарантирует этого для бо́льших значений.

Разумеется, окончательный выбор конкретного значения d или d~ и, соответственно, оценок параметров приведенной выше двухфакторной модели пассажирооборота воздушного транспорта Российской Федерации остается за исследователем в зависимости от целей моделирования и его индивидуальных предпочтений относительно значений d, d~, |S|, S~.

ЗАКЛЮЧЕНИЕ И ВЫВОДЫ

В работе предложен алгоритмический способ максимизации числа допустимых абсолютных и относительных ошибок аппроксимации линейного регрессионного уравнения, сводящийся к решению задач линейно-булева программирования приемлемой для практических ситуаций размерности. Решение сформированных задач ЛП и ЛБП не должно вызывать вычислительных проблем в силу значительного числа эффективных программных средств, например размещенной в Интернете в свободном доступе программы LPsolve.

Применение МНК и МНМ позволяет построить весьма адекватные модели пассажирооборота воздушного транспорта Российской Федерации. Поведение оценок параметров модели, а также суммы модулей ошибок не является монотонным при росте уровней допустимых значений абсолютных и относительных ошибок аппроксимации. При этом мощность множеств числа допустимых ошибок естественным образом возрастает. Кроме того, попадание какого-либо номера наблюдения выборки в состав множеств номеров допустимых ошибок для их меньших значений отнюдь не гарантирует этого для бо́льших значений.

×

About the authors

Sergey I. Noskov

Irkutsk State Transport University

Author for correspondence.
Email: sergey.noskov.57@mail.ru

Doctor of Technical Sciences, Professor, Professor of the Department of Information Systems and Information Security

Russian Federation, Irkutsk

Anton N. Shakhurov

Irkutsk State Transport University

Email: Fantom3920@yandex.ru

student of the Department of Information Systems and Information Security

Russian Federation, Irkutsk

References

  1. Zheng, S. Gradient descent algorithms for quantile regression with smooth approximation / S. Zheng. – doi: 10.1007/s13042-011-0031-2 // International Journal of Machine Learning and Cybernetics. – 2011. – № 2. – Р. 191–207
  2. Sherwood, B. Quantile regression feature selection and estimation with grouped variables using Huber approximation / B. Sherwood, S. Li. – doi: 10.1007/s11222-022-10135-w // Statistics and Computing. – 2022. – № 32 (75). – URL: https://link.springer.com/article/ 10.1007/s11222-022-10135-w (date of application: 24.09.2024).
  3. Kukush, A. Three estimators for the poisson regression model with measurement errors / A. Kukush, H. Schneeweis, R. Wolf. – doi: 10.1007/bf02777577 // Statistical Papers. – 2004. – № 45. – Р. 351–368.
  4. Variable selection in quantile regression when the models have аtoregressive errors / W. Zhao, R. Zhang, Y. Lv, J. Liu. – doi: 10.1016/j.jkss.2012.11.003// Oh Journal of the Korean Statistical Society. – 2014. – № 43 (3). – Р. 513–530.
  5. Bayramov, E. Determination of main climate and ground factors controlling vegetation cover regrowth along oil and gas pipelines using multiple, spatial and geographically weighted regression procedures / E. Bayramov, M. F. Buchroithner, E. McGurty. – doi: 10.1007/s12665-011-1429-6 // Environmental Earth Sciences. – 2012. – № 66. – Р. 2047–2062.
  6. Zhao, W. Variable selection of varying dispersion student-t regression models / W. Zhao, R. Zhang. – doi: 10.1007/s11424-014-2223-9// Journal of Systems Science and Complexity. – 2015. – Vol. 28. – Р. 961–977.
  7. Георгиев, Н. С. Проверка автокорреляции в остатках критерием Дарбина – Уотсона / Н. С. Георгиев, А. Д. Юрченко. – Текст : непосредственный // Аллея науки. – 2020. – № 2 (6). – С. 182–185.
  8. Application of Step Wise Regression Analysis in Predicting Future Particulate Matter Concentration Episode / A. Nazif, N. I.Mohammed, A. Malakahmad, M. S. Abualqumboz. – doi: 10.1007/s11270-016-2823-1 // Water, Air, & Soil Pollution. – 2016. – № 227 (117). – URL: https://link.springer.com/article/10.1007/s11270-016-2823-1 (date of application: 24.09.2024).
  9. Yin, Y. Model-free tests for series correlation in multivariate linear regression / Y. Yin. – doi: 10.48550/arXiv.1901.05595 // Journal of Statistical Planning and Inference. – 2020. – № 206. – Р. 179–195.
  10. Сорокин, А. В. Взаимосвязь накопления тяжелых металлов в донных отложениях и почве при проведении оценки загрязненности рекреационных зон автотранспортом / А. В. Сорокин, Е. В. Сотникова. – Текст : непосредственный // Технические науки – от теории к практике. – 2014. – № 36. – C. 145–151.
  11. Носков, С. И. Минимизация средней и максимальной относительных ошибок аппроксимации регрессионной модели / С. И. Носков. – Текст : непосредственный // Известия Тульского государственного университета. Технические науки. – 2023. – № 1. – С. 340–343.
  12. Дрейпер, Н. Прикладной регрессионный анализ / Н. Дрейпер, Г. Смит. – 3-е издание. – Москва : Вильямс, 2016. – 912 с. – Текст : непосредственный.
  13. Демиденко, Е. З. Линейная и нелинейная регрессии / Е. З. Демиденко. – Москва : Финансы и статистика, 1981. – 302 с. – Текст : непосредственный.
  14. Мудров, В. И. Методы обработки измерений. Квазиправдоподобные оценки / В. И. Мудров, В. А. Кушко. – 2-е издание. – Москва : Радио и связь, 1983. – 304 с. – Текст : непосредственный.
  15. Носков, С. И. Разработка регрессионной модели пассажирооборота воздушного транспорта Российской Федерации двумя альтернативными методами / С. И. Носков, Ю. А. Бычков, К. С. Перфильева. – Текст : электронный // Вестник кибернетики. – 2023. – № 22 (1). С. 36–42. – URL: https://www.vestcyber.ru/ jour/article/view/502 (дата обращения: 03.12.2023).

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2024 Yugra State University

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.