Estimating the parameters of simple nested piecele-linear regression with a linear component

Sergey I. Noskov; Носков Сергей Иванович

doi:10.18822/byusu20240119-21

Estimating the parameters of simple nested piecele-linear regression with a linear component

Authors: Noskov S.I.¹
Affiliations:
1. Irkutsk State Transport University
Issue: Vol 20, No 1 (2024)
Pages: 19-21
Section: MATHEMATICAL MODELING AND INFORMATION TECHNOLOGIES
Published: 23.04.2024
URL: https://vestnikugrasu.org/byusu/article/view/630387
DOI: https://doi.org/10.18822/byusu20240119-21
ID: 630387

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

Subject of research: the problem of estimating the parameters of a simple nested piecewise linear regression with a linear component.

Purpose of research: to apply an effective linear-Boolean programming apparatus to solve this problem.

Methods and objects of research: the object of research is the minimization of approximation errors of simple nested piecewise linear regression with a linear component, methods – linear regression analysis and mathematical programming apparatus.

Main results of research: an approach to determining parameter estimates for simple nested piecewise linear regression with a linear component is described using the least modulus method, which allows us to reduce this problem to a linear-Boolean programming problem. A numerical example has been solved.

Keywords

simple nested piecewise linear regression with a linear component, least absolute deviation method, loss function, linear-Boolean programming problem, subsampling

Full Text

ВВЕДЕНИЕ

При построении регрессионной модели исследуемого объекта характер его функционирования может вызвать необходимость в использовании не какой-либо одной модельной конструкции, а некоей составной, комбинированной ее формы. Так, в работе [1] разработана многовариантная регрессионная модель прогнозирования профиля водной поверхности для различных сложных русел с непризматической поймой. Модели нелинейной регрессии разработаны с использованием соответствующих экспериментальных данных, полученных в ходе лабораторных экспериментов. Было проведено три серии экспериментов для выявления берегового стока в сходящихся поймах. В [2] разнородные регрессионные модели используются для изучения связи между индексом абразивности в горнодобывающей промышленности и гражданском строительстве и химическими соединениями и петрографическими свойствами андезитовых пород центральной части Эквадора. Статья [3] посвящена исследованию общей модели непараметрической регрессии, называемой также составной моделью. В качестве особых случаев она включает в себя разреженную аддитивную регрессию и непараметрическую (или линейную) регрессию со многими ковариатами, но, возможно, с небольшим количеством соответствующих ковариат. Составная модель характеризуется тремя основными параметрами: параметром структуры, описывающим «макроскопическую» форму составной функции, параметром «микроскопической» разреженности, указывающим максимальное количество соответствующих ковариат в каждом компоненте, и обычным параметром гладкости, соответствующим сложности сочленения. При этом определяется неасимптотическая минимаксная скорость сходимости оценок в такой модели, как функция этих трех параметров. Показано, что эта скорость может быть достигнута адаптивным путем. В работе [4] предлагается иерархическая, или многоуровневая, версия регрессионных моделей со структурированным аддитивным предиктором, в которой коэффициенты регрессии конкретной нелинейной составляющей могут зависеть от другой модели регрессии со структурированным аддитивным предиктором. В этом смысле модель состоит из иерархии сложных структурированных моделей аддитивной регрессии. Предложенную модель можно рассматривать как расширенную версию многоуровневой модели с нелинейными ковариатными членами на каждом уровне иерархии. Структура модели также является основой для обобщенного моделирования случайных наклонов, основанного на мультипликативных случайных эффектах. Вывод является полностью байесовским и основан на методах моделирования цепей Маркова. Дается подробное описание нескольких высокоэффективных схем формирования выборки, которые позволяют оценить сложные модели с несколькими уровнями иерархии и большим количеством наблюдений за малое время. В [5] предлагается новая модель нейронной сети ансамблевой свертки на основе регрессии для определения чувствительности лекарств на основе множественных фармацевтических данных и устранения гетерогенности при выборе характеристик для субфармакогеномных параметров. Сеть свертки ансамбля описывает значимость метрик, связанных с т. н. соседскими зависимостями, связанными с отношениями лекарственной терапии. В работе [6] рассматривается новая модель квантильной регрессии, объединяющая несколько наборов несмещенных уравнений. Этот подход может учитывать корреляции между повторными измерениями и давать более эффективные оценки. Поскольку целевая функция является дискретной и невыпуклой, предлагается индуцированное сглаживание для быстрого и точного вычисления оценок параметров, а также их асимптотической ковариации, используя метод Ньютона-Рафсона.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

В работе [7] введены вложенные кусочно-линейные регрессионные модели двух типов:

$y k = m i n {m i n i \in I 1 {α i 1 x k i}, . . ., m i n i \in I G {α i G x k i}$ ,

$m a x_{i \in J^{1}} {β_{i}^{1} x_{k i}}, . . ., m a x_{i \in J^{H}} {β_{i}^{H} x_{k i}}} + ε_{k}, k = 1, n$

y_k=max{min_i_∈_I¹{α_i¹x_ki},..., mix_i_∈_I^G{α_i^Gx_ki},

max_i_∈_J¹{β_i¹ x_ki},...,max_i_∈_J^H{β_i^H x_ki}}+ε_k,k= $1, n$ .

Здесь y – зависимая, а x_i – i-ая независимая переменные, k – номер наблюдения, n – длина выборки, индексные множества Iⁱ,i= $1, G$ ,Jⁱ,i= $1, H$ являются подмножествами исходного множества номеров независимых переменных {1,2,…,m} и могут иметь непустые попарные пересечения, α_i^j, β_i^j – подлежащие оценке параметры.

В работе [8] решена задача идентификации c помощью метода наименьших модулей (МНМ) параметров простой формы вложенной кусочно-линейной модели:

y_k=mix{min_i_∈_I{α_ix_ki},max_i_∈_J{β_i x_ki}}+ε_k,|k= $1, n$ .(1)

Эта задача сводится к следующей задаче линейно-булевого программирования (ЛБП):

h_k≤α_i x_ki, k = $1, n$ , i∈I,(2)

α_i x_ki– h_k≤(1 – s_ki )M, k = $1, n$ , i∈I,(3)

∑_i_∈_Is_ki = 1,k = $1, n$ ,(4)

g_k≥β_i x_ki, k = $1, n$ , i∈J,(5)

β_i x_ki– g_k≥(p_ki –1)M, k = $1, n$ , i∈J,(6)

∑_i_∈_J p_ki= 1, k = $1, n$ ,(7)

t_k≤h_k, k = $1, n$ ,(8)

t_k≤g_k, k = $1, n$ ,(9)

h_k– t_k+Mr_k≤M, k = 1,n,(10)

g_k– t_k– Mr_k≤0, k = $1, n$ ,(11)

t_k+u_k– v_k= y_k, k = $1, n$ ,(12)

u_k≥ 0,v_k≥ 0,h_k≥ 0,g_k≥ 0,t_k≥ 0, k = $1, n$ ,(13)

s_ki∈{0,1}, k = $1, n$ , i∈I,(14)

p_ki∈{0,1}, k = $1, n$ , i∈J,(15)

r_k∈{0,1}, k = $1, n$ ,(16)

∑_kⁿ₌₁(u_k+v_k ) → min.(17)

По аналогии с рассмотренной в работе [9] комбинированной кусочно-линейной моделью введем в рассмотрение некоторое расширение модели (1) – простую вложенную кусочно-линейную регрессию с линейной составляющей:

y_k= ∑_i_∈_Dd_ix_ki+ mix{min_i_∈_I{α_ix_ki},

max_i_∈_J{β_ix_ki}} + ε_k,|k= $1, n$ .(18)

Поставим задачу оценивания параметров модели (18) также с помощью МНМ, т. е. посредством минимизации функции потерь (суммы модулей ошибок аппроксимации):

∑_kⁿ₌₁|ε_k| → min.(19)

Это может быть сделано путем соответствующей корректировки задачи ЛБП (2)–(17). Действительно, изменим ограничения (12) следующим образом:

∑_i_∈_Dd_ix_ki+ t_k +u_k – v_k = y_k,k = $1, n$ .(20)

Скорректируем также целевую функцию (17) с тем, чтобы исключить множественность решений задачи (19), воспользовавшись приемом, описанным в [10]:

∑_kⁿ₌₁(u_k+v_k ) + δ∑_i_∈_Iγ_i α_i – δ∑_i_∈_Jγ_i β_i → min.(21)

Здесь δ – малая положительная константа, а числа γ_i отражают масштаб независимых переменных, например, следующим образом:

$γ_{i} = \frac{1}{m a x_{k = l, n} x_{k i}}, i = l, m$ ,

Таким образом, решение задачи (19) сводится к решению задачи ЛБП (2)–(11), (20), (13)–(16), (21).

Рассмотрим численный пример, скорректировав исходные данные из [9] путем изменения значений зависимой переменной:

$X = (\begin{matrix} 243 719 658 384 \end{matrix})$ , $y = (\begin{matrix} 2 8 3 7 \end{matrix})$ .

Поставим задачу оценивания параметров простой вложенной кусочно-линейной регрессии с линейной составляющей:

y_k=d₀+ d₁ x_k1+ min{min_i_∈_I{α_ix_ki},

max_i_∈_J{β_i x_ki}} + ε_k,k= $1, 4$ ,(22)

где множества I и J имеют вид:

I = {1,2}, J = {2,3}.

После решения задачи ЛБП (2)–(11), (20), (13)–(16), (21) получим следующие результаты:

y_k= –8 + 0.463 +

min{min{4.53x_k1,12.7x_k2},

max{ 2.27x_k2,1.42x_k3},

h = (9, 12.7, 27, 13.6),

g = (9, 2.3, 11.3, 18),

t = (9, 12.7, 11.3, 13.6),

$\sum_{k = 1}^{4} |ε_{k}| = 3.12$ .

ЗАКЛЮЧЕНИЕ И ВЫВОДЫ

В работе на основе применения полученных ранее результатов автора описан алгоритмический способ идентификации параметров простой вложенной кусочно-линейной регрессии с линейной составляющей методом наименьших модулей, сводящийся к решению задачи линейно-булевого программирования приемлемой при анализе реальных объектов размерности.

About the authors

Sergey I. Noskov

Irkutsk State Transport University

Author for correspondence.
Email: p_sharova@ugrasu.ru

Doctor of Technical Sciences, Professor

Russian Federation, Irkutsk

References

Naik B., Khatua K. K. Water Surface Profile Computation for Compound Channels with Narrow Flood Plains // Arabian Journal for Science and Engineering. – 2017. – V. 42. – P. 941–955.
Torrijo F. J., Garzón-Roca J., Company J., Cobos J. Estimation of Cerchar abrasivity index of andesitic rocks in Ecuador from chemical compounds and petrographical properties using regression analyses // Bulletin of Engineering Geology and the Environment. – 2019. – V. 78. – P. 2331–2344.
Dalalyan A., Ingster Y., Tsybakov A.B. Statistical inference in compound functional models // Probability Theory and Related Fields. – 2014. – V. 158. – P. 513–532.
Lang S., Umlauf N., Wechselberger P., Harttgen K., Kneib T. Multilevel structured additive regression // Statistics and Computing. – 2014. – V. 24. – P. 223–238.
Gadde S., Charkravarthy A. S. N., Satyanarayana S., Murali M. Automatic identification of drug sensitivity of cancer cell with novel regression-based ensemble convolution neural network model // Soft Computing. – 2022. – V. 26. – P. 5399–5408.
Leng C., Zhang W. Smoothing combined estimating equations in quantile regression for longitudinal data // Statistics and Computing. – 2014. – V. 24. – P. 123–136.
Носков, С. И. Подход к формализации вложенной кусочно-линейной регрессии / С. И. Носков. – Текст : непосредственный // Международный журнал гуманитарных и естественных наук. – 2023. – № 1–2 (76). – С. 218–220.
Носков, С. И. Идентификация параметров простой формы вложенной кусочно-линейной регрессии. – Текст : непосредственный // Ученые записки Комсомольского-на-Амуре государственного технического университета. – 2023. – № 3 (67). – С. 57–61.
Носков, С. И. Идентификация параметров комбинированной кусочно-линейной регрессионной модели / С. И. Носков. – Текст : непосредственный // Вестник Югорского государственного университета. – 2022. – № 4 (67). – С. 115–119.
Носков, С. И. Уточнение способов идентификации параметров некоторых кусочно-линейных регрессий / С. И. Носков, М. С. Жукова, Т. К. Кириллова, Ю. О. Купитман, А. А. Хоняков. – Текст : непосредственный // Электронный сетевой политематический журнал «Научные труды КубГТУ». – 2023. – № 2. – С. 75–81.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register