КІРІС АҚПАРАТТАРЫ НЕГІЗІНДЕ ӘУЕ КОМПАНИЯЛАРЫНЫҢ БИЛЕТТЕРІН ТАЛДАУ ЖӘНЕ ЗЕРТТЕУ
Зерттеудің өзектілігі
Зерттеу мақсаты
Зерттеу міндеттері:
Зерттеу әдістері:
Зерттеудің ақпараттық базасы:
Эксперимент нәтижелері ARIMA моделінде нәтижелерді бағалау
SARIMA моделіне нәтижелерді бағалау
Prophet моделінде нәтижелерді бағалау
ARIMA, SARIMA және Prophet болжамды дәлдігінің негізгі көрсеткіштері
Машиналық оқыту
Салыстыру қорытындылары:
Екі әдісті салыстырмалы талдау
ҚОРЫТЫНДЫ
ҚОЛДАНЫЛҒАН ӘДЕБИЕТЕР ТІЗІМІ
937.34K
Категория: МенеджментМенеджмент

Кіріс ақпараттары негізінде әуе компанияларының билеттерін талдау және зерттеу

1. КІРІС АҚПАРАТТАРЫ НЕГІЗІНДЕ ӘУЕ КОМПАНИЯЛАРЫНЫҢ БИЛЕТТЕРІН ТАЛДАУ ЖӘНЕ ЗЕРТТЕУ

Магистрант: Мейрамбай С.
Ғылыми жетекші: Контуреева М. А., PhD

2. Зерттеудің өзектілігі

Зерттеуді
ң
өзектіліг
і
Авиабилеттер бағасының жиі өзгеруі маусым, сұраныс,
макроэкономикалық жағдай және жолаушылар мінезқұлқына байланысты. Бұл авиакомпаниялар үшін
тарифтерді оңтайландыру, кірісті басқару және
клиенттердің қанағаттануын арттыруда маңызды.
Классикалық (ARIMA, SARIMA, Prophet) және
машиналық оқыту (Random Forest, XGBoost, LSTM)
модельдері кеңінен қолданылады, бірақ олардың
салыстырмалы
тиімділігі
мен
жолаушылар
сегментациясымен
байланысы
жеткілікті
зерттелмеген.
Осы зерттеу нақты деректер негізінде болжау әдістерін
салыстырып, бағаға әсер етуші факторларды және
жолаушылар кластерлерін анықтауға бағытталған.

3. Зерттеу мақсаты

Зерттеу мақсаты - cипаттамалық талдауды,
эконометрикалық модельдеуді және
машиналық оқытуды қамтитын әуе
билеттерінің құнын жүйелік талдау мен
болжаудың кешенді әдістемесін әзірлеу
және негіздеу, сондай-ақ баға белгілеудің
негізгі факторлары мен жолаушылар
сұранысының сегменттерін анықтау.

4. Зерттеу міндеттері:

1. Әуе билеттерінің бағасын модельдеу мен болжаудың
қолданыстағы әдістеріне шолу жасау.
2. Бағалар, маршруттар және ұшу жағдайлары туралы тарихи
деректердің үлгісін қалыптастыру және өңдеу.
3. Баға динамикасына сипаттамалық талдау жасаңыз: орташа,
медиананы, құбылмалылықты есептеңіз және сұраныстың
трендтері мен шыңдарын елестетіңіз.
Зерттеу
міндеттері:
4. Бір уақыт қатарына негізделген Arima, SARIMA және Prophet
эконометрикалық модельдерін құрыңыз және салыстырыңыз.
5. Бағаны көпөлшемді болжау үшін машиналық оқыту модельдерін
(ағаштар, ансамбльдер, нейрондық желілер) әзірлеу және
бағалау.
6. Маршруттарды кластерлеуді және жолаушылар топтарын баға
үлгілері бойынша сегменттеуді жүргізу.
7. Авиакомпанияларға тарифтік стратегияларды оңтайландыру
және кірістерді динамикалық басқару бойынша ұсыныстар
әзірлеу.

5.

Зерттеу нысаны - ішкі және
халықаралық бағыттардағы
авиабилеттерді бөлшек сату нарығы.
Зерттеу пәні - әуе
билеттерінің бағасын талдау,
болжау және сегментациялау
әдістері мен алгоритмдері.

6. Зерттеу әдістері:

- Сипаттамалық статистика және уақыт
қатарларын визуализациялау;
- ARIMA/SARIMA критерийлерін қолдана
отырып модельдеу;
- Қосымша ыдырауға арналған Facebook Prophet;
- Регрессия, бөлу ағашы, кездейсоқ Орман,
XGBoost, LightGBM, CatBoost, MLP Regressor;
- Кластерлік талдау (K-Means, DBSCAN,
иерархиялық кластерлеу);
- Болжам сапасын бағалау (MAE, RMSE, MAPE,
R2);
- Белгілердің әсерін түсіндіру (SHAP).

7. Зерттеудің ақпараттық базасы:

- Біріктірілген тазартылған деректер
жиынтығы " Clean_Dataset.csv" (Kaggle
Flight Fare Prediction, >300 000 жазба);
- Openflights қоғамдық деректері (әуежай
және маршрут анықтамалықтары);
- Қазақстан Республикасының мемлекеттік
мерекелері мен демалыс күндерінің
күнтізбесі;
- Орташа тарифтер бойынша ресми
статистика.

8. Эксперимент нәтижелері ARIMA моделінде нәтижелерді бағалау

Ұшу алдындағы күндер санына байланысты
орташа бағалардың бір өлшемді қатарын талдауға
негізделген уақыт қатарларының эконометрикалық
модельдері (ARIMA, FARIMA, Prophet).
ARIMA(2,2,3) моделі негізінен деректердегі
тренд пен кездейсоқ ауытқуларды сипаттауға
бағытталған. Бұл модельді оқыту үшін ұшу
алдындағы күндерге сәйкес келетін орташа
баға уақыт қатары қолданылды. Тест жиыны
бойынша алынған дәлдік көрсеткіштері: MAE
= 2039.97, RMSE = 2538.21 және MAPE =
7.92 %. Яғни, ARIMA моделі орташа шамамен
₹ 2040 қате жіберіп, болжамның орташа
пайыздық қатесі 8 % деңгейінде болды.

9. SARIMA моделіне нәтижелерді бағалау

SARIMA(2,1,2)×(0,1,1,7) моделі
апта маусымдылығын ескере отырып,
апталық циклдар мен трендті бірге
талдайды. Маусымдық тәртіпті қосу
нәтижесінде модель апталық
қайталанатын өзгерістерді ұтымды
ұсына отырып, тест жиынтықтағы
көрсеткіштері: MAE = 1892.09, RMSE
= 2716.97 және MAPE = 7.65 %.
SARIMA моделі ARIMA-ға қарағанда
орташа абсолютті қатені шамамен ₹
1900-ға дейін төмендетіп, болжамның
пайыздық дәлдігін де жақсартты.

10. Prophet моделінде нәтижелерді бағалау

Facebook Prophet моделі логистикалық
немесе сызықты трендтермен бірге
апталық маусымдылықты автоматты түрде
анықтайды. Мұнда тек апталық
маусымдылық қосылып, жылдық және
күндік компоненттер өшірілді. Тест жиыны
бойынша нәтижелер: MAE = 1806.80,
RMSE = 2473.07 және MAPE = 7.51 %.
Prophet моделі үш әдістің ішінен ең төмен
MAE және RMSE көрсеткіштерін көрсетіп,
болжамның орташа пайыздық қатесін 7.5 %
деңгейінде қамтамасыз етті.

11. ARIMA, SARIMA және Prophet болжамды дәлдігінің негізгі көрсеткіштері

Модель
ARIMA
SARIMA
Prophet
MAE
2039.97
1892.09
1806.80
RMSE
2538.21
2716.97
2473.07
MAPE (%)
7.92
7.65
-
Қорытынды:
1. Prophet-қысқа мерзімді авиабилеттер бағасын
болжау үшін ең жақсы таңдау: ең төменгі MAE
және RMSE, тренд өзгерістеріне бейімделу.
2. Сарима-бұл компаға келу нұсқасы: маусымдық
компоненттердің
арқасында
АРИМАҒА
қарағанда едәуір жақсы, бірақ Prophet-ке
қарағанда икемді емес.
3. ARIMA-бұл негізгі модель, ол айқын циклдар
мен баға динамикасында күрт өзгерістер
болмаған жағдайда ғана жарамды.

12. Машиналық оқыту

• Көпөлшемді факторлар жиынтығын
пайдаланатын Машиналық-оқыту модельдері
(Decision Tree, Random Forest, градиенттік
бустинг, нейрондық желілер): географиялық,
желілік, маршруттық және басқа да белгілер.
• Бұл экспериментте әуе билеттерінің құнын
талдау және болжау үшін біріктірілген және
алдын ала тазартылған clean_dataset деректер
жиынтығы пайдаланылды.Kaggle
платформасында орналастырылған Flight Fare
Prediction жобасынан 300 000-нан астам әуе
билеті туралы ақпаратты қамтитын csv[16]. Екі
дереккөз де 2019 жылдың наурызы мен
маусымы аралығында жасалған брондауды
қамтиды және экономикалық және бизнес-класс
рейстерін қамтиды.
Модель
MAE
RMSE

Random Forest
857.93
2376.28
0.9890
Decision Tree
878.96
2977.43
0.9828
CatBoost
1810.75
3168.13
0.9805
MLP Regressor
1818.89
3419.56
0.9773
XGBoost
1962.96
3425.03
0.9772
LightGBM
2127.31
3625.01
0.9745
Gradient
Boosting
2893.38
4888.66
0.9536
Linear
Regression
4253.99
6197.22
0.9255
Ridge
Regression
4255.94
6199.45
0.9254
Lasso
Regression
4339.26
6302.72
0.9229

13.

14. Салыстыру қорытындылары:

• Модельдерді Оқыту нәтижелері бойынша үш негізгі метрика есептелді: орташа абсолютті қате
(MAE), орташа квадраттық қате (RMSE) және анықтау коэффициенті R².
• Ең жақсы көрсеткіштерге MAE 900-ден төмен және R2 0.98-ден жоғары көрсеткен Random Forest
және Decision Tree модельдерін пайдалану арқылы қол жеткізілді. Бұл модельдер деректердегі
күрделі тәуелділіктерді, әсіресе категориялық белгілер болған кезде, түсіру қабілетінің жоғары
екендігін көрсетті.
Cut Boost, Boost және MLP нейрондық желісі де жоғары дәлдікті көрсетті, бірақ метрика бойынша
шешім ағаштарынан сәл төмен болды. Қарапайым модельдердің ішінде сызықтық регрессиялар ең аз
дәл болып шықты, бұл белгілер мен мақсатты айнымалы арасындағы айқын сызықтық емес екенін
көрсетеді.

15. Екі әдісті салыстырмалы талдау

Өлшем
Салыстыру қорытындылары:
1.
2.
3.
Дәлдік. MAE және RMSE көрсеткіштері бойынша ең жақсы
нәтижелерге Машиналық оқыту әдістері, ең алдымен Random Forest
(MAE≈858,
RMSE≈2376,
R2≈0.989)
қол
жеткізеді.
Эконометрикалық модельдер абсолютті қателіктерден төмен, бірақ
қысқа мерзімде қолайлы болжам деңгейін қамтамасыз етеді
(MAE≈1807 және Rmse≈2473 Prophet-те).
Интерпретация және қарапайымдылық. ARIMA / SARIMA және
Prophet экономистер мен Revenue Manager үшін маңызды болып
табылатын сериялардың мінез-құлқын (авторегрессия, жылжымалы
орташа, маусымдық) айқынырақ сипаттайды. ML модельдерін
түсіндіру қиынырақ, бірақ SHAP/LIME құралдарымен негізгі
факторлардың үлесін анықтауға болады.
Икемділік және кеңею. ML әдістері кез-келген қосымша белгілерді
оңай қамтиды (географиялық қашықтық, әуежайдың желілік
көрсеткіштері,
макроэкономикалық
көрсеткіштер),
ал
эконометрикалық модельдер бір сағаттық/күндік қатармен
шектеледі және экзогендік регрессорларды алдын-ала оқшаулауды
қажет етеді.
ARIMA / SARIMA / Prophet
Машиналық оқыту (ML)
MAE дәлдігі
≈ 2040 (ARIMA) – ≈ 1807
(Prophet)
≈ 4339 (Lasso) – ≈ 857
(Random Forest)
RMSE дәлдігі
≈ 2538 – ≈ 2473
≈ 6303 – ≈ 2376
R² / MAPE
R² есептелмейді; MAPE ≈
7–8 %
R² ≈ 0.923 – 0.989
Деректерге қажеттілік
Орташа бағаның
бірөлшемді уақыт қатары
Түсіндірілу деңгейі
Жоғары (ARIMAпараметрлері, Prophetкомпоненттері айқын)
Көптеген сипаттамалар
мен тарихи баға
деректері
Орташа–төмен (әсіресе
ансамбльдер)
Маусымдылықты өңдеу
SARIMA және Prophet
автоматты түрде
маусымдылықты
модельдейді
ML үшін маусымдылық
белгілерін өзіңіз
дайындауыңыз қажет
Икемділік
Prophet-пен трендтің
өзгеріс нүктелері мен
мерекелерді қосу оңай
Қандай ғана сипаттама
болса, ML-модель соны
қолданады
Енгізу күрделілігі
Төмен–орташа (p,d,q
параметрлері немесе
Prophet)
Орташа–жоғары (features
әзірлеу, гиперпараметр
реттеу)
Болжам жасау уақыты
Оқытудан кейін өте
жылдам
Жылдам, бірақ
сипаттамалар санына
тәуелді

16. ҚОРЫТЫНДЫ

Зерттеу барысында әуе билеттері нарығының нақты деректері негізінде
4 негізгі міндет шешілді:
1.Сипаттамалық талдау – бағаның маусымға, мерекелерге және ұшуға
дейінгі уақытқа қатты тәуелді екенін көрсетті (баға ауытқуы 15–25%).
2.Эконометрикалық модельдер (ARIMA, SARIMA, Prophet)
маусымдық әсерлерді дәл ескеріп, болжам сапасын арттырды. Prophet
– ең төмен MAE (≈1807).
3.Машиналық оқыту әдістері (RF, XGBoost, CatBoost) сызықтық
модельдерден асып түсті, MAE < 900, R² > 0.98.
4.Кластерлеу жолаушыларды 4 топқа бөлді: ерте жоспарлаушылар,
соңғы минутта алушылар, жеңілдіктер іздеушілер және премиум
сегмент.

17. ҚОЛДАНЫЛҒАН ӘДЕБИЕТЕР ТІЗІМІ

1.
Ceylan Z. Estimation of COVID-19 prevalence in Italy, Spain, and France // Science of the Total Environment. — 2020. — Vol. 729. — P. 138817. — DOI: 10.1016/j.scitotenv.2020.138817.
2.
Mariati N. P. A. M., Setiawati L. P. E., Dewi N. L. P. S. Inflation value forecasting post COVID-19 in Denpasar using ARIMA // International Journal of Application on Economics and Business.
— 2023. — Vol. 1, no. 3. — P. 1165–1169. — DOI: 10.24912/ijaeb.v1i3.1165-1169.
3.
Singh S., Sundram B. M., Rajendran K., Law K. B., Gill B. S. Forecasting daily confirmed COVID-19 cases in Malaysia using ARIMA models // The Journal of Infection in Developing
Countries. — 2020. — Vol. 14, no. 9. — P. 971–976. — DOI: 10.3855/jidc.13116.
4.
Dawoud İ. Modeling Palestinian COVID-19 cumulative confirmed cases: a comparative study // Infectious Disease Modelling. — 2020. — Vol. 5. — P. 748–754. — DOI:
10.1016/j.idm.2020.09.001.
5.
Siamba S., Argwings O., Koech J. Application of ARIMA, hybrid ARIMA and artificial neural network models in predicting and forecasting tuberculosis incidences among children in Homa Bay
and Turkana counties, Kenya [Электронный ресурс] // medRxiv. — 2022. — DOI: 10.1101/2022.07.07.22277378.
6.
Kuber P. M., Kulkarni A. R., Rashedi E. How effective are forecasting models in predicting effects of exoskeletons on fatigue progression? // Sensors. — 2024. — Vol. 24, no. 18. — Article
5971. — DOI: 10.3390/s24185971.
7.
Purnama D. I. Peramalan harga emas saat pandemi COVID-19 menggunakan model hybrid autoregressive integrated moving average – support vector regression [Электронный ресурс] // OSF
Preprints. — 2021. — DOI: 10.31219/osf.io/mdu3z.
8.
Padamwar B. V. Dynamic pricing strategies and demand forecasting in inventory models for deteriorating items: a theoretical framework // Asian Journal of Convergence in Technology. — 2024.
— Vol. 9, no. 3. — P. 61–64. — DOI: 10.33130/ajct.2023v09i03.010.
9.
Taparia V., Mishra P., Gupta N., Kumar D. Improved demand forecasting of a retail store using a hybrid machine learning model // Journal of Graphic Era University. — 2023. — DOI:
10.13052/jgeu0975-1416.1212.
10.
Elreedy D., Atiya A. F., Shaheen S. I. Multi-step look-ahead optimization methods for dynamic pricing with demand learning // IEEE Access. — 2021. — Vol. 9. — P. 88478–88497. — DOI:
10.1109/access.2021.3087577.
11.
Ahanda B., Yolcu T., Watson R. Forecasting Arctic Sea Ice Extent Trend Using Time Series Models: NNAR, SARIMA and SARIMAX Using the Data Prior to the COVID-19 Pandemic // Discov
Geosci. — 2025. — Vol. 3. — Article 18. — DOI: 10.1007/s44288-025-00113-w.
12.
Gao Y. A Comparative Study of ARIMA and ETS Models for Time Series Forecasting // Advances in Economics, Management and Political Sciences. — 2025. — Vol. 149. — P. 196–201.
13.
Su J., Lin Z., Xu F. et al. A hybrid model of ARIMA and MLP with a Grasshopper optimization algorithm for time series forecasting of water quality // Scientific Reports. — 2024. — Vol. 14. —
Article 23927. — DOI: 10.1038/s41598-024-74144-7.
14.
Abbasimehr H., Behboodi A., Bahrini A. A novel hybrid model to forecast seasonal and chaotic time series // Expert Systems with Applications. — 2024. — Vol. 239. — Art. 122461. — ISSN
0957-4174. — DOI: 10.1016/j.eswa.2023.122461.
15.
Kim J., Author2 A., Author3 B. et al. A Comprehensive Survey of Time Series Forecasting: Architectural Diversity and Open Challenges [Электронный ресурс] // arXiv preprint. — 2024. —
arXiv:2411.05793. — DOI:10.48550/arXiv.2411.05793.
English     Русский Правила