Прогностична модель для продукту без iсторiї з використанням LightGBM

Автор(и)

  • Анастасiя Сергiївна Крючкова Національний університет «Києво-Могилянська академія», Україна
  • Варвара Вячеславiвна Толокнова Унiверситет Йоханнеса Кеплера, Австрія
  • Свiтлана Сергiївна Дрiнь Національний університет «Києво-Могилянська академія», Швеція https://orcid.org/0000-0002-5576-3756

DOI:

https://doi.org/10.18523/2617-7080620236-13

Ключові слова:

GBM, GBDT, LightGBM, GOSS, EFB, прогнозна модель

Анотація

Статтю присвячено розробцi прогнозної моделi цiноутворення за допомогою LightGBM. Також метою було адаптування методу LightGBM для задач регресiї та, особливо, задач прогнозування цiни продукту без iсторiї, тобто з холодним стартом.
Стаття мiстить необхiднi поняття для розумiння принципiв роботи методiв з посиленим градiєнтом, таких як дерева рiшень, бустинг, випадковi лiси, градiєнтний спуск, GBM (машина посилення градiєнта), GBDT (дерева рiшень градiєнтного пiдвищення). У статтi наведено iнформацiю про алгоритми, якi використовуються для пошуку точок розбиття, з акцентом на алгоритм на основi гiстограм.
LightGBM покращує алгоритм градiєнтних методiв, запроваджуючи автоматичний механiзм вибору функцiй, придiляючи особливу увагу точкам посилення, що характеризуються бiльш вагомими градiєнтами. Це може призвести до значно швидшого навчання та покращення ефективностi передбачення. Описано методи односторонньої вибiрки на основi градiєнта (GOSS) i ексклюзивного пакетування функцiй (EFB), якi використовують для вдосконалення LightGBM.
Робота мiстить експериментальне дослiдження. Щоб перевiрити LightGBM, було взято реальний набiр даних одного японського ринку C2C iз сайту Kaggle. У практичнiй частинi було проведено порiвняння продуктивностi LightGBM i XGBoost (Extreme Gradient Boosting Machine). У результатi було виявлено лише незначне пiдвищення в оцiнках продуктивностi (RMSE, MAE, R-squard) LightGBM порiвняно з XGBoost, однак iснує помiтний контраст у часовiй ефективностi в процедурi навчання. LightGBM демонструє майже втричi бiльшу швидкiсть порiвняно з XGBoost, що робить його кращим вибором для роботи з великими наборами даних.
Цю статтю присвячено розробцi та впровадженню моделей машинного навчання для цiноутворення продуктiв за допомогою LightGBM. Включення автоматичного вибору функцiй, зосередженiсть на прикладах iз високим градiєнтом i таких методах, як GOSS i EFB, демонструють унiверсальнiсть i ефективнiсть моделi. Такi прогнознi моделi допоможуть компанiям покращити свої моделi цiноутворення на новий товар. Швидкiсть отримання вiдповiдного прогнозу для кожного елемента бази є вкрай актуальною в час швидкого накопичення даних.

Біографії авторів

Анастасiя Сергiївна Крючкова, Національний університет «Києво-Могилянська академія»

Graduate of the bachelor’s program “Applied Mathematics and Statistics”, National University of Kyiv-Mohyla Academy. Junior Data Analyst. Research interests: forecast models, Big Data Analytics, Text Mining, Natural Language Processing.

Варвара Вячеславiвна Толокнова, Унiверситет Йоханнеса Кеплера

Магiстр зi спецiальностi «Комп’ютернi науки» Унiверситету Йоханнеса Кеплера, Лiнц, Австрiя. Бакалавр факультету iнформатики зi спецiальностi «Прикладна математика» Нацiонального унiверситету «Києво-Могилянська академiя». Сфера наукових iнтересiв: аналiтика даних, обробка природної мови.

Свiтлана Сергiївна Дрiнь, Національний університет «Києво-Могилянська академія»

Кандидат фiзико-математичних наук, старший викладач кафедри математики Нацiонального унiверситету «Києво-Могилянська академiя» та дослiдник у вiддiлi статистики в Школi бiзнесу Унiверситету Еребру, Швецiя. Сфера наукових iнтересiв: економетрика, моделi прогнозування, перевiрка гiпотез, аналiтика великих даних

Посилання

  1. Chen Tianqi and Guestrin Carlos, “XGBoost: A Scalable Tree Boosting System,” Association for Computing Machinery. 10, 785–794 (2016).
  2. Ke Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu, “LightGBM: A Highly Efficient Gradient Boosting Decision Tree,” NIPS (2017).
  3. N. Dunbray, R. Rane, S. Nimje, J. Katade, and S. Mavale, “A Novel Prediction Model for Diabetes Detection Using Gridsearch and A Voting Classifier between Lightgbm and KNN,” 2021 2nd Global Conference for Advancement in Technology (GCAT), Bangalore, India, 1–7 (2021).
  4. C. Davide, J. Warrens, and G. Jurman. “The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation,” PeerJ Computer Science. 7 (2021).
  5. C. Shannon, “A Mathematical Theory of Communication,” Bell System Technical Journal. 27 (3), 379–423 (1948).
  6. Robert E. Schapire, and Yoav Freund, “Boosting: Foundations and algorithms, ” Kybernetes. 42 (1), 164–166 (2013).

##submission.downloads##

Опубліковано

2024-04-18

Як цитувати

[1]
Крючкова, А.С., Толокнова, В.В. і Дрiнь С.С. 2024. Прогностична модель для продукту без iсторiї з використанням LightGBM. Могилянський математичний журнал. 6, (Квіт 2024), 6–13. DOI:https://doi.org/10.18523/2617-7080620236-13.