Прогностична модель для продукту без iсторiї з використанням LightGBM
DOI:
https://doi.org/10.18523/2617-7080620236-13Ключові слова:
GBM, GBDT, LightGBM, GOSS, EFB, прогнозна модельАнотація
Статтю присвячено розробцi прогнозної моделi цiноутворення за допомогою LightGBM. Також метою було адаптування методу LightGBM для задач регресiї та, особливо, задач прогнозування цiни продукту без iсторiї, тобто з холодним стартом.
Стаття мiстить необхiднi поняття для розумiння принципiв роботи методiв з посиленим градiєнтом, таких як дерева рiшень, бустинг, випадковi лiси, градiєнтний спуск, GBM (машина посилення градiєнта), GBDT (дерева рiшень градiєнтного пiдвищення). У статтi наведено iнформацiю про алгоритми, якi використовуються для пошуку точок розбиття, з акцентом на алгоритм на основi гiстограм.
LightGBM покращує алгоритм градiєнтних методiв, запроваджуючи автоматичний механiзм вибору функцiй, придiляючи особливу увагу точкам посилення, що характеризуються бiльш вагомими градiєнтами. Це може призвести до значно швидшого навчання та покращення ефективностi передбачення. Описано методи односторонньої вибiрки на основi градiєнта (GOSS) i ексклюзивного пакетування функцiй (EFB), якi використовують для вдосконалення LightGBM.
Робота мiстить експериментальне дослiдження. Щоб перевiрити LightGBM, було взято реальний набiр даних одного японського ринку C2C iз сайту Kaggle. У практичнiй частинi було проведено порiвняння продуктивностi LightGBM i XGBoost (Extreme Gradient Boosting Machine). У результатi було виявлено лише незначне пiдвищення в оцiнках продуктивностi (RMSE, MAE, R-squard) LightGBM порiвняно з XGBoost, однак iснує помiтний контраст у часовiй ефективностi в процедурi навчання. LightGBM демонструє майже втричi бiльшу швидкiсть порiвняно з XGBoost, що робить його кращим вибором для роботи з великими наборами даних.
Цю статтю присвячено розробцi та впровадженню моделей машинного навчання для цiноутворення продуктiв за допомогою LightGBM. Включення автоматичного вибору функцiй, зосередженiсть на прикладах iз високим градiєнтом i таких методах, як GOSS i EFB, демонструють унiверсальнiсть i ефективнiсть моделi. Такi прогнознi моделi допоможуть компанiям покращити свої моделi цiноутворення на новий товар. Швидкiсть отримання вiдповiдного прогнозу для кожного елемента бази є вкрай актуальною в час швидкого накопичення даних.
Посилання
- Chen Tianqi and Guestrin Carlos, “XGBoost: A Scalable Tree Boosting System,” Association for Computing Machinery. 10, 785–794 (2016).
- Ke Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu, “LightGBM: A Highly Efficient Gradient Boosting Decision Tree,” NIPS (2017).
- N. Dunbray, R. Rane, S. Nimje, J. Katade, and S. Mavale, “A Novel Prediction Model for Diabetes Detection Using Gridsearch and A Voting Classifier between Lightgbm and KNN,” 2021 2nd Global Conference for Advancement in Technology (GCAT), Bangalore, India, 1–7 (2021).
- C. Davide, J. Warrens, and G. Jurman. “The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation,” PeerJ Computer Science. 7 (2021).
- C. Shannon, “A Mathematical Theory of Communication,” Bell System Technical Journal. 27 (3), 379–423 (1948).
- Robert E. Schapire, and Yoav Freund, “Boosting: Foundations and algorithms, ” Kybernetes. 42 (1), 164–166 (2013).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 S. Drin, A. Kriuchkova, V. Toloknova
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії Creative Commons Attribution License CC BY 4.0, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).