Узагальнення перехресної ентропiї як функцiї втрат у задачах класифiкацiї зображень

Автор(и)

  • Valeria Andreieva Національний університет «Києво-Могилянська Академія»
  • Nadiia Shvai Національний університет «Києво-Могилянська Академія» https://orcid.org/0000-0001-8194-6196

DOI:

https://doi.org/10.18523/2617-7080320203-10

Ключові слова:

функцiя втрат, задача класифiкацiї зображень, ентропiя Реньї, розходження Реньї

Анотація

Задача класифiкацiї є однiєю з найпоширенiших задач машинного навчання. Ця задача навчання з вчителем полягає у зiставленнi кожному вхiдному елементу однiєї з скiнченної кiлькостi дискретних категорiй.
Задача класифiкацiї виникає природним чином у численних застосуваннях, таких як обробка медичних зображень, розпiзнавання мовлення, системи технiчного обслуговування, виявлення аварiйних ситуацiй, автономне водiння тощо. За останнє десятилiття методи глибокого навчання виявились надзвичайно ефективними для багатьох задач машинного навчання, зокрема класифiкацiї. У той час як архiтектура нейронної мережi може багато в чому залежати вiд типу даних та обмежень, що породжуються природою задачi (наприклад, застосування моделi у реальному часi), процес її навчання (тобто пошук параметрiв моделi) майже завжди представляється як оптимiзацiя функцiї втрат.
У задачах класифiкацiї з багатьма класами у ролi функцiї втрат часто виступає перехресна ентропiя, оскiльки вона дає змогу досягти високої точностi.
У цiй роботi ми пропонуємо використовувати узагальнену версiю цiєї функцiї втрат, а саме розходження та ентропiю Реньї. Зазначимо, що у випадку бiнарних мiток таке узагальнення зводиться до перехресної ентропiї, тому нас буде цiкавити саме контекст м’яких мiток. Бiльш конкретно, ми розглядаємо проблему класифiкацiї зображень, що розв’язується iз застосуванням згорткових нейронних мереж та mixup регуляризацiї. Остання полягає у розширеннi тренувального набору даних шляхом опуклих комбiнацiй пар елементiв та вiдповiдних мiток. Вiдповiдно, отриманi мiтки не є бiнарними (що вiдповiдає строгiй належностi до одного класу), а мають вигляд вектора ймовiрностей. За таких умов перехресна ентропiя та дивергенцiя i ентропiя Реньї вiдрiзняються, i їх можна порiвняти мiж собою.
Для вимiрювання ефективностi запропонованої функцiї втрат ми розглядаємо проблему класифiкацiї зображень на наборi даних CIFAR-10. Цей набiр складається з 60 000 зображень, що належать до 10 класiв, де зображення є кольоровими та мають розмiр 32×32. Навчальний набiр складається з 50 000 зображень, а тестовий набiр мiстить 10 000 зображень.
Архiтектуру згорткової нейронної мережi було обрано вiдповiдно до [1], де була розглянута та сама задача класифiкацiї з метою порiвняння функцiй втрат, з метою отримання порiвнянних результатiв.
Експерименти демонструють перевагу запропонованого методу над перехресною ентропiєю для значення параметра функцiї втрат α < 1. Для значення параметра α > 1 запропонований метод показує гiршi результати, нiж функцiя перехресної ентропiї. Нарештi, значення параметра α = 1 вiдповiдає перехреснiй ентропiї.

Біографії авторів

Valeria Andreieva, Національний університет «Києво-Могилянська Академія»

випускниця магiстерської програми за спецiальнiстю «Системний аналiз» Нацiонального унiверситету «Києво-Могилянська академiя». Сфера наукових iнтересiв — машинне навчання, комп’ютерний зiр, аналiз даних.

Nadiia Shvai, Національний університет «Києво-Могилянська Академія»

Старший викладач кафедри математики Нацiонального унiверситету «Києво-Могилянська академiя». Сфера наукових iнтересiв — матричнi задачi, машинне навчання, комп’ютерний зiр.

Посилання

K. Janocha and W. M. Czarnecki, On loss functions for deep neural networks in classification (2017). Retrieved from arXiv preprint arXiv:1702.05659.

Tsung-Yi Lin, Priya Goyal, Ross Girshick et al. Focal loss for dense object detection, in: Proceedings of the IEEE international conference on computer vision (2017), pp. 2980–2988.

Yandong Wen, Kaipeng Zhang, Zhifeng Li and Yu Qiao, A discriminative feature learning approach for deep face recognition, in: European conference on computer vision / Springer (2016), pp. 499–515.

A. Krizhevsky, G. Hinton, A. Alex Krizhevsky et al., Learning multiple layers of features from tiny images (2009).

T. Van Erven and P. Harremos, “R ́enyi divergence and Kullback-Leibler divergence”, IEEE Transactions on Information Theory. 60 (7), 3797–3820 (2014).

J. B. Baskoro, A. Wibisono and W. Jatmiko, Bhattacharyya distance-based tracking: A vehicle counting application, in: International Conference on Advanced Computer Science and Information Systems (ICACSIS)/ IEEE (2017), pp. 439–444.

H. Bhatia, W. Paul, F. Alajaji et al., R ́enyi generative adversarial networks (2020). Retrieved from arXiv preprint arXiv:2006.02479.

F. J. Valverde-Albacete and Carmen Pel ́aez-Moreno, “The case for shifting the R ́enyi entropy”, Entropy. 21 (1), 46 (2019).

J.-F. Bercher, “On some entropy functionals derived from R ́enyi information divergence”, Information Sciences. 178 (12), 2489–2506 (2008).

Qi Wang, Yue Ma, Kun Zhao, Yingjie Tian, A comprehensive survey of loss functions in machine learning, in: Annals of Data Science (2020), pp. 1–26.

A. R ́enyi et al. On measures of entropy and information, in: Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Contributions to the Theory of Statistics. The Regents of the University of California (1961).

Hongyi Zhang, Moustapha Cisse, Yann N Dauphin and David Lopez-Paz, mixup: Beyond empirical risk minimization (2017). Retrieved from arXiv preprint arXiv:1710.09412.

Yann Lecun, Leon Bottou, Y. Bengio and Patrick Haffner, “Gradient-based learning applied to document recognition”, Proceedings of the IEEE. 86 (11), 2278–2324 (1998).

Kaiming He, Xiangyu Zhang, Shaoqing Ren and Jian Sun, “Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification”, IEEE International Conference on Computer Vision (ICCV 2015). 1502 (2015).

Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky et al., “Dropout: A simple way to prevent neural networks from overfitting”, Journal of Machine Learning Research. 15, 1929–1958 (2014).

Sergey Ioffe and Christian Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift”, Proceedings of the 32Nd International Conference on International Conference on Machine Learning. 37, 448–456 (2015). Retrieved from http://dl.acm.org/citation.cfm?id=3045118.3045167.

Alex Krizhevsky, Vinod Nair and Geoffrey Hinton, Cifar-10 (canadian institute for advanced research). Retrieved from http://www.cs.toronto.edu/kriz/cifar.html.

Ilya Loshchilov, Frank Hutter. Sgdr: Stochastic gradient descent with warm restarts (2016). Retrieved from arXiv preprint arXiv:1608.03983.

##submission.downloads##

Опубліковано

2021-02-24