Full Text Available
Note: Clicking the button above will open the full text document at the original institutional repository in a new window.
Thesis (PhD)--Stellenbosch University, 2025.
| Main Author: | |
|---|---|
| Other Authors: | |
| Format: | Thesis |
| Language: | en_ZA |
| Published: |
Stellenbosch : Stellenbosch University
2025
|
| Subjects: | |
| Tags: |
No Tags, Be the first to tag this record!
|
| _version_ | 1867614108447145984 |
|---|---|
| access_status_str | Open Access |
| author | Steyn, Matthys Lucas |
| author2 | De Wet, T. |
| author_browse | De Wet, T. Steyn, Matthys Lucas |
| author_facet | De Wet, T. Steyn, Matthys Lucas |
| author_sort | Steyn, Matthys Lucas |
| collection | Thesis |
| dc_rights_str_mv | Stellenbosch University |
| description |
Thesis (PhD)--Stellenbosch University, 2025. |
| format | Thesis |
| id | oai:scholar.sun.ac.za:10019.1/132419 |
| institution | Stellenbosch University (South Africa) |
| language | en_ZA |
| last_indexed | 2026-06-10T12:46:47.817Z |
| license_str | Other — see source repository |
| provenance_str_mv | Harvested via OAI-PMH from SUNScholar — Stellenbosch University Repository |
| publishDate | 2025 |
| publishDateRange | 2025 |
| publishDateSort | 2025 |
| publisher | Stellenbosch : Stellenbosch University |
| publisherStr | Stellenbosch : Stellenbosch University |
| record_format | dspace |
| source_str | SUNScholar — Stellenbosch University Repository |
| spelling | oai:scholar.sun.ac.za:10019.1/132419 Open-set recognition using extreme value theory Steyn, Matthys Lucas De Wet, T. Luca, S. De Baets, B. Stellenbosch University. Faculty of Economic and Management Sciences. Dept. of Statistical & Actuarial Science. Neural networks (Computer science) Mathematical optimization Simulation methods Artificial intelligence UCTD Thesis (PhD)--Stellenbosch University, 2025. Steyn, M. L. 2025. Open-Set Recognition using Extreme Value Theory. Unpublished doctoral dissertation. Stellenbosch: Stellenbosch University [online]. Available: https://scholar.sun.ac.za/items/e6187940-b9ec-4526-8649-55c5230fd2d5 ENGLISH SUMMARY: In recent years, convolutional neural networks have showcased state-of-the-art performance in image classification tasks, driven by theoretical advancements, the availability of large data sets and reduced computational cost. However, these developments have underscored a significant challenge: the ability to correctly identify samples from unknown classes that were not encountered during training. Open-set recognition (OSR) addresses this limitation by enabling classifiers to detect such unknown samples while maintaining accurate classification of known categories. Traditional closed-set classifiers often fail at this task, resulting in considerable errors when faced with data from unknown categories. This thesis investigates the integration of extreme value theory (EVT) with convolutional neural networks to advance OSR capabilities, introducing novel methods for effectively distinguishing between known and unknown classes. OSR typically relies on estimating a dissimilarity score between known classes, with EVT applied to model the behaviour of the score’s extreme values. The resulting extreme value distribution is used to identify samples with high dissimilarity, indicating that they likely belong to an unknown class. Traditional EVT-based OSR methods typically derive the dissimilarity score directly from the closed-set classifier, which may not explicitly optimise for class separability. Additionally, existing methods use the generalised extreme value distribution to model the extremes, which may not fully leverage the available data during estimation. This research introduces novel EVT-based OSR methodologies that focus on two key areas: improving the dissimilarity score to better distinguish between known and unknown classes, and refining the modelling of the score’s tail distribution for improved OSR performance. The first method proposed for EVT-based OSR is the k-nearest neighbour open-set classifier (k-OSNN). This approach introduces a distance ratio that quantifies the dissimilarity of a target point from known classes by using the ratio of distances locally around the target point. The distance ratio is computed within the feature space generated by the penultimate layer of a deep neural network trained to classify the known classes. It is demonstrated that the generalised Pareto (GP) distribution with bounded support can effectively model the excesses of the distance ratio above a specified threshold. This distribution provides a probabilistic framework for OSR from which the probability that a sample is from an unknown class is derived. Furthermore, a numerical procedure is proposed to estimate the model’s hyperparameters, balancing the goodness-of-fit of the GP distribution with the misclassification error of the known classes. The k-OSNN method is applied to three image data sets and an audio data set, demonstrating superior performance compared to similar OSR and anomaly detection methods. A limitation of using the feature space from the penultimate layer of a neural network for OSR is that it does not explicitly optimise for class separability. To address this limitation, the contrastivecentre loss function from Qi & Su (2017) is used to generate a more discriminative embedding, where samples from the same class are closely clustered while those from different classes are spread apart. Several enhancements are proposed to improve the convergence of neural networks trained with the contrastive-centre loss, including refined gradient-based updates for class centres and dynamic hyperparameter adjustments. The contrastive-centre loss is then used to measure dissimilarity between a target sample and the known classes, with the GP distribution applied to model the upper tail of the loss for OSR. This method is further extended to a per-class approach, accommodating inter-class variation in the loss function. An automated threshold selection procedure for the GP distribution is also introduced. Experimental results across five image datasets reveal that this method outperforms similar approaches, achieving superior discrimination between known and unknown classes while improving computational efficiency. Recognising the limitations of existing EVT-based OSR models, which separate neural network training from EVT estimation, this thesis introduces an end-to-end neural network architecture that integrates these processes into a unified framework. This approach allows for the simultaneous training of the neural network and the estimation of the GP distribution, enabling the model to adjust the probability estimates for known classes to account for the presence of unknowns during training. By merging these steps, the model offers greater control over the accuracy of known class predictions and provides a novel method for interpreting why a particular sample is classified as unknown. The thesis demonstrates that extreme value theory is a powerful tool for enhancing open-set recognition, particularly when combined with innovative dissimilarity measures and neural network architectures. As open-set recognition becomes increasingly crucial in real-world scenarios—where classifiers are often exposed to data beyond their training distribution—the methods presented here offer a significant step towards bridging the gap between traditional classification models and the need to handle unknown classes. These contributions advance the field of open-set recognition by integrating statistical modelling of extremes with deep learning, providing robust solutions to the challenges posed by unknown classes in diverse practical applications. AFRIKAANSE OPSOMMING: De dag van vandaag kennen neurale netwerken een buitengewone performantie in tal van toepassingen zoals beeldherkenning. Dit danken we aan de meest recente ontwikkelingen in data-analytische methodes, opslagmogelijkheden en computationeel vermogen. In een classificatiesetting wordt men echter geconfronteerd met de uitdaging van het correct identificeren van voorbeelden van ongekende klassen die niet voorhanden waren tijdens het trainen van het algoritme. Bestaande traditionele classificatiealgoritmes kennen een sterke daling in performantie wanneer ongekende klassen in de data aanwezig zijn. In de literatuur staat dit probleem gekend als “open-set recognition” (OSR) en ontwikkelt men algoritmes die voorbeelden van zulke onbekende klassen kunnen detecteren zonder dat de classificatie in gekende klassen aan accuraatheid verliest. Deze thesis onderzoekt de mogelijkheid om algoritmes voor OSR te verbeteren door het gebruik van neurale netwerken te combineren met technieken uit de extreme waarden theorie (EWT). Doorgaans baseert een OSR-algoritme zich op een score die het verschil tussen een nieuw voorbeeld en bestaande voorbeelden kwantificeert. Verdelingen uit EWT kunnen gebruikt worden om heel grote verschillen als extremen te modelleren. Voorbeelden die extreem verschillen van bestaande voorbeelden worden dan verondersteld te behoren tot een ongekende klasse. Bestaande OSR-algoritmes met EWT zijn niet volledig in staat om de optimalisatie voor het herkennen van ongekende klassen te verenigen met het optimaliseren van de classificatie in gekende klassen. Bovendien zijn ze gebaseerd op het gebruik van extremen in blokken en maken ze niet optimaal gebruik van de beschikbare data. In dit proefschrift zullen we daarom nieuwe methoden introduceren met de volgende doelen: (i) het ontwikkelen van scores die beter in staat zijn om een onderscheid te maken tussen voorbeelden van gekende en ongekende klassen en (ii) een verfijning van de statistische modellering van dergelijke scores die extreem groot zijn. De eerste methode die we voorstellen is de zogenaamde “k-nearest neighbour open-set classifier” (k-OSNN). Deze is gebaseerd op de output van de voorlaatste laag van neuronen van een neural netwerk dat getraind is om de gekende klassen te herkennen. Deze output wordt gebruikt om afstandsverhoudingen te berekenen tussen voorbeelden in de omgeving van een te classificeren voorbeeld, zodat het verschil tussen dit voorbeeld en bestaande voorbeelden kan worden gekwantificeerd. Finaal zal deze score toelaten om een beter onderscheid te maken tussen de gekende klassen en de ongekende klassen. De extremen in deze score worden gemodelleerd met een zogenaamde Pareto verdeling wat leidt tot een algoritme met een probabilistische interpretatie. Bovendien wordt een numerieke procedure voorgesteld om de hyperparameters van het model te optimaliseren in functie van de goodness-of-fit van het EWT model en de accuraatheid van het classificatiealgoritme. Tot slot worden verschillende datasets gebruikt om de superioriteit van het voorgestelde algoritme aan te tonen t.o.v. bestaande EWT-gebaseerde OSR-algoritmen. Een beperking van de k-OSNN methode is dat de toepassing van EWT gebaseerd is op het gebruik van de voorlaatste laag van neuronen van een neuraal netwerk dat niet geoptimaliseerd is om de klassen van gekende en ongekende voorbeelden zo ver mogelijk uit elkaar te trekken. Een tweede methode die we daarom voorstellen is gebaseerd op de “contrastive-centre loss” functie van Qi & Su (2017) die in staat is een inbedding te berekenen waarin voorbeelden van dezelfde klassen dichterbij elkaar geclusterd worden terwijl voorbeelden van verschillende klassen meer gescheiden worden. Er worden verschillende numerieke verbeteringen voorgesteld voor het trainen van dergelijke neurale netwerken zoals verbeterde gradient-gebaseerde methodes en nieuwe dynamische methodes om de hyperparameters te optimaliseren. Bij deze methode wordt de toepassing van EWT ook uitgebreid zodat een Pareto fit per klasse mogelijk is. Experimenten uitgevoerd op vijf data sets van beelden leiden tot een verbeterde performantie en efficientie in vergelijking met bestaande methodes. Bestaande EWT-gebaseerde OSR methodes zijn in essentie een sequentiele toepassing van een classificatiealgoritme en het fitten van een EWT distributie op de outputs ervan. Dit heeft het nadeel dat de classificatie voor gekende klassen en het herkennen van ongekende klassen niet simultaan geoptimaliseerd kunnen worden. We stellen daarom een methode voor die het gebruik van EWT volledig integreert in het schattingsproces van een neuraal netwerk. Dit laat ons toe om de optimalisatie van beide taken (herkennen van het gekende en ongekende) te verenigen en bovendien de methode uit te breiden zodat een interpretatie mogelijk is van de reden waarom een bepaald voorbeeld als onbekend wordt geclassificeerd. De ontwikkelingen in dit proefschrift illustreren dat EWT een krachtig hulpmiddel kan zijn om OSRalgoritmes te verbeteren, zeker als men dit combineert met verbeterde neurale netwerkarchictecturen en verbeterde scores om het verschil tussen gekende en ongekende voorbeelden te herkennen. De methodes ontwikkeld in dit proefschrift vormen een cruciale stap in het dichten van de kloof tussen bestaande classificatiemethodes en de toepassing ervan in real-world scenario’s waarin ongekende klassen kunnen optreden. We integreerden hiervoor de statistische studie van extremen met “deep learning” methodes wat leidde tot robuste oplossingen voor het probleem van OSR. Doctoral 2025-06-06T09:39:36Z 2025-06-06T09:39:36Z 2025-03 Thesis https://scholar.sun.ac.za/handle/10019.1/132419 en_ZA Stellenbosch University xxvii, 164 pages : illustrations application/pdf Stellenbosch : Stellenbosch University |
| spellingShingle | Neural networks (Computer science) Mathematical optimization Simulation methods Artificial intelligence UCTD Steyn, Matthys Lucas Open-set recognition using extreme value theory |
| title | Open-set recognition using extreme value theory |
| title_full | Open-set recognition using extreme value theory |
| title_fullStr | Open-set recognition using extreme value theory |
| title_full_unstemmed | Open-set recognition using extreme value theory |
| title_short | Open-set recognition using extreme value theory |
| title_sort | open set recognition using extreme value theory |
| topic | Neural networks (Computer science) Mathematical optimization Simulation methods Artificial intelligence UCTD |
| url | https://scholar.sun.ac.za/handle/10019.1/132419 |
| work_keys_str_mv | AT steynmatthyslucas opensetrecognitionusingextremevaluetheory |