Clasificator optim pentru date dezechilibrate folosind coeficientul de corelație Matthews metric

Departamentul de biologie a sistemelor de afiliere, Centrul medical și de cercetare Sidra, Doha, Qatar

Laboratoire Cedric de afiliere, CNAM, Paris, Franța

Centrul de cercetare clinică de afiliere, Centrul medical și de cercetare Sidra, Doha, Qatar

Sabri Boughorbel,
Fethi Jarray,
Mohammed El-Anbari

Cifre

Abstract

Citare: Boughorbel S, Jarray F, El-Anbari M (2017) Clasificator optim pentru date dezechilibrate folosind coeficientul de corelație Matthews metric. PLoS ONE 12 (6): e0177678. https://doi.org/10.1371/journal.pone.0177678

Editor: Quan Zou, Universitatea Tianjin, CHINA

Primit: 3 ianuarie 2017; Admis: 30 aprilie 2017; Publicat: 2 iunie 2017

Disponibilitatea datelor: Datele utilizate în această lucrare sunt disponibile publicului și sunt colectate în următorul depozit: https://github.com/bsabri/mcc_classifier/.

Finanțarea: Această lucrare a fost susținută de Fundația Qatar.

Interese concurente: Autorii au declarat că nu există interese concurente.

1. Fundal

Cu excepția Accuracy, celelalte valori sunt potrivite pentru date dezechilibrate.

1.1 SVM pentru învățare dezechilibrată

Pentru un punct de referință, am selectat Support Vector Machine (SVM) pentru date dezechilibrate ca metodă bună din literatură. SVM efectuează clasificarea prin găsirea hiperplanului (wx + b) care maximizează marja dintre cele două clase. Cu toate acestea, există situații în care o graniță neliniară poate separa grupurile mai eficient. SVM gestionează acest lucru utilizând o funcție de nucleu (neliniară) pentru a mapa datele într-un spațiu cu dimensiuni ridicate. Performanța clasificatorului SVM se bazează în principal pe alegerea funcției kernelului și reglarea diferiților parametri în funcția kernel Funcția bazei radiale Gauss se numără printre nucleele populare. Pentru seturile de date dezechilibrate folosim de obicei o penalizare de clasificare greșită pe clasă. Aceasta se numește SVM ponderat la clasă, care minimizează următorul program: unde ξi este o variabilă slack pozitivă astfel încât, dacă 0 1, atunci instanța i este clasificată greșit. Parametrii C + și C - sunt penalitățile slabe pentru clasele pozitive și negative receptiv.

În această lucrare, am folosit un SVM de dezechilibru cu nucleul Gaussian astfel încât pentru două cazuri x și x ′, avem K (x, x ′) = exp (−γ || x - x ′ || 2). Modelul global are trei parametri C +, C - și γ. Figura 1 oferă un exemplu al efectului introducerii a două greutăți de regularizare asupra rezultatelor clasificării. Limita de decizie este deplasată către clasa majoritară și, prin urmare, performanța îmbunătățită în acest exemplu.

Am efectuat o analiză experimentală pentru a stabili valoarea acestor parametri pe baza datelor de instruire. Am folosit regula generală sugerată de Akbani și colab. că raportul este egal cu raportul dintre clasa minorității și majorității [11].

Restul acestei lucrări este organizat după cum urmează. În secțiunea 2, descriem o versiune a mașinilor vectoriale de suport care gestionează date dezechilibrate. În secțiunea 3, propunem un clasificator optim bazat pe metrica MCC. Arătăm că este consecvent, adică converge asimptotic la clasificatorul teoretic optim. În ultima secțiune, prezentăm și discutăm rezultatele experimentale.

2 valori MCC pentru date dezechilibrate

2.1 Definiția MCC

Metrica MCC a fost introdusă pentru prima dată de B.W. Matthews pentru a evalua performanța predicției structurii secundare a proteinelor [12]. Apoi, devine o măsură de performanță utilizată pe scară largă în cercetarea biomedicală [13-17]. MCC și Area Under ROC Curve (AUC) au fost alese ca metrice electivă în inițiativa MAQC-II condusă de FDA din SUA, care își propune să ajungă la un consens cu privire la cele mai bune practici pentru dezvoltarea și validarea modelelor predictive pentru medicina personalizată [16].