PLoS One: Δυνατότητα επιλογής και του καρκίνου ταξινόμηση μέσω Αραιή Logistic Regression με το Hybrid L1 /2 +2 Τακτοποίηση

Ιανουάριος 25th, 2017 elhealth του καρκίνου άρθρα

Αφηρημένο

κατάταξη του καρκίνου και τη λειτουργία (γονίδιο) επιλογή διαδραματίζει σημαντικό ρόλο στην ανακάλυψη γνώσης σε γονιδιωματική δεδομένων. Αν και λογιστική παλινδρόμηση είναι μία από τις πιο δημοφιλείς μεθόδους ταξινόμησης, δεν προκαλεί επιλογής χαρακτηριστικών. Στο έγγραφο αυτό, παρουσιάσαμε ένα νέο υβριδικό L

1/2 2 νομιμοποίησης (HLR) λειτουργία, ένα γραμμικό συνδυασμό L

1/2 και εάν L

2 κυρώσεις, για να επιλέξετε το σχετικό γονίδιο στην λογιστικής παλινδρόμησης. Η προσέγγιση HLR κληρονομεί μερικές συναρπαστικές χαρακτηριστικά από την L

1/2 (ελάχιστες αναφορές) και L

2 (ομαδοποίηση αποτέλεσμα όταν σχετίζεται σε μεγάλο βαθμό οι μεταβλητές είναι μέσα ή έξω ένα μοντέλο μαζί) κυρώσεις. Προτείναμε, επίσης, ένα μυθιστόρημα μονοπαραγοντική προσέγγιση κατωφλίου HLR για την ενημέρωση των εκτιμώμενων συντελεστών και ανέπτυξε τον αλγόριθμο συντονίσει κάθοδο για την HLR τιμωρούνται μοντέλο λογιστικής παλινδρόμησης. Τα εμπειρικά αποτελέσματα και οι προσομοιώσεις δείχνουν ότι η προτεινόμενη μέθοδος είναι άκρως ανταγωνιστική μεταξύ πολλών state-of-the-art μεθόδων

Παράθεση:. Huang HH, Liu ΧΥ, Liang Υ (2016) Δυνατότητα επιλογής και ταξινόμησης του καρκίνου μέσω Αραιή Logistic Regression με το Hybrid L

1/2 2 νομιμοποίησης. PLoS ONE 11 (5): e0149675. doi: 10.1371 /journal.pone.0149675

Επιμέλεια: Φενγκφένγκ Zhou, Πανεπιστήμιο Jilin, Κίνα

Ελήφθη: 18 του Σεπτέμβρη, 2015? Αποδεκτές: δεύτερης, Φεβρουαρίου 2016? Δημοσιεύθηκε: 2 Μάη 2016

Copyright: © 2016 Huang et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Δεδομένα Διαθεσιμότητα:. Όλη η δεδομένα είναι εντός του Υποστηρίζοντας αρχεία πληροφοριών του χαρτιού και

Χρηματοδότηση:.. η εργασία αυτή υποστηρίχθηκε από το Μακάο Επιστήμη και Τεχνολογία Ανάπτυξη ταμεία (Grant Νο 099/2013 /Α3) του Μακάο SAR της Κίνας

Αντικρουόμενα συμφέροντα: ένα δίπλωμα ευρεσιτεχνίας που σχετίζονται με ένα νέο υβριδικό L

1 /2-2 νομιμοποίησης λειτουργία (HLR), ένα γραμμικός συνδυασμός L1 και L

1/2 κυρώσεις, για να επιλέξετε τις σχετικές μεταβλητές σε υψηλό demensional δεδομένα εκκρεμούν επί του παρόντος. Αυτό δεν αλλάζει προσήλωση μας στην PLoS ONE πολιτικές σχετικά με την κοινοχρησία δεδομένων και υλικά.Ο συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα.

1. Εισαγωγή

Με τις προόδους σε υψηλής απόδοσης μοριακές τεχνικές, οι ερευνητές μπορούν να μελετήσουν την έκφραση δεκάδων χιλιάδων γονιδίων ταυτόχρονα. ταξινόμηση του καρκίνου με βάση τα επίπεδα γονιδιακής έκφρασης είναι ένα από τα κεντρικά προβλήματα στην έρευνα του γονιδιώματος. Λογιστική παλινδρόμηση είναι μια δημοφιλής μέθοδος ταξινόμησης και έχει σαφή στατιστική ερμηνεία που μπορεί να αποκτήσει πιθανότητες της κατάταξης όσον αφορά το φαινότυπο του καρκίνου. Ωστόσο, στις περισσότερες μελέτες γονιδιακής έκφρασης, ο αριθμός των γονιδίων τυπικά υπερβαίνει κατά πολύ τον αριθμό του μεγέθους του δείγματος. Αυτή η κατάσταση ονομάζεται μεγάλων διαστάσεων και χαμηλής πρόβλημα μέγεθος του δείγματος και η μέθοδος της κανονικής λογιστικής παλινδρόμησης δεν μπορεί να χρησιμοποιηθεί απευθείας για την εκτίμηση των παραμέτρων παλινδρόμησης.

Για την αντιμετώπιση του προβλήματος των υψηλών διαστάσεων, μία από τις δημοφιλείς τεχνικές είναι η μέθοδος νομιμοποίησης. Μια πολύ γνωστή μέθοδος νομιμοποίησης είναι η L

1 πέναλτι [1], η οποία είναι η λιγότερο απόλυτη συρρίκνωση και την επιλογή φορέα (Λάσο). Είναι εκτελεί συνεχή συρρίκνωση και την επιλογή γονιδίων ταυτόχρονα. Άλλα L

μεθόδους τύπου νομιμοποίησης 1 κανόνας συνήθως περιλαμβάνουν την ποινή ομαλά-κούρεμα-απόλυτη-απόκλιση (SCAD) [2], η οποία είναι συμμετρική, nonconcave, και έχει ιδιομορφίες στην αρχή να παράγει αραιά διαλύματα. Η προσαρμοστική Λάσο [3] τιμωρεί τους διαφορετικούς συντελεστές με τις δυναμικές βάρη στην L

1 πέναλτι. Ωστόσο, η L

1 είδος νομιμοποίησης μπορεί να δώσει ασυνεπείς επιλογές χαρακτηριστικό σε ορισμένες περιπτώσεις [3] και συχνά εισάγει επιπλέον προκατάληψη στην εκτίμηση των παραμέτρων της λογιστικής παλινδρόμησης [4]. Xu

et al

. [5] πρότεινε την L

1/2 πέναλτι, μια μέθοδος που μπορεί να ληφθεί ως εκπρόσωπος της L

q (0 & lt?

& lt? 1) κυρώσεις σε τόσο ελάχιστες αναφορές και υπολογιστικής αποτελεσματικότητα, και έχει αποδείξει πολλές ελκυστικές ιδιότητες, όπως η αμεροληψία, και η oracle ιδιότητες [5-7]. Ωστόσο, παρόμοια με τις περισσότερες από τις μεθόδους νομιμοποίησης, η L

1/2 πέναλτι αγνοεί τη συσχέτιση μεταξύ των χαρακτηριστικών, και, κατά συνέπεια, δεν μπορεί να αναλύσει τα δεδομένα με τα εξαρτώμενα δομές. Αν υπάρχει μία ομάδα μεταβλητών μεταξύ των οποίων οι κατά ζεύγη συσχετισμοί είναι πολύ υψηλή, τότε το L

1/2 μέθοδος τείνει να επιλέξετε μόνο μία μεταβλητή για να αντιπροσωπεύει την αντίστοιχη ομάδα. Στη μελέτη γονιδιακής έκφρασης, τα γονίδια είναι συχνά υψηλή συσχέτιση, αν μοιράζονται την ίδια βιολογική οδό [8]. Ορισμένες προσπάθειες είχαν γίνει για την αντιμετώπιση του προβλήματος της υψηλής συσχετιζόμενων μεταβλητών. Zhou και Hastie πρότεινε ελαστική καθαρό πέναλτι [9], η οποία είναι ένας γραμμικός συνδυασμός των L

1 και L

2 (η τεχνική κορυφογραμμή) κυρώσεις, και αυτή η μέθοδος δίνει έμφαση σε μια ομαδοποίηση φαινόμενο, όπου συσχετίζεται ισχυρά γονίδια τείνουν να είναι σε ή έξω από το μοντέλο μαζί. Becker

et al

. [10] προτείνεται ο ελαστικός SCAD (SCAD – L

2), ένας συνδυασμός SCAD και L

2 κυρώσεων. Με την εισαγωγή της L

2 όρος ποινής, ελαστική SCAD λειτουργεί επίσης για τις ομάδες των προγνωστικών.

Σε αυτό το άρθρο, προτείναμε την HLR (Hybrid L

1/2 + 2 Τακτοποίηση) προσέγγιση για την ταιριάζουν τα μοντέλα λογιστικής παλινδρόμησης για την επιλογή γονιδίων, όπου η νομιμοποίηση είναι ένας γραμμικός συνδυασμός της L

1/2 και εάν L

2 κυρώσεις. Η L

1/2 πέναλτι επιτυγχάνει επιλογής χαρακτηριστικών. Θεωρητικά, μια αυστηρά κυρτή συνάρτηση ποινής παρέχει επαρκή προϋπόθεση για την ομαδοποίηση επίδραση των μεταβλητών και το L

2 πέναλτι εγγυάται αυστηρή κυρτότητα [11]. Ως εκ τούτου, η L

2 πέναλτι προκαλεί την ομαδοποίηση ισχύει ταυτόχρονα στην προσέγγιση HLR. Πειραματικά αποτελέσματα σε δεδομένα τεχνητή και πραγματική έκφραση του γονιδίου σε αυτό το έγγραφο αποδεικνύει ότι η προτεινόμενη μέθοδος μας είναι πολύ ελπιδοφόρα.

Το υπόλοιπο του άρθρου είναι οργανωμένο ως εξής. Στο τμήμα 2, ορίσαμε για πρώτη φορά την προσέγγιση HLR και παρουσίασε έναν αποτελεσματικό αλγόριθμο για την επίλυση του μοντέλου λογιστικής παλινδρόμησης με τη θανατική HLR. Στην Ενότητα 3, αξιολογήσαμε την απόδοση της προτεινόμενης προσέγγισης μας στα δεδομένα προσομοίωσης και πέντε σύνολα δεδομένων έκφρασης δημόσια γονιδίου. Παρουσιάσαμε ένα συμπέρασμα του χαρτιού στο τμήμα 4.

2. Μέθοδοι

2.1 Τακτοποίηση

Ας υποθέσουμε ότι το σύνολο δεδομένων

έχει

δείγματα

= {(

1), (

2), …, (

)}, όπου

= (

2, …,

) είναι

ου δείγματος με

διαστάσεων και

είναι η αντίστοιχη εξαρτημένη μεταβλητή

Για κάθε μη αρνητικό

, η κανονική μορφή νομιμοποίησης είναι:. (1) όπου

(

) αντιπροσωπεύει τον όρο νομιμοποίηση. Υπάρχουν πολλές μέθοδοι που προτείνονται τακτοποίηση τα τελευταία χρόνια. Μία από τις δημοφιλείς μεθόδους είναι η L

1 νομιμοποίησης (Λάσο), όπου. Οι άλλοι L

1 τύπου νομιμοποιήσεων περιλαμβάνουν SCAD, την προσαρμοστική Lasso, ελαστική δίχτυ, Στάδιο σοφή Lasso [12], τον επιλογέα Dantzig [13] και ελαστική SCAD. Ωστόσο, στην γονιδιωματική έρευνα, το αποτέλεσμα της L

1 είδος νομιμοποίησης δεν μπορεί να είναι αρκετά αραιή για ερμηνεία. Στην πραγματικότητα, ένα τυπικό μικροσυστοιχία ή σύνολο δεδομένων RNA-επόμενα έχει πολλές χιλιάδες προγνωστικούς παράγοντες (τα γονίδια), και οι ερευνητές συχνά επιθυμούν να επιλέξετε λιγότερες αλλά κατατοπιστική γονίδια. Εκτός από αυτό, η L

1 νομιμοποίησης είναι ασυμπτωτικά προκατειλημμένη [14,15]. Παρά το γεγονός ότι η L

0 νομιμοποίησης, όπου, αποδίδει τις sparsest λύσεις, έχει να ασχοληθεί με συνδυαστικό πρόβλημα NP-hard βελτιστοποίησης. Για να αποκτήσετε μια πιο περιεκτική λύση και να βελτιώσει την προγνωστική ακρίβεια του μοντέλου ταξινόμησης, πρέπει να σκεφτούμε πέρα από το L

1 και L

0 νομιμοποιήσεων με την L

q (0 & lt?

& lt? 1) νομιμοποίηση. Η L

1/2 νομιμοποίηση μπορεί να ληφθεί ως εκπρόσωπος του

q L (0 & lt?

& lt? 1) κυρώσεις και επέτρεψε μια αναλυτικά εκφραστική αναπαράσταση κατωφλίου [5]. Με την παράσταση κατωφλίου, για την επίλυση του L

1/2 νομιμοποίησης είναι πολύ πιο εύκολο από ό, τι για την επίλυση του L

0 νομιμοποίησης. Επιπλέον, η L

1/2 ποινή είναι αμεροληψία και έχει ιδιότητες μαντείο [5-7]. Αυτά τα χαρακτηριστικά κάνουν το L

1/2 ποινής έγινε ένα αποτελεσματικό εργαλείο για την υψηλή προβλήματα διαστάσεων [16,17]. Ωστόσο, λόγω της ευαισθησίας των υψηλή συσχέτιση των δεδομένων, η L

1/2 ποινή τείνει να επιλέξει μόνο μία μεταβλητή που αντιπροσωπεύει τον συσχετισμένης ομάδας. Αυτό το μειονέκτημα μπορεί να μειωθεί η απόδοση της L

1/2 μέθοδο.

2.2 Hybrid L

1/2 2 Τακτοποίηση (HLR)

Για οποιοδήποτε σταθερό μη-αρνητικό λ

1 και λ

2, ορίζουμε το υβριδικό L

1/2 2 νομιμοποίησης (HLR) κριτήριο: (2) όπου

= (

1, …,

) οι συντελεστές πρέπει να εκτιμάται και να

ο εκτιμητής HLR είναι η ελαχιστοποιητή της εξίσωσης (2) : (3)

Ας α =

1 /(1 +

2), τότε η επίλυση στην εξίσωση (3) είναι ισοδύναμη για το πρόβλημα βελτιστοποίησης: (4)

Καλούμε τη λειτουργία

Χρόνιες ασθένειες

PLoS One: Δυνατότητα επιλογής και του καρκίνου ταξινόμηση μέσω Αραιή Logistic Regression με το Hybrid L1 /2 +2 Τακτοποίηση