PLoS One: Βελτίωση Ταξινόμηση Καρκίνου Ακρίβεια Χρησιμοποιώντας Gene Ζεύγη


Αφηρημένο

Πρόσφατες μελέτες δείχνουν ότι η απορρύθμιση των οδών, και όχι μεμονωμένα γονίδια, μπορεί να είναι κρίσιμη στην πυροδότηση καρκινογένεση. Η απορρύθμιση οδός συχνά προκαλείται από την ταυτόχρονη απελευθέρωση της περισσότερα από ένα γονίδια στο μονοπάτι. Αυτό υποδηλώνει ότι οι συνδυασμοί ζεύγους ισχυρή γονίδιο μπορεί να εκμεταλλευτεί τις υποκείμενες βιο-μοριακές αντιδράσεις που σχετίζονται με την απορρύθμιση της οδού και έτσι θα μπορούσαν να παρέχουν την καλύτερη βιοδείκτες για τον καρκίνο, σε σύγκριση με μεμονωμένα γονίδια. Για να είναι έγκυρη αυτή η υπόθεση, στο παρόν έγγραφο, χρησιμοποιήσαμε συνδυασμούς ζεύγος γονιδίων, που ονομάζεται διπλές, ως είσοδος στους αλγορίθμους ταξινόμησης του καρκίνου, αντί για τις αρχικές τιμές έκφρασης, και δείξαμε ότι η ακρίβεια ταξινόμησης βελτιώθηκε σταθερά σε διαφορετικά σύνολα δεδομένων και ταξινόμηση αλγορίθμων. Εμείς επικύρωσε την προτεινόμενη προσέγγιση, χρησιμοποιώντας εννέα σύνολα δεδομένων του καρκίνου και πέντε αλγόριθμοι ταξινόμησης, συμπεριλαμβανομένων Ανάλυση Πρόβλεψη για μικροσυστοιχίες (PAM), C4.5 Δένδρα Απόφασης (DT), Naive Bayesian (ΝΒ), Support Vector Machine (SVM), και k-Πλησιέστερα Γείτονας (

K-

NN)

Παράθεση:. Chopra P, Lee J, Kang J, Lee S (2010) Βελτίωση του καρκίνου Ταξινόμηση Ακρίβεια χρησιμοποιώντας ζεύγη γονιδίων. PLoS ONE 5 (12): e14305. doi: 10.1371 /journal.pone.0014305

Επιμέλεια: Joel S. Bader, Johns Hopkins University, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 2 Φεβρουαρίου 2010? Αποδεκτές: 18 Νοεμβρίου του 2010? Δημοσιεύθηκε: 21 Δεκεμβρίου 2010

Copyright: © 2010 Chopra et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από το δεύτερο Brain Κορέα 21 Grant έργου, το Microsoft Research Asia Grant, Εθνικό Ίδρυμα Ερευνών της Κορέας (NRF) επιχορήγηση που χρηματοδοτείται από την κυβέρνηση της Κορέας (MEST) (2010 – 0015713, 2009-0.086.140), και την Κορέα Επιστήμης και Μηχανική Ίδρυμα (KOSEF) επιχορήγηση που χρηματοδοτείται από την κυβέρνηση της Κορέας (MEST) (R01-2008-000-20564-0). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Η χρήση των μικροσυστοιχιών DNA έχει ως αποτέλεσμα τον εντοπισμό και την παρακολούθηση των πολυάριθμων γονιδίων σήμανσης του καρκίνου. Αυτά τα γονίδια έχουν χρησιμοποιηθεί ευρέως για τη διαφοροποίηση όχι μόνο δείγματα καρκινικού ιστού από φυσιολογικά υγιή, αλλά και μεταξύ διαφορετικών υπο-τύπους καρκίνου [1] – [3]. Από διαγνωστική άποψη, είναι σημαντικό να προσδιοριστούν σωστά καρκινικού ιστού, έτσι ώστε η πιο κατάλληλη θεραπεία μπορεί να δοθεί όσο το δυνατόν νωρίτερα.

Πολλές ταξινομητές έχουν προταθεί και αξιολογηθεί για τη συγκριτική ακρίβεια τους σωστά τον εντοπισμό του καρκίνου όγκους [4] – [7]. Το πιο σημαντικό από αυτά τα ταξινομητές είναι PAM [8], SVM [9], [10],

K-

NN [11], η DT [12], Top Σκορ Ζεύγος (TSP) [13], και

K-

Top Σκορ Ζεύγος (

K-

TSP) [6]. Τα αποτελέσματα από αυτές τις μελέτες δείχνουν ότι δεν υπάρχει ενιαία ταξινομητής που έχει την υψηλότερη ακρίβεια για όλες τις σειρές δεδομένων έκφρασης μικροσυστοιχίας. Στο έγγραφο αυτό, έχουμε εισαγάγει μια νέα μέθοδο που χρησιμοποιεί ζεύγη γονιδίων για τη βελτίωση της συνολικής ακρίβειας των υφιστάμενων μεθόδων ταξινόμησης χωρίς να μεταβληθούν οι βασικές αλγόριθμοι.

Η πρόσφατη έρευνα έχει αποκαλύψει ότι βιομοριακής οδοί μπορεί να είναι ισχυρότερη βιοδείκτες για τον καρκίνο, όπως σε σύγκριση με την απελευθέρωση των μεμονωμένων γονιδίων [14]. Η απελευθέρωση ενός διαφορετικού υποσύνολο των γονιδίων, που συνδέονται με την ίδια οδό, μπορεί να οδηγήσει σε απορρύθμιση του μονοπατιού. Επιθεώρηση συνδυασμοί γονιδίων μπορεί έτσι να είναι πιο αποτελεσματική για την ταξινόμηση του καρκίνου σε σύγκριση με ανεξάρτητα επιθεώρηση μεμονωμένα γονίδια. Παρακινημένος από αυτό, η προτεινόμενη μέθοδος χρησιμοποιεί τις πληροφορίες που προέρχονται από τους συνδυασμούς ζεύγος γονιδίων, αντί των αρχικών τιμών έκφραση των γονιδίων. Χρησιμοποιούμε τις πληροφορίες που προέρχονται ως συμβολή στις υπάρχουσες μεθόδους ταξινόμησης. Δείχνουμε ότι αυτοί οι συνδυασμοί ζεύγος γονιδίων, που ονομάζεται διπλές, θα βελτιώνει συνεχώς την ακρίβεια ταξινόμησης των υπαρχόντων αλγορίθμων ταξινόμησης.

Η σημασία της προτεινόμενης μεθόδου είναι ότι χωρίς αλλαγή των βασικών αλγορίθμων ταξινόμησης που μπορεί να βελτιώσει σημαντικά την απόδοση του αλγόριθμοι με απλά κατασκευάζοντας δυάδων και με τη χρήση τους ως πρώτη ύλη, αντί των τιμών έκφρασης πρώτων γονιδίων. Οι διπλές μπορεί να κατασκευαστεί με διάφορους τρόπους. Σε αυτή την εργασία, πειραματιστήκαμε με τρεις διαφορετικούς τύπους διπλών:

sumdiff

,

Mul

και

υπογράψει

ζεύγη. Η

sumdiff

είναι δυάδων κατασκευάζονται με τη λήψη του αθροίσματος και διαφοράς από όλα τα ζεύγη των φορέων γονιδιακής έκφρασης έτσι ώστε ένα ζεύγος αναπαρίσταται ως ένα άνυσμα άθροισμα ή τη διαφορά των δύο φορέων γονιδίου. Η

Mul

διπλές παρομοίως κατασκευάστηκε με τη λήψη πολλαπλασιασμό, και το

Οι υπογράψει

διπλές κατασκευαστεί λαμβάνοντας τα σημάδια των διαφορών των δύο φορέων γονιδιακής. Ανατρέξτε στην ενότητα «Υλικά και Μέθοδοι» για περισσότερες λεπτομέρειες.

Αποτελέσματα

LOOCV

(

Αφήστε One Out Cross Validation

) διεξήχθη για να μετρηθεί η ακρίβεια της ταξινόμησης διπλή-based. Για να δοκιμαστεί ένα δείγμα, όλα τα δείγματα, αλλά το δοκιμαζόμενο ένα, χρησιμοποιούνται για να υπολογιστεί το γονιδίων, και τα γονίδια διατάσσονται σύμφωνα με τις φθίνουσα απόλυτες τιμές των σκορ. Ο τύπος που χρησιμοποιείται για τον υπολογισμό αυτής σκορ είναι (1), όπου αντιπροσωπεύουν την τάξη σημαίνει? αντιπροσωπεύουν τις διακυμάνσεις? και αντιπροσωπεύουν τον αριθμό των δειγμάτων για τις δύο κατηγορίες και, αντίστοιχα.

Στη συνέχεια, επιλέξτε την κορυφή 0,2%, 0,4%, 0,6%, 0,8%, 1%, 2%, 4%, το 10% της συνολικός αριθμός γονιδίων στο σύνολο δεδομένων για την παραγωγή ζευγών. Εμείς κλαδέψετε περαιτέρω τις διπλές έτσι ώστε να μην γονίδιο εμφανίζεται περισσότερες από μία φορές στο τελευταίο σετ διπλών. Ο αλγόριθμος που χρησιμοποιούμε για να διατυπώσει αυτές τις μοναδικές διπλές από το αρχικό σύνολο δεδομένων έκφρασης μικροσυστοιχιών περιγράφεται ως κατωτέρω

εισόδου:. Gene Expression Matrix με γονίδια και τα δείγματα, διάνυσμα τάξη για τα δείγματα και για το τον αριθμό των γονιδίων που απαιτούνται για την ανάλυση

εξόδου:.. Μοναδικές διπλές

1. Υπολογίστε t-βαθμολογίες για πίνακα με διάνυσμα τάξη

2. Κάντε μια ταξινομημένη λίστα όλων των γονιδίων, με φθίνουσα αξία της απόλυτης t-αποτέλεσμά τους.

3. Πάρτε τα κορυφαία γονίδια από τον διέταξε λίστα, και να εξαγάγετε τις αξίες της έκφρασης τους από. Η νέα μήτρα έκφρασης έχει γραμμές και στήλες.

4. Πραγματοποίηση δυάδες από το να πάρει ένα νέο πλέγμα, με σειρές και στήλες.

5. Υπολογίστε t-βαθμολογίες για πίνακα με διάνυσμα τάξη.

6. Κάντε μια ταξινομημένη λίστα όλων των δυάδων στην, κατά φθίνουσα αξία της απόλυτης t-αποτέλεσμά τους.

7. Προετοιμασία ως κενή λίστα.

8. forall

διπλές

στο

do (κατά φθίνουσα απόλυτη σειρά t-score)? Εάν κανένα από τα γονίδια στο δίπολο είναι, στη συνέχεια, προσθέστε διπλή να

9. Επιστροφή

Η

Η ακρίβεια των πρωτότυπων αλγορίθμων μετριέται χρησιμοποιώντας όλες τις πρώτες τιμές έκφραση των γονιδίων ως είσοδο. Θα αναφερθώ στην ακρίβεια του αρχικού αλγόριθμου, για παράδειγμα για το PAM, όπως ΡΑΜ, και η ακρίβεια που λαμβάνονται χρησιμοποιώντας το

sumdiff /πολ /υπογράψουν

ζεύγη ως είσοδος σε PAM ως

sumdiff /πολ /sign-

PAM, αντίστοιχα. Το Σχήμα 1 συγκρίνει την ακρίβεια του προτύπου PAM ταξινομητή με εκείνη του

sumdiff /mul /sign-

ΡΑΜ, που λαμβάνεται με τη λήψη των top% γονίδια, για τα εννέα σύνολα δεδομένων που παρατίθενται στον Πίνακα 1. Μπορεί να φανεί ότι ακόμη και λαμβάνοντας ένα μικρό ποσοστό από τα κορυφαία γονίδια και κάνοντας διπλές θα μπορούσε να βελτιώσει την απόδοση του PAM. Η

sumdiff /πολ /sign-

PAM ταξινομητής ξεπερνά το πρότυπο ταξινομητή PAM σε πολλά σύνολα δεδομένων.

Η

Για τα δύο σύνολα δεδομένων, του ΚΝΣ και DLBCL, αυτή η αύξηση είναι σημαντική. Για παράδειγμα, με το

sign-

PAM χρησιμοποιώντας τα πάνω 2% γονίδια, η ακρίβεια έχει αυξηθεί από 82,4% σε 91,2% για το σύνολο δεδομένων ΚΝΣ? και για το σύνολο δεδομένων DLBCL, η ακρίβεια έχει αυξηθεί από 85,5% σε 97,4%. Η μέση ακρίβεια του ταξινομητή PAM για τις εννέα σύνολα δεδομένων έχει αυξηθεί από 88,7% σε 90,6%, 89,3% και 91,7% με

sumdiff

,

Mul

και

sign-

PAM με κορυφαία 2% γονίδια, αντίστοιχα.

Μπορούμε να κάνουμε δύο παρατηρήσεις από αυτό το αποτέλεσμα. Μόνο ένας μικρός αριθμός από τα κορυφαία γονίδια που απαιτούνται για την επίτευξη βελτιώσεων και ότι οι βελτιώσεις είναι αρκετά συνεπής σε όλα τα σύνολα δεδομένων. Για να δείξει κατά πόσον ή όχι οι παρατηρήσεις αυτές εξακολουθούν να ισχύουν για τις άλλες μεθόδους ταξινόμησης, εκτελέσαμε τα ίδια πειράματα χρησιμοποιώντας διαφορετικές μεθόδους ταξινόμησης, συμπεριλαμβανομένης της DT, NB, SVM και

K-

NN ταξινομητές.

το Σχήμα 2 δείχνει τα αποτελέσματα σε σύγκριση με DT. Η ακρίβεια της DT βελτιώθηκε σταθερά σε όλη τους εννέα σύνολα δεδομένων. Σε ορισμένες περιπτώσεις, οι βελτιώσεις ήταν σημαντικές. Για παράδειγμα,

sumdiff-

DT βελτίωσε την ακρίβεια της DT από το 64,8% στο 77,3% στο σύνολο δεδομένων Pros.2 χρησιμοποιώντας τα κορυφαία 4% γονίδια? από 73,6% έως 93,1% στο σύνολο δεδομένων Λευχαιμία μόνο με τα κορυφαία 0,2% γονίδια? και από 80,5% έως 98,7% στο σύνολο δεδομένων DLBCL μόνο με τα κορυφαία 0,2% γονίδια. Ομοίως,

πολλαπλούς

DT βελτίωσε την ακρίβεια της DT από 64,8% έως 84,1% στο σύνολο δεδομένων Pros.2 χρησιμοποιώντας τις κορυφαίες 0,4% γονίδια? από 84,9% έως 100% στο σύνολο δεδομένων Pros.3 με τις κορυφαίες 0,4% γονίδια? και από 80,5% έως 97,4% στο σύνολο δεδομένων DLBCL με τις κορυφαίες 1% γονίδια. Τέλος,

sign-

DT βελτίωσε την ακρίβεια της DT από 84,9% έως 97,0% στο σύνολο δεδομένων Pros.3 χρησιμοποιώντας τις κορυφαίες 0,2% γονίδια? από 73,6% έως 95,8% στο σύνολο δεδομένων λευχαιμία με τα κορυφαία 0,6% γονίδια? και από 77,4% έως 93,6% στο σύνολο δεδομένων Colon με τα κορυφαία 0,6% γονίδια. Κατά μέσο όρο, κατά τη διάρκεια των εννέα σύνολα δεδομένων, η ακρίβεια της DT βελτιώθηκε από 78,9% σε 85,2%, 84,2% και 89,1% τη χρήση

sumdiff

,

Mul

και

υπογράψει

ζεύγη με τα κορυφαία 0,8% γονίδια, αντίστοιχα.

η

Ομοίως για NB, ​​η ακρίβεια βελτιώθηκε σημαντικά με

sumdiff

και

Mul

ζεύγη. Το αποτέλεσμα παρουσιάζεται στο Σχήμα 3. Μία ενδιαφέρουσα παρατήρηση που κάναμε είναι ότι για ΝΒ στο

υπογράψει

δυάδων έχουν σταθερά εκτελείται χειρότερη από τις άλλες ανεξάρτητα από τον αριθμό των κορυφαίων γονίδια που χρησιμοποιούνται για την παραγωγή δυάδα. Αυτό συμβαίνει επειδή οι δυάδων

υπογράψει

μετατρέψει τις τιμές έκφρασης σε δυαδικές μεταβλητές που δείχνει τη σειρά του επιπέδου έκφρασης μεταξύ των γονιδίων στα ζεύγη γονιδίων και τα μετασχηματισμένα δυαδικές τιμές δεν συγκρατούν αρκετές πληροφορίες για να υπολογίσει την πιθανότητα της κατηγορίας που χρησιμοποιούνται για την ταξινόμηση . Έτσι, οι

υπογράψει

διπλές δεν είναι κατάλληλα για τους ταξινομητές ΝΒ. Παρ ‘όλα αυτά, τα κέρδη απόδοσης με

sumdiff

και

Mul

ζεύγη ήταν σημαντικές. Στο σύνολο δεδομένων Pros.1, τόσο

sumdiff /πολλαπλούς

NB βελτίωσε την ακρίβεια από το 62,8% στο 91,2%, με τα κορυφαία 0,2% γονίδια? στο σύνολο δεδομένων του παχέος εντέρου, η ακρίβεια βελτιώθηκε από 56,5% σε 87,1% και 88,7%, με τα κορυφαία 1% γονίδια, αντίστοιχα. Τέλος, στο σύνολο δεδομένων DLBCL, η ακρίβεια βελτιώθηκε από 80,5% σε 96,1% και 92,2% με τα κορυφαία 0,2% γονίδια, αντίστοιχα. Κατά μέσο όρο, η ακρίβεια βελτιώθηκε από 81% σε 90,7% και 89,5% με

sumdiff

και

Mul

δυάδες με τα κορυφαία 0,2% γονίδια, αντίστοιχα.

Η

SVM είναι γνωστό ότι είναι μία από τις πιο ισχυρές ταξινομητές σε πολλούς τομείς. Αν και η απόδοσή της ήταν συναρπαστικό από μόνη της, παρατηρήσαμε ότι σε ορισμένες περιπτώσεις η προσέγγιση διπλή μας βελτίωσε σημαντικά τις επιδόσεις του. Το αποτέλεσμα παρουσιάζεται στο Σχήμα 4. Στο σύνολο δεδομένων Colon, το κέρδος απόδοσης ήταν πιο εντυπωσιακό. Η ακρίβεια βελτιώθηκε από 82,3% έως 87,1%, 87,1% και 93,6% με

sumdiff /πολ /σημάδι

δυάδες με τα κορυφαία 1% γονίδια, αντίστοιχα. Στο σύνολο δεδομένων Pros.2, η ακρίβεια βελτιώθηκε από 76,1% έως 80,7%, 84,1% και 85,2% με την κορυφή του 8%, 0,2% και% γονίδια 1, αντίστοιχα. Κατά μέσο όρο, η ακρίβεια βελτιώθηκε από 91,2% έως 92%, 91,9% και 89,4% με

sumdiff /πολ /υπογράψουν

δυάδες με τα κορυφαία 4% γονίδια, αντίστοιχα.

Η

Τέλος, για

k-NN

, το ίδιο παρατηρήθηκε, όπως φαίνεται στο Σχήμα 5. για

k-NN

, το κέρδος απόδοσης ήταν σημαντική σε όλα σχεδόν τα σύνολα δεδομένων. Για παράδειγμα, στο σύνολο δεδομένων λευχαιμία, η ακρίβεια βελτιώθηκε από 84,7% έως 98,6%, 98,6% και 100% με

sumdiff /πολ /σημάδι

διπλές με την κορυφή 2%, 0,8% και 0,2% τα γονίδια , αντίστοιχα. Κατά μέσο όρο, η ακρίβεια βελτιώθηκε από 84,3% σε 91%, 90,1% και 90,7% με

sumdiff /πολ /υπογράψουν

δυάδες με τα κορυφαία 4% γονίδια, αντίστοιχα.

Η

άλλο από το

συνδεθείτε

ζεύγη στον ταξινομητή NB, χρήση τριών διπλών οδήγησε σε βελτίωση των επιδόσεων της γραμμής βάσης ταξινομητές. μέσες τιμές ακρίβεια τη γραμμή βάσης ταξινομητές »κατά τη διάρκεια των εννέα σύνολα δεδομένων κυμαινόταν από 79% έως 91% (δηλαδή, η DT = 79%, KNN = 84%, NB = 81%, SVM = 91%, και ΡΑΜ = 89%). Από την άλλη πλευρά, οι μέσες τιμές τους με διπλές κινήθηκε σε υψηλότερη κλίμακα, ή από 89% έως 92% (δηλαδή,

sign-

DT = 89%,

sumdiff-

KNN = 91 %,

sumdiff-

NB = 89%,

sumdiff-

SVM = 92%, και

πολλαπλούς

PAM = 90%? όλα τα στοιχεία με κορυφαία 4% γονίδια ). Οι βασικές ταξινομητές έδειξαν μια σημαντική διαφορά απόδοσης μεταξύ τους. Όταν πρόκειται για διπλές, ωστόσο, η διαφορά ελαχιστοποιήθηκε και η απόδοση βελτιώθηκε. Όλα τα τρία διπλή τύπους σχεδόν εξίσου συνέβαλαν στη βελτίωση των επιδόσεων σε διάφορους σύνολα δεδομένων (εκτός από το

συνδεθείτε

ζεύγη στην NB). Η

sumdiff /πολ /υπογράψουν

δυάδες με τα κορυφαία 4% των γονιδίων που σημειώνονται κατά μέσο όρο ακρίβεια κατά τη διάρκεια των πέντε ταξινομητές του 88,7% (std. 3.4), 88,5% (std. 3.8) και 85,4% (std. 9.9 ), αντίστοιχα. Οι

sumdiff

διπλές έδειξε μια ελαφρώς καλύτερη απόδοση από ό, τι οι άλλοι έκαναν. Αυτό το αποτέλεσμα είναι πιθανόν να αποδοθούν στο εξής γεγονός: Η

sumdiff

διπλές συλλάβει δύο από τα πάνω και προς τα κάτω σχέσεις (δηλαδή, πάνω-πάνω, κάτω-κάτω και πάνω-κάτω) και των σχέσεων τάξης του τιμές έκφραση του κάθε ζεύγους γονιδίου. Αντίθετα, η

Mul

διπλές συλλάβει τον πρώην μόνη της, και το

υπογράψει

διπλές συλλάβει τον τελευταίο και μόνο. (Δείτε την ενότητα Υλικά για περισσότερες λεπτομέρειες.)

Συζήτηση

Μια πρόσφατη μελέτη έδειξε ότι η απορρύθμιση επίπεδο οδός είναι πιο σημαντικό για καρκινογένεση από την απελευθέρωση των μεμονωμένων γονιδίων [14]. Ένα μονοπάτι τυπικά απελευθερωμένη από την απορύθμιση του περισσότερα από ένα γονίδια που σχετίζεται με την εν λόγω οδό. Αυτό υποστηρίζει το κίνητρό μας για να χρησιμοποιήσετε ζεύγη όπως χαρακτηριστικά για την ταξινόμηση, καθώς τα ζεύγη θα μπορούσαν να συλλαμβάνει δυνητικά περισσότερες πληροφορίες σχετικά με την απελευθέρωση επίπεδο μονοπάτι από τα μεμονωμένα γονίδια. Σε αυτή τη μελέτη, όμως, οι διπλές συνενώθηκαν από διαφορετικές οδούς? δηλαδή, δεν περιορίζονται σε εκείνα από τα ζεύγη γονιδίων που ανήκουν στους ίδιους οδούς. Επιτρέποντας σε όλους τους πιθανούς συνδυασμούς γονιδίων, προσπαθήσαμε να συλλάβει όχι μόνο τις άμεσες αλληλεπιδράσεις ενδο-μονοπάτι, αλλά και μερικές από τις πιθανές έμμεσες ενώσεις μεταξύ της οδού. Σχεδιάζουμε να συνεχίσει στο μέλλον το έργο μας, οι περιπτώσεις στις οποίες μπορούν να χρησιμοποιούνται μόνο τα ζεύγη ενδο-μονοπάτι.

Μια σειρά από ανεξάρτητες μελέτες έχουν βεβαιώνεται για την αποτελεσματικότητα του συνδυασμού ζεύγη γονιδίων. Zhou και οι συνεργάτες της έχουν εισαγάγει μια τεχνική που ονομάζεται

δεύτερης τάξης ανάλυση συσχέτισης

στην οποία οι κατά ζεύγη συσχετισμοί των γονιδίων που χρησιμοποιείται για τη λειτουργική ταξινόμηση των γονιδίων [15]. Η προσέγγισή τους λειτουργεί, ως εξής: Πρώτα υπολογίζονται είναι όλα τα ζεύγη συσχετισμούς των γονιδίων μέσα σε κάθε σύνολο δεδομένων (συσχετίσεις 1ο τάξης)? Στη συνέχεια, τα σχέδια συσχετισμού αναλύονται σε πολλαπλά σύνολα δεδομένων (2ης τάξης συσχετίσεις). Η επιλογή γίνεται από τα ζεύγη γονιδίων που παρουσιάζουν υψηλές συσχετίσεις σε πολλαπλά σύνολα δεδομένων, καθώς και τις επιλεγμένες διπλές μορφή. Μια διπλή αναπαρίσταται ως ένα άνυσμα έτσι ώστε διάσταση και την αξία του, αντίστοιχα, αντιστοιχούν σε ένα σύνολο δεδομένων και με την τιμή συσχέτισης του ζεύγους γονιδίου στο αντίστοιχο σύνολο δεδομένων. Τα ζεύγη στη συνέχεια συγκεντρώνονται χρησιμοποιώντας τον συσχετισμό ως μέτρο ομοιότητος. Οι διπλές συγκεντρωμένα θεωρούνται μοιράζονται παρόμοιες λειτουργίες, επειδή γύρισε-on και off συλλογικά μεταξύ συνόλων δεδομένων.

Επίσης, έχουν αναπτύξει τεχνικές ολοκλήρωσης δεδομένων μικροσυστοιχιών που εκμεταλλεύονται μεταξύ γονίδιο σχέσεις, όπως

συσχέτιση υπογραφή

[16] και

υπογραφή κύβος

[17]. Η

υπογραφή συσχέτιση

Έργα ετερογενή δεδομένα έκφρασης μικροσυστοιχιών σε ένα συνεκτικό χώρο πληροφορία, όταν ένα γονίδιο που αντιπροσωπεύεται από το διάνυσμα των συσχετισμών του έναντι μιας σειράς γονιδίων ορόσημο. Εάν χρησιμοποιείται το ίδιο σύνολο ορόσημα, ετερογενή σύνολα δεδομένων μικροσυστοιχιών, οι οποίες δεν θα μπορούσαν να έχουν άμεσα σε συνδυασμό, μπορούν να ενσωματωθούν, επειδή οι υπογραφές συσχέτιση των γονιδίων έχουν συμβατές διαστάσεις. Η

υπογραφή κύβο

γενικεύει τις αρχές της υπογραφής συσχέτισης με την παροχή ενός ετερογενούς μικροσυστοιχιών πλαίσιο εξόρυξη δεδομένων, όπου τα δεδομένα αντιπροσωπεύονται σε σχετικούς όρους (δηλαδή, μεταξύ των γονιδίων σχέσεις). Έτσι, ο αλγόριθμος εξόρυξης είναι συνεκτικά ισχύει σε όλη σύνολα δεδομένων. Εκτός από την ενοποίηση των δεδομένων των μικροσυστοιχιών, έχουμε επίσης εφαρμόσει την αρχή του προβλήματος ομαδοποίησης και έχουν θεσπίσει ένα νέο πλαίσιο ομαδοποίησης,

SignatureClust

[18].

SignatureClust

δεδομένων συμπλέγματα μικροσυστοιχιών μετά την προβολή της σε ένα χώρο υπογραφής ορίζεται από ένα σύνολο γονιδίων ορόσημο που επιλέγεται από τον χρήστη, επιτρέποντας στους βιολόγους να πάρουν διαφορετικές οπτικές των ίδιων υποκείμενων στοιχείων απλά με την αλλαγή των γονιδίων ορόσημο.

επίσης, έχει αποδειχθεί ότι οι πληροφορίες μεταξύ του γονιδίου είναι χρήσιμα για τους σκοπούς της ταξινόμησης του καρκίνου. Η

k-

TSP εκμεταλλεύεται αλλαγές στα επίπεδα έκφρασης του γονιδίου ζεύγη, ώστε να βελτιωθεί η ακρίβεια ταξινόμησης [6]. Η

K-

TSP ταξινομητής χρησιμοποιεί ζεύγη γονιδίων που είναι παρόμοια με μας

υπογράψει

ζεύγη. Η

K-

TSP ταξινομητή προσδιορίζει τα ζεύγη γονίδιο του οποίου οι παραγγελίες έκφραση αντιστρέφονται με συνέπεια σε όλες τις τάξεις? δηλαδή, εάν στα περισσότερα από τα δείγματα ελέγχου και στα περισσότερα από τα δείγματα καρκίνου, τότε ο

k-

TSP ταξινομητής αφορά το ζεύγος γονιδίων και ως μια καλή ένδειξη των κατηγοριών. Η

K-

TSP ταξινομητής βρίσκει τα πάνω-ζεύγη, που αναφέρεται ως TSP (Top Scoring Ζεύγη), και τα χρησιμοποιεί για να καθορίσει τις κατηγορίες. Η

K-

TSP ταξινομητής συνδυάζει την πρόβλεψη του κάθε TSP με τη χρήση της ψηφοφορίας αστάθμιστο πλειοψηφία για να καθορίσει την τελική κατάταξη ενός δείγματος. Πρόσφατα, η

K-

αλγόριθμο TSP έχει επίσης χρησιμοποιηθεί για να βελτιωθεί η ακρίβεια ταξινόμησης του ταξινομητή SVM [19].

Η μέθοδός μας είναι διαφορετικό από το

K-

TSP ταξινομητή σε τρεις σημαντικές πτυχές. Κατ ‘αρχάς, -TSP έχει σχεδιαστεί για να λειτουργεί με ένα μόνο τύπο του γονιδίου αντιστοίχιση (παρόμοια με μας

υπογράψει

διπλών), ενώ η μέθοδός μας δεν περιορίζεται σε συγκεκριμένους τύπους αντιστοίχισης. Σε αυτή την εργασία, έχουμε ορίσει τρεις διπλές, δηλαδή,

sumdiff

,

Mul

και

υπογράψει

, αλλά διάφορα άλλα ζεύγη μπορεί επίσης να χρησιμοποιηθεί με το προτεινόμενο πλαίσιο. Δεύτερον, η μέθοδος μας χρησιμοποιεί την υπάρχουσα καθιερωμένη ταξινομητές αντί για την επινόηση νέων μοντέλων ταξινόμησης. Αυτό κατέστη δυνατό διότι η μέθοδός μας χωρίζει το γονίδιο βήμα σύζευξη (δηλαδή, βήμα εξαγωγή χαρακτηριστικών) από το μοντέλο κατάταξης των κατασκευών. Τέλος, η

K-

TSP ταξινομητής χρησιμοποιεί συχνότητα ως μετρική για την εκχώρηση βαθμολογίας με ζεύγη γονιδίων τους, ενώ εμείς χρησιμοποιούμε αξιόπιστα

T-score

. Ο Πίνακας 2 συνοψίζει τα αποτελέσματα της ακρίβειας των δυάδων και της τιμής αναφοράς ταξινομητές, καθώς και την ακρίβεια της TSP και

Κ-

TSP. TSP αναφέρεται στην περίπτωση κατά την οποία μόνον η πλέον σημαίνοντες TSP χρησιμοποιήθηκε για την ταξινόμηση. Το TSP και

K-

TSP ταξινομητές ανέφερε μια ισχυρή απόδοση, ξεπερνώντας τα περισσότερα από τα βάσης ταξινομητές. Παρόλα αυτά, οι δύο ταξινομητές υπολείπονται για το σκοπό της μελέτης μας. Αυτή η μελέτη είναι σημαντική σε ότι έχει αποδειχθεί ότι μια απλή μέθοδο εξαγωγής χαρακτηριστικών διπλή-based βελτιώνει σημαντικά την ακρίβεια των συμβατικών ταξινομητές σε όλη τη διαδρομή μέχρι το επίπεδο των εξειδικευμένων αλγορίθμων ταξινόμησης όπως TSP και

K-

TSP.

η

οι top 15 ζεύγη και συνδέονται μονοπάτια KEGG τους για το σύνολο δεδομένων ΚΝΣ φαίνεται στον πίνακα 3. Μια πιθανή εξήγηση σχετικά με το γιατί η ακρίβεια ζεύγος είναι υψηλότερα από εκείνα της γραμμής βάσης ταξινομητές θα μπορούσε να είναι ότι οι οδοί συνδέονται με κάθε στοιχείο του ζεύγους είναι κάπως συμπλέκονται μεταξύ τους, και ως εκ τούτου σχηματίζουν ένα πιο εύρωστο βιοδείκτη σε σύγκριση με κάθε μία από τις οδούς που λαμβάνονται χωριστά. Ωστόσο, μια πιο ισχυρή έρευνα απαιτείται πριν μπορεί να επικυρωθεί οποιαδήποτε υπόθεση. Σε μελλοντική εργασία μας, έχουμε την πρόθεση να προβεί σε συστηματική ανάλυση αυτών κορυφή διπλών, συνδεδεμένων μονοπάτια τους και τις πιθανές συνδέσεις τους με τον καρκίνο.

Η

Έχουμε δείξει ότι ο συνδυασμός των δεδομένων έκφρασης από ζεύγη γονιδίων αυξάνει την ακρίβεια ταξινομητών. Έχουμε επίσης δείξει ότι η αύξηση του αριθμού των γονιδίων για την κατασκευή διπλών δεν οδηγεί κατ ‘ανάγκη σε ανάλογη αύξηση της ακρίβειας. Αυτό είναι σημαντικό επειδή μπορούμε να πάρουμε μια πολύ υψηλή ακρίβεια, ακόμη κι αν χρησιμοποιούν ένα πολύ μικρό υποσύνολο του συνολικού αριθμού των γονιδίων. Έτσι, η υπολογιστική πολυπλοκότητα του υπολογισμού δυάδων, η οποία μπορεί ενδεχομένως να είναι τετραγωνική με το συνολικό αριθμό γονιδίων στο σύνολο δεδομένων, δεν είναι κρίσιμη δεδομένου ότι χρησιμοποιείται μόνο ένα πολύ μικρό υποσύνολο των γονιδίων.

Τα γονίδια που περιλαμβάνουν την κορυφή δυάδων παρέχουν επίσης εύκολα ερμηνεύσιμα αποτελέσματα, σε σύγκριση με άλλες μεθόδους, όπως SVM. Αν και SVM μπορεί να παρέχει μεγαλύτερη ακρίβεια από ό, τι άλλοι, είναι ουσιαστικά ένα μαύρο κουτί και καμία γνώση μπορεί να αποκτηθεί σχετικά γονίδια βιοδείκτη. Διπλά, από την άλλη πλευρά, είναι εύκολα ερμηνεύσιμες. Διπλές εντοπίσει ποια γονίδια και ποια ζεύγη γονιδίων μπορεί να χρησιμεύσει ως βιοδείκτες για την ταξινόμηση των όγκων.

Στο μέλλον, σκοπεύουμε να αναλύσουμε αυτά τα ζεύγη μεταξύ συνόλων δεδομένων και των τύπων καρκίνου να επιλέξετε πιο ισχυρή ζεύγη γονίδιο του καρκίνου του βιοδείκτη. Ειδικά, εμείς θα διερευνήσει πώς τα μεμονωμένα ζεύγη χάρτη στις σχέσεις πραγματική γονίδια », όπως καταστολή ή διέγερση, και τον τρόπο λειτουργίας τους σχέσεις σε σχέση με την καρκινογένεση. Προορίζεται επίσης να εξετάσεις την αποτελεσματικότητα των δυάδων, χαρακτηρίζοντας multi-class σύνολα δεδομένων του καρκίνου.

Συμπέρασμα

Η συμβολή της παρούσας εργασίας είναι διττός. Πρώτον, έχει εισαγάγει διπλά, μια νέα μέθοδο για να συνδυάσει τα δεδομένα έκφρασης από ζεύγη γονιδίων. ζεύγη γονιδίων είναι πιο ισχυρή βιοδείκτες σε σύγκριση με μεμονωμένα γονίδια, αντανακλώντας ίσως το γεγονός ότι τα γονίδια αλληλεπιδρούν για να εκτελέσει μια μοριακή λειτουργία και την απορύθμιση των γονιδίων στην αλληλεπίδραση, και όχι ανεξάρτητα γονίδια, μπορεί να είναι υπεύθυνη για την απορύθμιση των κρίσιμων οδών. Δεύτερον, έχουμε σε συνδυασμό με τη συμβατική δυάδων ταξινομητές να παράγουν ταξινομητές των οποίων η ακρίβεια είναι μεγαλύτερη από εκείνη των αρχικών. Εμείς επικυρωθεί το πλαίσιο χρησιμοποιώντας πέντε γνωστών ταξινομητές συμπεριλαμβανομένων PAM, DT, NB, SVM, και KNN. Δείξαμε ότι δυάδες μπορεί να ενσωματωθεί εύκολα στις υπάρχουσες ταξινομητές, χωρίς να χρειάζεται να αλλάξετε τις υποκείμενες αλγόριθμους, και ότι η χρήση διπλών μπορεί να βελτιώνει συνεχώς την ακρίβεια ταξινόμησης των πρωτότυπων αλγορίθμων σε διαφορετικά σύνολα δεδομένων.

Υλικά και Μέθοδοι

Gene διπλέτες

Ας υπάρξει

Ν

γονιδίων σε ένα δείγμα ιστού, και ας υπάρχει

Μ

τέτοια δείγματα ιστού. Το σύνολο δεδομένων του καρκίνου θα μπορούσε στη συνέχεια να παρασταθούν ως μήτρα του διάσταση. Στη συνέχεια, θα δηλώνουν την αξία έκφραση του

i

-ου γονίδιο, το

ι

-ου δείγμα. Ο φορέας του γονιδίου = θα δηλώνουν την αξία έκφραση του

i

ου γονιδίου σε όλη την

Μ

δείγματα ιστού, και το διάνυσμα στήλη = θα αντιπροσωπεύουν το

ι

-ου δείγμα ιστού σε όλη την

Ν

γονίδια. Οι ετικέτες κατηγορίας για τα δείγματα ιστού που αντιπροσωπεύεται από τον φορέα =, όπου, το σύνολο όλων των ετικετών κατηγορίας. Για δυαδικό πρόβλημα ταξινόμησης μας, όπου δηλώνει καρκινικά και δηλώνει δείγματα φυσιολογικού ιστού.

Για κάθε ζεύγος γονιδίων σε ένα σύνολο δεδομένων, ορίζουμε ένα θετικό φορέα διπλή και ένα αρνητικό διάνυσμα διπλή ως (2) (3)

Έτσι, για το σύνολο δεδομένων μας με γονίδια, έχουμε θετική δυάδων και αρνητικές διπλών, και πρωτότυπο μικροσυστοιχιών μας σύνολο δεδομένων της διάστασης μετατρέπεται σε μήτρα. Κάθε σειρά σε αυτό το νέο μήτρα αντιπροσωπεύει μια διπλή (θετική ή αρνητική). Συμβολίζουμε αυτή τη μήτρα, όπως, με διαστάσεις, όπου? ως εκ τούτου, οι ορίζεται διπλές γνωστή ως

sumdiff

ζεύγη. Σε μια άλλη παραλλαγή της λήψης διπλών, ορίζουμε το

Mul

ζεύγη ως εξής: (4) και

υπογράψει

ζεύγη ως εξής: (5)

Το

sumdiff

διπλές συλλάβει πάνω-πάνω, κάτω-κάτω (δηλαδή θετική διπλές) και πάνω-κάτω (δηλαδή αρνητική διπλές) σχέσεις των τιμών έκφραση ζευγών γονιδίων. Επιπλέον, οι αρνητικές δυάδων συλλάβει τη σειρά των τιμών έκφρασης μεταξύ των γονιδίων στο ζεύγος γονίδιο. Παρακαλώ να σημειωθεί ότι τα σύνολα δεδομένων υποβλήθηκαν σε επεξεργασία για να έχουν μια ελάχιστη τιμή 10 και μέγιστη 16.000. Στη συνέχεια, οι τιμές μετατράπηκαν κατευθείαν. Στη συνέχεια, όλα τα δείγματα τυποποιηθεί σε μηδενική μέση και μονάδα διακύμανσης. Η

Mul

διπλές όχι μόνο να συλλάβει τις σχέσεις up-πάνω, κάτω-κάτω και πάνω-κάτω ζευγών γονιδίων, αλλά και ενισχύουν τις σχέσεις μέσω του πολλαπλασιασμού. Ωστόσο, η

Mul

ζεύγη δεν συλλάβει τις εντολές της έκφρασης των γονιδίων. Από την άλλη πλευρά, η

υπογράψει

διπλές συλλάβει και μόνο τις εντολές έκφρασης μεταξύ των γονιδίων.

Μέθοδοι Ταξινόμησης μικροσυστοιχιών δεδομένων και

Τα δεδομένα μικροσυστοιχιών έχει ληφθεί από διάφορες μελέτες, όπως παρουσιάζεται στον πίνακα 1. Αυτά είναι τα ίδια σύνολα δεδομένων που χρησιμοποιήθηκαν στο [6] για τη σύγκριση TSP και

k-

TSP με διάφορες ταξινομητές. Οι μικροσυστοιχίες αποτελείται από τα δεδομένα έκφρασης για τους ιστούς που συνδέονται με την άνω και κάτω τελεία, το αίμα, του πνεύμονα, του μαστού, του προστάτη και του καρκίνου του κεντρικού νευρικού συστήματος. Ο αριθμός των δειγμάτων και ο αριθμός των γονιδίων σε κάθε μελέτη παρουσιάζονται επίσης στον Πίνακα 1. Για τους βάσης ταξινομητές, χρησιμοποιήσαμε τις εφαρμογές διαθέσιμες στο Bioconductor (για PAM) [20] και Weka (για DT, NB, SVM και KNN) [21].

η κατάταξη Ακρίβεια

Χρησιμοποιούμε το

LOOCV

(

Αφήστε One Out Cross Validation

) μέθοδος για την εκτίμηση της ακρίβειας ταξινομητή. Για κάθε δείγμα στο σύνολο δεδομένων, χρησιμοποιούμε το υπόλοιπο των δειγμάτων στο σύνολο δεδομένων για την πρόβλεψη της τάξης του δείγματος. Η ακρίβεια ταξινόμησης του κάθε συνόλου δεδομένων είναι ο λόγος του αριθμού των ταξινομείται ορθώς δείγματα (True Θετικές + Αληθινή Αρνητικά) με το συνολικό αριθμό των δειγμάτων σε αυτό το σύνολο δεδομένων.

Ευχαριστίες

Αυτό το χαρτί είναι μια ουσιαστικά εκτεταμένη έκδοση των προκαταρκτικών εργασιών μας παρουσιάστηκε στο Διεθνές Συνέδριο IEEE 2009 Βιοπληροφορικής και τη Βιοϊατρική [22]. Η εργασία που παρουσιάστηκε στο συνέδριο παρουσιάζει τα προκαταρκτικά ευρήματα περιορίζονται μόνο σε ένα συγκεκριμένο αλγόριθμο ταξινόμησης, PAM. Σε αυτή την εκτεταμένη εργασία, γενικευμένη τα ευρήματα δείχνοντας ότι η παραγόμενη πληροφορία από ισχυρή ζεύγη γονιδίων θα μπορούσε να βελτιώσει την ακρίβεια της ταξινόμησης του καρκίνου ανεξάρτητη των υποκείμενων αλγορίθμων ταξινόμησης. Συζητήσαμε, επίσης, την ερμηνεία των ζευγών γονιδίων στα άκρως ενδεικτικό δυάδες και την ένωσή τους με τον καρκίνο.

You must be logged into post a comment.