PLoS One: Μπεϋζιανή Ιεραρχική Ομαδοποίηση για την μελέτη Cancer Gene Expression δεδομένα με άγνωστη Statistics

Σεπτέμβριος 9th, 2017 elhealth του καρκίνου άρθρα

Αφηρημένο

ανάλυση Clustering είναι ένα σημαντικό εργαλείο για τη μελέτη των δεδομένων γονιδιακής έκφρασης. Η Μπεϋζιανή αλγόριθμο ιεραρχική ομαδοποίηση (BHC) μπορεί να συναγάγει αυτομάτως ο αριθμός των συστάδων και χρησιμοποιεί Bayesian επιλογή μοντέλου για τη βελτίωση της ποιότητας ομαδοποίησης. Σε αυτή την εργασία, παρουσιάζουμε μια επέκταση του αλγορίθμου BHC. Gaussian αλγόριθμος μας BHC (GBHC) αντιπροσωπεύει τα δεδομένα ως μίγμα Gaussian κατανομές. Χρησιμοποιεί διανομή κανονικού γάμμα ως ένα συζυγές πριν από τη μέση και την ακρίβεια καθενός από τα Gaussian συστατικών. Δοκιμάσαμε GBHC πάνω από 11 καρκίνου και 3 συνθετικά σύνολα δεδομένων. Τα αποτελέσματα για τα σύνολα δεδομένων καρκίνο δείχνουν ότι στην ομαδοποίηση του δείγματος, GBHC κατά μέσο όρο παράγει ένα διαμέρισμα ομαδοποίηση που είναι πιο σύμφωνη με την αλήθεια έδαφος από ό, τι εκείνα που λαμβάνονται από άλλες που χρησιμοποιούνται συνήθως αλγορίθμους. Επιπλέον, GBHC συχνά συνάγει ο αριθμός των συστάδων που είναι συχνά κοντά στην αλήθεια έδαφος. Στο γονίδιο ομαδοποίηση, GBHC παράγει επίσης ένα διαμέρισμα ομαδοποίηση που είναι πιο βιολογικά αληθοφανής από ό, τι πολλές άλλες state-of-the-art μεθόδων. Αυτό υποδηλώνει GBHC ως εναλλακτικό εργαλείο για τη μελέτη των δεδομένων γονιδιακής έκφρασης

Η εφαρμογή των GBHC είναι διαθέσιμο σε https://sites.google.com/site/gaussianbhc/

Παράθεση:. Sirinukunwattana K , Savage RS, Μπάρι MF, Snead DRJ, Rajpoot ΝΜ (2013) Bayesian Ιεραρχική Ομαδοποίηση για την μελέτη Cancer Gene Expression δεδομένα με άγνωστη Στατιστικής. PLoS ONE 8 (10): e75748. doi: 10.1371 /journal.pone.0075748

Επιμέλεια: Ferdinando Di Cunto, Πανεπιστήμιο του Τορίνο, Ιταλία

Ελήφθη: 1 Μάρτη 2013? Αποδεκτές: 19 του Αυγούστου 2013? Δημοσιεύθηκε: 23 του Οκτώβρη, 2013

Copyright: © 2013 Sirinukunwattana et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Korsuk Sirinukunwattana χρηματοδοτείται εν μέρει από το Κατάρ Εθνικό Ταμείο Έρευνας δεν χορηγούν. NPRP5-1345-1-228 και εν μέρει από το Τμήμα Επιστήμης Υπολογιστών του Πανεπιστημίου του Warwick. RSS αναγνωρίζει την υποστήριξη της Ιατρικής Έρευνας του Συμβουλίου Βιοστατιστική Fellowship (G0902104). MFB αναγνωρίζει την υποστήριξη της Επιτροπής Ανώτατης Εκπαίδευσης και Dow Πανεπιστήμιο Επιστήμης Υγείας, το Πακιστάν. Χρηματοδότηση για τη συλλογή των ιστών του πνεύμονα ήταν από τον ιστό Κοινοπραξία West Midlands του πνεύμονα. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

ανάλυση Clustering είναι ένα σημαντικό εργαλείο για τη μελέτη γονιδιακά δεδομένα, όπως τα προφίλ γονιδιακής έκφρασης και μπορεί να χρησιμοποιηθεί για να συναχθεί βιολογική λειτουργία και τη ρύθμιση των γονιδίων. Eisen

et al.

[1] διαπίστωσε ότι στη ζύμη

S. cerevisiae

, τα γονίδια που είναι συγκεντρωμένα συχνά μοιράζονται παρόμοια βιολογική λειτουργία ή είναι συν-ρυθμίζονται, που οδηγεί στην αναγνώριση ότι τα γονίδια στο ίδιο σύμπλεγμα μπορεί να είναι λειτουργικά συνδεδεμένα ή ρυθμίζεται από ένα κοινό σύνολο παραγόντων μεταγραφής. Έχει δειχθεί στη βιβλιογραφία ότι η βιολογική λειτουργία ενός συμπλέγματος μπορεί να συναχθεί από οντολογία σχολιασμό των γονιδίων της [2], και η βιολογική λειτουργία ενός μη χαρακτηρισμένο γονίδιο μπορεί επίσης να συναχθεί από τη γνώση των γονιδίων στη συστάδα της [3], [ ,,,0],4]. Επιπλέον, στη σύγχρονη ιατρική έρευνα, ανάλυση ομαδοποίησης έχει χρησιμοποιηθεί για την αναγνώριση υποτύπων ασθένεια με βάση τη γενετική παραλλαγή [5], [6], και να προσδιορίσει μια υπογραφή έκφρασης γονιδίων που μπορούν να χρησιμοποιηθούν ως προγνωστικός δείκτης για τους γνωστούς υποτύπους της νόσου [7] – [9]. Αυτό βοηθά διαστρωμάτωση των ασθενών για την εξατομικευμένη ιατρική.

Πολλά χρησιμοποιούνται συνήθως αλγόριθμοι ομαδοποίησης έχουν σημαντικό περιορισμό ότι στηρίζονται σε

ad hoc

μεθόδους για τον προσδιορισμό του αριθμού των συστάδων μέσα στα δεδομένα. Στην ιεραρχική αλγόριθμοι ομαδοποίησης [10] – [12], για παράδειγμα, τον προσδιορισμό του αριθμού των συστάδων εξαρτάται κυρίως από την οπτική αναγνώριση, ενώ ο αριθμός των clusters απαιτείται ως είσοδος σε άλλους αλγορίθμους όπως -means [13] και την αυτο-οργάνωση χάρτης [14]. Επιπλέον, πολλοί αλγόριθμοι ομαδοποίησης απαιτούν την επιλογή ενός μετρική απόστασης για να δείξει τη δύναμη της ομοιότητας /ανομοιότητα μεταξύ των σημείων δεδομένων ή συμπλέγματα. Ωστόσο, υπάρχει λίγη συστηματική καθοδήγηση για το πώς να επιλέξετε ένα μετρικό για τα δεδομένα, όπως οι μετρήσεις της γονιδιακής έκφρασης που αντανακλά ικανοποιητικά τη σχέση μεταξύ των δεδομένων. Συχνά, είναι δύσκολο να προσδιοριστεί η σχέση, ειδικά σε υψηλής διαστάσεων χώρο. Δύο κοινές επιλογές των μετρήσεων στη λογοτεχνία γονιδιακή ανάλυση ομαδοποίησης είναι Ευκλείδεια απόσταση και ο συντελεστής συσχέτισης Pearson [15]. Ωστόσο, Ευκλείδεια απόσταση είναι ευαίσθητη σε κλιμάκωση και τις διαφορές στο μέσο όρο. Pearson συντελεστής συσχέτισης μπορεί να συλλάβει μόνο γραμμική σχέση μεταξύ των δεδομένων, και δεν είναι ισχυρή σε ακραίες τιμές και μη-Gaussian κατανομή [16]. Model-based αλγόριθμοι ομαδοποίησης μπορούν να αντιμετωπίσουν και τα δύο αυτά προβλήματα. Στο μοντέλο που βασίζεται σε αλγορίθμους, τα δεδομένα αντιπροσωπεύονται από ένα μοντέλο μίγμα [17], [18] του παραμετροποιείται διανομές, στην οποία κάθε συνιστώσα αντιπροσωπεύει ένα διαφορετικό σύμπλεγμα. Τα προβλήματα για το πώς να προσδιορίσει τον αριθμό των συστάδων και την απόσταση μετρική μπορεί, επομένως, να ρίχνει ως πρόβλημα επιλογής μοντέλου -. Πώς να επιλέξετε ένα στατιστικό μοντέλο που περιγράφει καλύτερα τα δεδομένα

Bayesian ιεραρχική ομαδοποίηση (BHC) [19 ], [20] είναι ένα μοντέλο που βασίζεται σε αλγόριθμο που βασίζεται στο μοντέλο μείγμα διαδικασία Dirichlet (DPM) [18], [21], [22]. Έχει ισχυρή πλεονεκτήματα σε σχέση με άλλες προσεγγίσεις βάσει μοντέλου. Πρώτον, παράγει μια ιεραρχική δομή ομαδοποίηση που είναι πιο κατατοπιστική από μια επίπεδη μία. Δεύτερον, χρησιμοποιεί Bayesian επιλογή μοντέλου για τον προσδιορισμό της ιεραρχικής δομής, παρά μια

ad hoc

μετρική απόστασης, αυξάνοντας έτσι την ποιότητα των παραγόμενων συστάδων. Πολυωνυμικό BHC (MBHC) [23] αντιπροσωπεύει τα δεδομένα σε κάθε συστατικό μείγματος ως ένα προϊόν της multinomial πιθανοτήτων, που υπόκεινται σε Dirichlet προηγούμενη, και έχει αποδειχθεί ότι παράγουν υψηλότερη καθαρότητα δενδρόγραμμα και περισσότερο βιολογικά νόημα συστάδες από άλλα κοινώς χρησιμοποιούμενα αλγορίθμων για το

Arabidopsis thaliana

μικροσυστοιχιών σύνολο δεδομένων [23]. Ωστόσο, χρησιμοποιώντας multinomial πιθανοτήτων, ο αλγόριθμος απαιτεί μια κατηγορηματική προσέγγιση μιας συνεχούς μεταβλητής. Αυτό δεν μπορεί, ως εκ τούτου, να συλλάβει πλήρως την υποκείμενη δομή των δεδομένων συνεχή έκφραση γονιδίων. Gaussian πιθανοτήτων είναι μια προφανής εναλλακτική λύση εδώ, καθώς δεν απαιτούν προσέγγιση δεδομένα και έχουν χρησιμοποιηθεί για την περιγραφή των δεδομένων γονιδιακής έκφρασης σε αναλύσεις πολλές ομαδοποίηση. Προηγούμενη εργασία σε σύνολα δεδομένων έκφρασης των ωοθηκών και μαγιά κυτταρικού κύκλου δείχνουν ότι το μοντέλο που βασίζεται σε αλγόριθμους clustering που χρησιμοποιούν πεπερασμένο Gaussian μοντέλο μείγμα παραγωγή συγκρίσιμων ποιότητας συστάδες με μια κορυφαία αλγόριθμο ευρετική ομαδοποίηση, ακόμη και αν τα στοιχεία δεν ανταποκρίνονται εντελώς Gaussian υπόθεση μείγματος [24]. Σε μια συγκριτική μελέτη των αλγορίθμων ομαδοποίησης για δεδομένα γονιδιακής έκφρασης του καρκίνου, δεδομένου ότι ο πραγματικός αριθμός των clusters, πεπερασμένων Gaussian μοντέλο προσέγγισης είναι ο ηγέτης στην ανάθεση των δεδομένων στη σωστή σύμπλεγμα [25]. Rasmussen

et al.

[26] προτείνουν ένα μοντέλο που βασίζεται σε αλγόριθμο με άπειρο μοντέλο Gaussian μείγμα να μελετήσει Rosetta επιτομή του προφίλ έκφρασης του

S. cerevisiaie

, και διαπιστώνουν ότι τα αποτελέσματα ομαδοποίησης αναλύει όχι μόνο επιβεβαιώνουν προηγουμένως δημοσιευθεί ομαδοποίηση αλλά και αποκαλύπτουν λεπτότερο επίπεδο ομαδοποίησης που είναι νέα και βιολογικά συνεπής.

Στην εργασία αυτή, προτείνουμε μια επέκταση του αλγορίθμου BHC για γονιδιακή δεδομένα έκφρασης που είχαμε και θητεία ως Gaussian BHC (GBHC). GBHC προσφέρει πολλά πλεονεκτήματα έναντι άλλων αλγορίθμων ομαδοποίησης: πρώτα, υποθέτει μια άπειρη Gaussian μοντέλο μείγμα για τα δεδομένα γονιδιακής έκφρασης, η οποία έχει αποδειχθεί ότι είναι βιολογικώς εύλογες στη βιβλιογραφία [24] – [26]? δεύτερο, απασχολεί το μοντέλο μείγμα σε ένα Bayesian πλαίσιο για να εκτελέσει ένα μοντέλο που βασίζεται σε ιεραρχική ομαδοποίηση των δεδομένων γονιδιακής έκφρασης αποκαλύπτουν ιεραρχική δομή παρόντες επί των δεδομένων? τρίτο, συνάγει ο αριθμός των συστάδων αυτόματα από τα δεδομένα? και το τέταρτο, χρησιμοποιεί το Gaussian υπόθεση μείγμα για να περιγράψει τα δεδομένα και χρησιμοποιεί μια κατανομή κανονική-γάμμα ως ένα συζυγές πριν από άγνωστες μέσα και διευκρινίσεις των Gaussian πιθανοτήτων. Έχουμε εισαγάγει δύο παραλλαγές του GBHC: ένα με τη βελτιστοποίηση hyperparameter σε όλο το δέντρο (GBHC-TREE), και ένα άλλο με τη βελτιστοποίηση hyperparameter σε κάθε συγχώνευση (GBHC-node). Περαιτέρω, έχουμε εξάγει μια τιθασεύσει σκεύασμα για την επιτάχυνση της βελτιστοποίησης hyperparameter σε περίπτωση GBHC-ΝΟΔΕ, με αποτέλεσμα ένα παράγοντα επιτάχυνσης έως 11 πάνω GBHC-δέντρο. Συγκρίνουμε αυτά τα δύο αλγορίθμους με μια σειρά από άλλες μεθόδους ομαδοποίησης, εκτελώντας μια μελέτη πάνω από 3 συνθετικά σύνολα δεδομένων και 11 σύνολα δεδομένων γονιδιακής έκφρασης του καρκίνου. Τα αποτελέσματα δείχνουν ότι, αν και τα στοιχεία δεν είναι πολύ καλά αντιπροσωπεύεται από ένα μίγμα Gaussian κατανομές, και οι δύο παραλλαγές εξακολουθεί να βελτιώσουν την ποιότητα ομαδοποίησης αν τα δεδομένα κανονικοποιούνται και δεν έχουν ισχυρή συσχέτιση μεταξύ των μεταβλητών. Κατά μέσο όρο, οι δύο γεύσεις της GBHC αλγορίθμου παραγωγής αποτελεσμάτων ομαδοποίησης μας, η οποία συγκρίνονται ευνοϊκά με τις υπάρχουσες προσεγγίσεις.

Υλικά και Μέθοδοι

Συμβολισμοί

Bayesian Ιεραρχική Ομαδοποίηση Αλγόριθμος

BHC [19] υποθέτει ότι τα δεδομένα που παράγονται από ένα μίγμα μοντέλο, στο οποίο κάθε συστάδα εντός των δεδομένων αντιστοιχεί σε ένα διαφορετικό συστατικό κατανομή του μοντέλου. Ας υποθέσουμε ότι τα σημεία δεδομένων σε ένα σύμπλεγμα είναι ανεξάρτητα και πανομοιότυπα παράγεται από ένα πιθανοτικό μοντέλο με άγνωστες παραμέτρους, και διέπονται από μια προηγούμενη με hyperparameters. Έτσι, η οριακή πιθανότητα μπορεί να εκφράζεται με (1) Ο αλγόριθμος τοποθετεί Αρχικά κάθε σημείο δεδομένων στο δικό ασήμαντο συμπλέγματος και επαναληπτικά συγχωνεύει τις δύο πιο όμοια συστάδες, έως ότου όλα τα σημεία δεδομένων τίθεται σε ένα ενιαίο σύμπλεγμα. Αυτή η διαδικασία συγχώνευσης μπορεί να αντιπροσωπεύεται από ένα δενδρόγραμμα (Σχήμα 1Α).

Α) δενδρόγραμμα αντιπροσωπεύει τη διαδικασία συγχώνευσης της BHC. Κάθε κάθετη γραμμή αντιπροσωπεύει ένα σύμπλεγμα. Μια οριζόντια γραμμή που συνδέει μεταξύ οποιωνδήποτε δύο κάθετες γραμμές αντιπροσωπεύει τη συγχώνευση των clusters, όπου το ύψος της σχετίζεται με το μέτρο ανομοιότητας μεταξύ των συγχωνευμένων συστάδων. Β) Ένα σχηματικό δείχνει σύνολα δεδομένων και συγχωνεύτηκαν σε, όπου και βρίσκονται οι σχετικές συγχωνεύσεις που κάνουν, και, αντίστοιχα. Γ) BHC δαμάσκηνα το δενδρόγραμμα σε, με αποτέλεσμα το τελικό διαμέρισμα.

Η έννοια της ομοιότητας μεταξύ των συστάδων που σχετίζονται με την πιθανότητα ότι θα πρέπει να συγχωνευθούν. Αυτό ορίζεται με βάση την Bayesian έλεγχοι υποθέσεων ως εξής. Για να συγχωνεύσετε ομίλων και σε (Εικόνα 1Β), BHC θεωρεί ότι η μηδενική υπόθεση: και ανήκουν και η εναλλακτική υπόθεση: αποτελείται από δύο ή περισσότερες ομάδες. Η πιθανότητα ότι και θα πρέπει να συγχωνευθούν υπολογίζεται με τον κανόνα του Bayes »: (2) όπου μια οριακή πιθανότητα ορίζεται αναδρομικά από την (3) είναι μια οριακή πιθανότητα δίνεται στην εξίσωση (1), και είναι μια προηγούμενη αυτό και θα πρέπει να συγχωνευθούν και ορίζεται αναδρομικά από την (4) (5), όπου θέτουμε και για κάθε αρχική συστάδα. Σημειώνουμε ότι ο ορισμός της ορίζεται εδώ κάνει Εξίσωση (3) μία προσέγγιση ενός οριακού πιθανότητα DPM. Επιπλέον, η τιμή της παραμέτρου συγκέντρωσης συνδέεται με τον αναμενόμενο αριθμό των συγκροτημάτων που συνάγει BHC. Μια αύξηση συνεπάγεται μια αύξηση στον αναμενόμενο αριθμό των συστάδων.

Σε, και είναι πιο πιθανό να ανήκουν στην ίδια συστάδα από ό, τι. Ως εκ τούτου, παίρνουμε τον τελικό αριθμό των συστάδων και τη διχοτόμηση, όταν όλα τα υπόλοιπα ζεύγη συγχώνευση (Σχήμα 1C).

Η Οριακή Κίνδυνος για την κατανομή Gauss με Άγνωστος Μέση και ακριβείας

Εξετάστε ένα σύνολο δεδομένων στην οποία κάθε παρατήρηση αποτελείται από τις μεταβλητές, δηλ. Υποθέτουμε ότι

Ένα 1 το σύνολο δεδομένων είναι κανονικοποιημένη, δηλαδή έχει να σημαίνει μηδέν και μια μονάδα διακύμανση?

Μια 2 για κάθε παρατήρηση, οι μεταβλητές της είναι ανεξάρτητη και δημιουργείται από διαφορετικές Gaussian κατανομές?

α 3 τα επιτεύγματα της κάθε μεταβλητής, στο σύμπλεγμα είναι ανεξάρτητες και πανομοιότυπα κατανεμημένες και προέρχονται από Gaussian κατανομή με άγνωστη μέση τιμή και την ακρίβεια, και την προηγούμενη για είναι μια διανομή κανονικό-γάμα με hyperparameter.

η συνάρτηση πυκνότητας πιθανότητας μια διανομή Gaussian ορίζεται ως (6) και το συνάρτηση πυκνότητας πιθανότητας μιας διανομής κανονικής-γάμα ορίζεται ως (7)

από τις ανωτέρω υποθέσεις, η οριακή πιθανότητα μπορεί να εκφραστεί ως (8), όπου (9) και (10) (11) (12) (13) σε απορρέουν (8), η hyperparameter που δείχνει την μέση τιμή της παραμέτρου είναι ρυθμισμένη σε να αντανακλά Κοίμηση Α1. Η εξίσωση (8) είναι το μόνο που απαιτείται για το GBHC.

Hyperparameter Βελτιστοποίηση

GBHC συνάγει τις τιμές των hyperparameters χρησιμοποιώντας τις πληροφορίες από το οποίο μας λέει πόσο καλά η ιεραρχία ομαδοποίησης ταιριάζει με τα δεδομένα. Αυτό το συμπέρασμα μπορεί να γίνει μέσω δύο συστήματα βελτιστοποίησης ως εξής.

Βελτιστοποίηση σε παγκόσμιο επίπεδο σε όλη την δέντρου (TREE). GBHC-TREE βρίσκει μόνο ένα σύνολο βέλτιστων hyperparameters που ταιριάζει το σύνολο των δεδομένων, και δίνεται από (14) όπου είναι η οριακή πιθανότητα (3) της τελικής συγκέντρωσης στην BHC. Για να μάθετε τις βέλτιστες hyperparameters στην περίπτωση αυτή είναι δαπανηρή, δεδομένου ότι οι κλίσεις σε σχέση με hyperparameters είναι αναλυτικά δυσεπίλυτα, εκτός εάν έχει καθοριστεί η δομή της ιεραρχίας ομαδοποίησης. (Βλέπε [19] Για περισσότερες λεπτομέρειες σχετικά με τη βελτιστοποίηση της στην περίπτωση κατά την οποία καθορίζεται η ιεραρχία ομαδοποίησης.)

Βελτιστοποίηση σε κάθε συγχώνευση (ΝΟΔΕ). GBHC-ΚΟΜΒΟΣ βρίσκει τη βέλτιστη hyperparameters για κάθε συγχώνευση στην BHC εκτελώντας (15) όπου (16) και υποθέτουμε ότι (17) (18) (19) Η συνάρτηση πιθανότητας πυκνότητας της κατανομής Γάμμα ορίζεται από (20) Έτσι, το αρχείο καταγραφής -likelihood λειτουργία στο (16) μπορεί να γραφεί ως (21), και οι κλίσεις του σε σχέση με hyperparameters είναι (22) (23) (24) Βλέπε τμήμα S1 σε Υλικό S1 για παράγωγα των εξισώσεων (22) – (24). Χρησιμοποιούμε ασθενώς κατατοπιστική priors πάνω hyperparameters στις εξισώσεις (17) – (19), υποθέτοντας ότι τα δεδομένα κανονικοποιούνται, (25) Σημειώνουμε ότι Εξίσωση (15) σχετίζεται με την βελτιστοποίηση της, στα οποία η προσέγγιση και η μεγιστοποίηση του οπίσθιου του θεωρείται διανομή. Μπορούμε να δούμε ότι GBHC-ΝΟΔΕ βρίσκει τη βέλτιστη δομή της ιεραρχίας ομαδοποίησης σε ένα ενιαίο τρέχει από την αναζήτηση για το καλύτερο των συγκεντρώσεων σε κάθε επίπεδο, ενώ η ιεραρχία είναι κατασκευασμένη. Έτσι, είναι πιο χρονικά αποτελεσματική από ό, τι GBHC-TREE.

Η πιθανή περιορισμός των δύο συστημάτων βελτιστοποίησης είναι ότι η βελτιστοποίηση αντικειμενικές συναρτήσεις (14), (15) μπορεί να είναι μη-κυρτό. Αυτό θα οδηγήσει σε GBHC-δέντρο και GBHC-ΝΟΔΕ βρίσκοντας μόνο hyperparameters που είναι τοπικά βέλτιστα. Παρ ‘όλα αυτά, σε πειράματα μας με την ομαδοποίηση των συνθετικών στοιχείων και των δεδομένων γονιδιακής έκφρασης, και τα δύο συστήματα έχουν παραχθεί ελπιδοφόρα αποτελέσματα.

Άλλες Clustering Αλγόριθμοι

Συγκρίνουμε GBHC-δέντρο και GBHC-κόμβο προς άλλους αλγορίθμους ομαδοποίησης σε Πίνακας 1. Οι αλγόριθμοι και ομοιότητα /ανομοιότητα μέτρο τους θα αναφέρονται με τις συντμήσεις δίνονται στον πίνακα. Για παράδειγμα, APE σημαίνει πολλαπλασιασμό συγγένειας με τη χρησιμοποίηση αρνητικών Ευκλείδεια απόσταση. Επιπλέον, έχουμε απασχολούν L-μεθόδους [27], για να συμπεράνει τον αριθμό των clusters σε AC, ΑΕ, CC, CE, KC, και KE, που είναι οι αλγόριθμοι που απαιτούν προ-καθορισμένο αριθμό των συστάδων.

σε αυτό το έργο, υλοποιούμε GBHC-TREE, GBHC-ΝΟΔΕ και MBHC σε MATLAB. Χρησιμοποιούμε AP το οποίο είναι διαθέσιμο στο κοινό σε ιστοσελίδα των δημιουργών (https://www.psi.toronto.edu/index.php?q=affinity\\%20propagation). Όλα τα υπόλοιπα αλγόριθμοι θα μπορούσε να βρεθεί, όπως ενσωματωμένες λειτουργίες του MATLAB.

συνόλων δεδομένων

συνθετικών δεδομένων.

GBHC-δέντρο και GBHC κόμβο θα πρέπει να αποδίδουν πολύ καλά και αν η παραδοχές Α1-Α3 είναι ικανοποιημένοι. Ωστόσο, τα δεδομένα σε πραγματικό έκφραση αναμένεται να είναι όχι πλήρως ικανοποιημένοι υπόθεση Gaussian μίγμα, και ο συσχετισμός μεταξύ των μεταβλητών δεδομένων είναι δυνατή. Είναι πολύ σημαντικό για την αξιολόγηση της απόδοσης των GBHC-δέντρο και GBHC-ΝΟΔΕ σε σύγκριση με τους άλλους αλγορίθμους ομαδοποίησης όταν παραβιάζονται ορισμένες από τις υποθέσεις. Εδώ, χρησιμοποιούμε συνθετικά σύνολα δεδομένων για τη μελέτη GBHC-δέντρο και GBHC-κόμβος σε τρία διαφορετικά σενάρια ως εξής (βλέπε τμήμα S2 στο Υλικό S1 για περισσότερες λεπτομέρειες σχετικά με το πώς παράγονται τα δεδομένα)

Συνθετικά Dataset1:. Μείγμα Gaussian κατανομές και ανεξάρτητες μεταβλητές δεδομένων.

1000 παρατηρήσεις της 10-διαστάσεων τυχαίο διάνυσμα που προέρχονται από ένα μείγμα 7 πολυπαραγοντική Gaussian κατανομές, όπου κάθε πολυμεταβλητή κατανομή Gauss έχει διαγώνιο πίνακα συνδιασποράς. Στη συνέχεια, τα δεδομένα κανονικοποιούνται

Συνθετικά Dataset2:.. Μείγμα Gaussian κατανομές και συσχετίστηκε Δεδομένων μεταβλητές

Παρόμοια με το πρώτο σενάριο, οι 1000 παρατηρήσεις της 10-διαστάσεων τυχαίο διάνυσμα που προέρχονται από ένα μίγμα 7 πολυπαραγοντική Gaussian κατανομές, αλλά η μήτρα συνδιακύμανσης κάθε πολυμεταβλητή κατανομή Gauss έχει μη διαγώνια στοιχεία τα οποία είναι μη μηδενική. Στη συνέχεια, τα δεδομένα κανονικοποιούνται

Συνθετικά Dataset3:.. Μείγμα διάφορες διανομές

παράγουν 1.000 παρατηρήσεις του 10-διαστάσεων τυχαίο διάνυσμα από ένα μίγμα 7 διαφορετικές κατανομές πολυμεταβλητή. Για τις πρώτες 6 πολυμεταβλητή συστατικά ενός μείγματος, ήτοι Gaussian, γάμμα, ομοιόμορφη, t μαθητή, Weibull, και κατανομές chi-τετράγωνο, τυχαίες μεταβλητές σε διαφορετικές διαστάσεις είναι ανεξάρτητες. Για την τελευταία πολυμεταβλητή συστατικό ενός μίγματος το οποίο είναι ένα Gaussian κατανομή, υπάρχει συσχέτιση μεταξύ τυχαίων μεταβλητών σε διαφορετικές διαστάσεις. Αυτό το σύνολο δεδομένων έχει ομαλοποιηθεί πριν από τη χρήση.

Σύνολα δεδομένων γονιδιακής έκφρασης.

Η απόδοση όλων των προαναφερθέντων αλγορίθμων ομαδοποίησης αξιολογείται με 11 σύνολα δεδομένων καρκίνου, όπως περιγράφεται στον Πίνακα 2. Blood1, Blood2, Μυελού των οστών, Brain1, Brain2, του παχέος εντέρου, Multi-tissue1, Multi-tissue2, Prostate1 τα κατεβάσει από https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer/datasets.htm. Αυτά τα σύνολα δεδομένων έχουν ήδη φιλτράρονται σύμφωνα με το πρωτόκολλο που περιγράφεται στο [25]. Μετατρέπουμε κάθε σύνολο δεδομένων από και ομαλοποίηση πριν από τη χρήση.

Prostate2 έχει κατεβάσει από την έκφραση γονιδίων Omnibus (https://www.ncbi.nlm.nih.gov/geo/) (GDS1439). Το σύνολο δεδομένων μετασχηματίζεται από και στη συνέχεια διηθείται με τη δοκιμή rank-sum του Wilcoxon σε επίπεδο σημαντικότητας 0.001. Η δοκιμή πραγματοποιείται μεταξύ μιας ομάδας καλοήθων και μια ομάδα πρωτογενών και μεταστατικών. Το σύνολο δεδομένων κανονικοποιούνται πριν από τη χρήση.

πνεύμονα είναι διαθέσιμο σε γονιδιακής έκφρασης Omnibus (GSE44447). Το πείραμα μικροσυστοιχιών των δεδομένων έγινε σε Agilent SurePrint G3 Human Gene Expression 8 × 60 K μικροσυστοιχίες (Agilent Technologies, Wokingham, Ηνωμένο Βασίλειο), χρησιμοποιώντας ιστούς των πνευμόνων που είχαν ηθικά εγκριθεί υπό την έγκριση Πολύκεντρο Επιτροπή Ερευνητικής Δεοντολογίας (MREC). Το πείραμα σχεδιάστηκε για να συγκριθούν τα προφίλ γονιδιακής έκφρασης από τους δύο τύπους που συνδέονται στενά με καρκινωμάτων νευροενδοκρινικών υψηλής ποιότητας, μικρό cacinoma και καρκίνωμα μεγάλου κυττάρου νευροενδοκρινικών, τα οποία είναι δύσκολο να ταξινομηθούν σωστά ακόμη και για πνευμονική παθολόγους. Τα δεδομένα των πρώτων έκφραση υποβλήθηκε σε επεξεργασία χρησιμοποιώντας το πακέτο R Bioconductor

limma

(https://www.bioconductor.org/packages/2.10/bioc/html/limma.html), loess και quantiled ομαλοποιημένη και να διορθωθεί για την επίδραση των παρτίδων χρησιμοποιώντας το

την καταπολέμηση

(https://www.bu.edu/jlab/wp-assets/ComBat/Abstract.html). Φιλτράρουμε αυτό το σύνολο δεδομένων χρησιμοποιώντας το τεστ Wilcoxon rank-sum για τον έλεγχο της διαφοράς μεταξύ της κανονικής και του καρκίνου των ομάδων σε επίπεδο σημαντικότητας 0.001, και να εξομαλύνει αυτό πριν από την ομαδοποίηση.

Δείκτες Απόδοσης Clustering

Χρησιμοποιούμε δύο μετρήσεις για την αξιολόγηση της απόδοσης clustering: (i) προσαρμοσμένο δείκτη Rand (ARI) [28], και (ii) δείκτη βιολογικής ομοιογένειας (ΕΕΚ) [29]. Στην ομαδοποίηση των συνθετικών στοιχείων, δεδομένου ότι η πραγματική κατάτμηση των κατηγοριών δεδομένων είναι γνωστή, ARI χρησιμοποιείται ως μέτρο της συμφωνίας μεταξύ ομαδοποίησης διχοτόμηση και την πραγματική διχοτόμηση. ARI βαθμολογίες ένα ζευγάρι χωρίσματα μεταξύ 0 και 1, και την υψηλότερη βαθμολογία ARI δείχνει υψηλότερη συμφωνίας. Μπορούμε επίσης να χρησιμοποιήσετε ARI στο πείραμα ομαδοποίηση του δείγματος των δεδομένων γονιδιακής έκφρασης.

Στη γονιδιακή ομαδοποίηση των δεδομένων γονιδιακής έκφρασης, μας ενδιαφέρει πώς βιολογικά νόημα είναι τα αποτελέσματα ομαδοποίησης. ΒΗΙ χρησιμοποιείται για να μετρηθεί η βιολογική αξιοπιστία της γονιδιακής αποτελεσμάτων ομαδοποίησης που παράγονται από έναν αλγόριθμο. Θα σκοράρει ένα διαμέρισμα μεταξύ 0 και 1, όπου μια υψηλότερη βαθμολογία θα ανατεθεί στην πιο βιολογικό ομοιογενή διαμέρισμα βασίζεται σε ένα σύνολο αναφοράς των λειτουργικών κατηγοριών. Σε αυτήν την περίπτωση, χρησιμοποιούμε Gene Ontology (GO) σχολιασμό στο πακέτο Bioconductor (τμήμα S3, Πίνακας S1 στο Υλικό S1), ενώ η ΕΕΚ υπολογίζεται χρησιμοποιώντας το πακέτο R

clValid

[30].

Αποτελέσματα και Συζήτηση

συνθετικών δεδομένων

οι ARI βαθμολογίες των αλγορίθμων ομαδοποίησης φαίνεται στον πίνακα 3, και οι αριθμοί των clusters συναχθεί από τους αλγορίθμους που προβλέπονται στο σημείο S5, Πίνακας S2 σε Υλικό S1 . Λεπτομέρειες της πειραματικής ρύθμιση μπορεί επίσης να βρεθεί στο τμήμα S4 στο Υλικό S1. Για την οπτική επιθεώρηση των αποτελεσμάτων ομαδοποίησης, απασχολούμε μια προσέγγιση μείωσης της διάστασης που ονομάζεται t-Distributed Στοχαστική Γείτονας Ενσωμάτωση (t-ΑΕΕ) [31] αλγόριθμο για να μειωθεί η διάσταση του αρχικού συνθετικών στοιχείων σε 2-διαστάσεων Ευκλείδειο χώρο. t-ΑΕΕ χάρτες δεδομένων διατηρώντας την τοπική δομή? έτσι δεδομένα τα οποία βρίσκονται στην ίδια συστάδα θα τοποθετηθεί κοντά μεταξύ τους στο κάτω-διάστατο χώρο. Οι απεικονίσεις των αποτελεσμάτων ομαδοποίησης φαίνεται στα σχήματα 2, 3, 4.

Οι συνεργατικοί σχηματισμοί αντιπροσωπεύονται από διαφορετικά χρώματα ή τύπους δείκτη. Α) 7 πραγματική συστάδες. αποτέλεσμα Β) Ομαδοποίηση παράγεται από GBHC-δέντρο έχει 7 ομάδες. αποτέλεσμα Γ) Ομαδοποίηση παράγεται από GBHC-κόμβος έχει 7 ομάδες. αποτέλεσμα D) Ομαδοποίηση παράγεται από AE έχει 7 ομάδες.

Οι ομάδες αντιπροσωπεύονται από διαφορετικά χρώματα ή τύπους δείκτη. Α) 7 πραγματική συστάδες. αποτέλεσμα Β) ομαδοποίηση που παράγεται από GBHC-δέντρο έχει 14 ομάδες. αποτέλεσμα C) ομαδοποίηση που παράγεται από GBHC-κόμβος έχει 37 ομάδες. αποτέλεσμα D) ομαδοποίηση που παράγεται από ΚΕ έχει 4 συστάδες.

Οι ομάδες αντιπροσωπεύονται από διαφορετικά χρώματα ή τύπους δείκτη. Α) 7 πραγματική συστάδες. αποτέλεσμα Β) Ομαδοποίηση παράγεται από GBHC-δέντρο έχει 22 ομάδες. αποτέλεσμα Γ) Ομαδοποίηση παράγεται από GBHC-κόμβος έχει 12 ομάδες. αποτέλεσμα D) Ομαδοποίηση παράγεται από ΚΕ έχει 5 συστάδες

Συνθετικά Dataset1:.. Μείγμα Gaussian κατανομές και ανεξάρτητες μεταβλητές δεδομένων

Όταν Υποθέσεις Α1-Α3 είναι ικανοποιημένοι, GBHC -δέντρου και GBHC-ΝΟΔΕ ξεπεράσουν οι άλλοι με σωστά συμπεράνουμε την ένταξη των σημείων δεδομένων, καθώς και τον αριθμό των συστάδων. Από την άλλη πλευρά, υπάρχουν κάποιες μικρές σε υψηλές υποβάθμιση στην ομαδοποίηση αποτελέσματα από τους άλλους αλγόριθμους

Συνθετικά Dataset2:.. Μείγμα Gaussian κατανομές και συσχετίστηκε Δεδομένων μεταβλητές

Σε περίπτωση που Κοιμήσεως Α2 παραβιάζεται, οι επιδόσεις των GBHC-δέντρο και GBHC-ΝΟΔΕ είναι ιδιαίτερα πραγματοποιείται με τη συσχέτιση μεταξύ των μεταβλητών δεδομένων. Από το σχήμα 3, μπορούμε να δούμε ότι GBHC-δέντρο και GBHC-ΝΟΔΕ συμπεράνουμε πολλές υπο-ομάδες του πραγματικού ένα. Ο λόγος είναι ότι ένα μεγαλύτερο σύμπλεγμα των συσχετισμένων δεδομένων παρέχει μια ισχυρότερη απόδειξη ότι τα δεδομένα δεν παράγονται από το μοντέλο στηρίζεται GBHC-δέντρο και GBHC-κόμβο. Έτσι, η οριακή πιθανότητα (8) μικραίνει καθώς το σύμπλεγμα μεγαλώνει, και, κατά συνέπεια, GBHC-δέντρο και GBHC-ΝΟΔΕ είναι υπέρ του να μην συγχώνευση μικρότερων ομάδων σε ένα μεγαλύτερο, σύμφωνα με τον κανόνα του Bayes (2). Στο πείραμά μας, βρήκαμε ότι η αποικοδόμηση εξαρτάται τόσο από τον αριθμό των συσχετιζόμενων ζευγαριών των μεταβλητών και του βαθμού συσχέτισης. Η αύξηση του είτε παράγοντας αποτελέσματα στην αύξηση του αριθμού των προκυπτουσών υπο-clusters (βλέπε Ενότητα S5, πίνακες S3, S4 στο Υλικό S1 για λεπτομέρειες)

Συνθετικά Dataset3:.. Μείγμα διάφορες διανομές

GBHC-δέντρο και GBHC-ΝΟΔΕ είναι σε θέση να αναγνωρίσουν όλα τα συμπλέγματα που δημιουργούνται από τη μη-Gaussian κατανομές ακόμη και αν οι διανομές είναι ιδιαίτερα παρεκκλίνει από την κατανομή Gauss, δεδομένου ότι οι υποθέσεις Α1, Α2 είναι ικανοποιημένοι.

είναι προφανές ότι η ισχυρή συσχέτιση μεταξύ των μεταβλητών δεδομένων είναι ο κύριος παράγοντας που περιορίζει την απόδοση του GBHC-δέντρο και GBHC-κόμβο. Θα μπορούσε κανείς να προσπαθήσει να μετατρέψει τα δεδομένα για τη μείωση της συσχέτισης μεταξύ των μεταβλητών πριν ομαδοποίηση, αλλά πρέπει να έχουμε κατά νου ότι η μετατροπή θα μπορούσε να καταστρέψει την έννοια των αρχικών μεταβλητών δεδομένων. Παρά την υποβάθμιση των αποτελεσμάτων ομαδοποίησης, GBHC-δέντρο και GBHC-ΝΟΔΕ ακόμα ξεπερνά όλες τις άλλες μεθόδους σε ένα σύνολο.

Σύνολα δεδομένων γονιδιακής έκφρασης

Συγκρίνουμε ομαδοποίηση του δείγματος και το γονίδιο ομαδοποίηση παραστάσεις της GBHC- δέντρο και GBHC-ΝΟΔΕ με εκείνες των άλλων αλγορίθμων. Σημειώστε ότι, στο γονίδιο ομαδοποίηση, αντιμετωπίζουμε ανιχνευτές όπως οι παρατηρήσεις και τα επίπεδα έκφρασης σε διαφορετικά δείγματα ως μεταβλητές. Στην ομαδοποίηση του δείγματος, για το αντίθετο, τα δείγματα αντιμετωπίζονται ως παρατηρήσεις και τα επίπεδα έκφρασης σε διαφορετικές ανιχνευτές αντιμετωπίζονται ως μεταβλητές.

Στην ομαδοποίηση του δείγματος, ο πίνακας 4 δείχνει ότι GBHC-κόμβου και GBHC-TREE δώσει το υψηλότερη ARI σε 4 σύνολα δεδομένων (Blood2, Multi-tissue2, Prostate1, Prostate2) και 2 σύνολα δεδομένων (Μυελού των οστών, Prostate2), αντίστοιχα. Οι άλλοι αλγόριθμοι δώσει την υψηλότερη ARI το πολύ σε 2 σύνολα δεδομένων. Οι πρώτες τρεις αλγορίθμους με την υψηλότερη μέση ARI είναι GBHC-ΝΟΔΕ, GBHC-ΔΕΝΤΡΟ, και CC. Ωστόσο, δεν υπάρχουν σημαντικές διαφορές μεταξύ τους (ρ-τιμή? Τμήμα S6, Πίνακας S5 σε Υλικό S1). Όσον αφορά την ακρίβεια συνάγοντας τον αριθμό των τάξεων του δείγματος (Ενότητα S6, πίνακες S6, S7 στο Υλικό S1), οι τρεις πρώτοι αλγόριθμοι κατά μέσο όρο είναι GBHC-TREE, ΚΕ, και GBHC-node, αλλά δεν υπάρχουν σημαντικές διαφορές μεταξύ τους . (τιμή p? τμήμα S6, S8 πίνακας στο Υλικό S1)

Για γονιδίου ομαδοποίηση, πίνακας 5 δείχνει ότι GBHC-κόμβου και GBHC-TREE δώσει το καλύτερο ΕΕΚ σε 2 σύνολα δεδομένων (Brain1, Multi -tissue2) και 1 σύνολο δεδομένων (του πνεύμονα), αντίστοιχα, ενώ η μέγιστη και η μέση τιμή του αριθμού των συνόλων δεδομένων που κάθε αλγορίθμου δίνει το καλύτερο ΕΕΚ είναι 3 και 1,17, αντίστοιχα. Κατά μέσο όρο, οι πρώτες τρεις αλγορίθμους με την υψηλότερη μέση ΕΕΚ είναι APE, GBHC-ΝΟΔΕ, και GBHC-δέντρο. Και πάλι, δεν υπάρχουν σημαντικές διαφορές μεταξύ τους (ρ-τιμή? Τμήμα S7, Πίνακας S10 σε Υλικό S1). Ο αριθμός των συστάδων γονιδίων συναχθεί από τους αλγόριθμους μπορεί επίσης να βρεθεί στο τμήμα S7, πίνακας S11 σε Υλικό S1.

Όσον αφορά την προθεσμία εκτέλεσης (Ενότητα S6, Πίνακας S9 και το τμήμα S7, πίνακας S12 στην υλικό S1), GBHC-δέντρο και GBHC-ΝΟΔΕ είναι πιο αργή από ό, τι μη-BHC μεθόδους, λόγω της υψηλής υπολογιστικής το φορτίο τους, που παρέχεται από το στατιστικό μοντέλο και τη βελτιστοποίηση hyperparameters. Όπως ήταν αναμενόμενο, GBHC-δέντρο και GBHC-ΝΟΔΕ δεν θα είναι πάντα καλύτερες επιδόσεις από άλλους αλγορίθμους ομαδοποίησης σε κάθε σύνολο δεδομένων από την υποκείμενη δομή των φυσικών δεδομένων είναι πιο περίπλοκη και γενικά δεν συμμορφώνονται με τις παραδοχές Α1-Α3. Παρ ‘όλα αυτά, μπορούμε να δούμε από τα αποτελέσματα που GBHC-δέντρο και GBHC-ΝΟΔΕ είναι τα μόνα αλγόριθμοι που κατά μέσο όρο παράγει υψηλότερης ποιότητας αποτελέσματα τόσο του δείγματος και το γονίδιο ομαδοποίησης. Επιπλέον, είναι πιο πιθανό να συμπεράνουμε τον αριθμό των τάξεων του δείγματος που είναι κοντά στην πραγματική.

Σύγκριση μεταξύ της BHC αλγορίθμων.

Σε σύγκριση με MBHC, για την ομαδοποίηση του δείγματος, GBHC-ΝΟΔΕ και GBHC-TREE παράγουν υψηλότερες ARI από MBHC, αλλά GBHC-ΝΟΔΕ δίνει σημαντικά υψηλότερο αποτέλεσμα (Ενότητα S6, πίνακας S5 στο Υλικό S1). Επιπλέον, δίνουν σημαντικά χαμηλότερες διαφορά μεταξύ τεκμαιρόμενη και πραγματικό αριθμό των κατηγοριών του δείγματος από MBHC (Ενότητα S6, S8 πίνακας στο Υλικό S1). Όσον αφορά το χρόνο εκτέλεσης, GBHC-ΝΟΔΕ τρέχει περίπου 4 φορές πιο γρήγορα από ό, τι MBHC, και περίπου 11 φορές πιο γρήγορα από ό, τι GBHC-δέντρο στην ομαδοποίηση του δείγματος (Ενότητα S6, πίνακας S9 στο Υλικό S1). Για γονιδιακή ομαδοποίηση, GBHC-ΝΟΔΕ τρέχει περίπου 1,2 φορές πιο γρήγορα από ό, τι MBHC και γύρω από 6,3 φορές ταχύτερα από ό, τι GBHC-TREE (Τμήμα S7, πίνακας S12 σε Υλικό S1). Σημειώνουμε ότι GBHC-δέντρο και MBHC τρέχει πιο αργά από ό, τι GBHC-node, επειδή βελτιστοποιήσεις hyperparameter τους είναι πιο υπολογιστικά εντατικές, δεδομένου ότι απαιτούν το αποτέλεσμα ομαδοποίηση του συνόλου των δεδομένων για την αξιολόγηση της αντικειμενικής συνάρτησης. Έτσι, GBHC-δέντρο και GBHC-ΝΟΔΕ κέρδος βελτιωμένη ποιότητα ομαδοποίησης, και GBHC-ΝΟΔΕ κερδίζει επίσης μια ταχύτητα-up.

Συμπεράσματα

Σε αυτή την εργασία, παρουσιάζεται ένα μοντέλο που βασίζεται σε αλγόριθμο η οποία χρησιμοποιεί ένα Gaussian μοντέλο μείγμα με το μοντέλο των προφίλ γονιδιακής έκφρασης σε ένα Bayesian πλαίσιο. Ο προτεινόμενος αλγόριθμος, ονομαστεί ως η Gaussian BHC ή GBHC, χρησιμοποιεί ένα μοντέλο Gaussian μείγμα μαζί με ένα κανονικό-γάμμα πριν για το άγνωστο μέση τιμή και την ακρίβεια των παραμέτρων των συστατικών του μίγματος, προκειμένου να συλλάβει την εγγενή δομή των δεδομένων. Προτείναμε δύο παραλλαγές του αλγορίθμου GBHC: GBHC-δέντρο και GBHC-ΝΟΔΕ, σύμφωνα με δύο διαφορετικά συστήματα βελτιστοποίησης hyperparameter. Μια εκτεταμένη σύγκριση μεταξύ των τροποποιήσεων αυτών και άλλων γνωστών αλγορίθμων ομαδοποίησης διεξήχθη με βάση 3 συνθετικά σύνολα δεδομένων και 11 σύνολα δεδομένων του καρκίνου. Τα πειραματικά αποτελέσματα για τα συνθετικά σύνολα δεδομένων έδειξε ότι GBHC-δέντρο και GBHC-ΝΟΔΕ, γενικά ξεπέρασε τους άλλους αλγορίθμους ομαδοποίησης, αν τα δεδομένα ομαλοποιούνται και θα μπορούσε να είναι καλά-εκπροσωπούνται από ένα μείγμα πολλών μεταβλητών Gaussian κατανομές όπου κάθε περιγραφικές ήταν ανεξάρτητη από τις άλλες. Παρά το γεγονός ότι, τα δεδομένα ήταν ιδιαίτερα παρέκκλινε από ένα μείγμα πολλών μεταβλητών Gaussian κατανομές ή είχαν μέτριου βαθμού συσχέτισης μεταξύ των μεταβλητών, GBHC-ΝΟΔΕ και GBHC-TREE εξακολουθούν να βελτιωθούν τα αποτελέσματα ομαδοποίησης. Για γονιδιακή έκφραση ομαδοποίηση, τόσο GBHC-δέντρο και GBHC-ΝΟΔΕ έδωσε ισχυρές αποδόσεις για το σύνολο. Τα σταθερά παράγεται υψηλότερη ποιότητα των αποτελεσμάτων τόσο του δείγματος και το γονίδιο ομαδοποίηση και είχαν περισσότερες πιθανότητες από τους άλλους αλγορίθμους ομαδοποίησης συνάγοντας τον αριθμό των πραγματικών τάξεις του δείγματος. Σε σύγκριση με MBHC που είναι το προηγούμενο επέκταση της BHC για τα δεδομένα μικροσυστοιχιών, οι αλγόριθμοι GBHC είχαν επίσης καλύτερες επιδόσεις clustering. Περαιτέρω, σύνθεση μας με το ημερολόγιο πιθανότητα να μας επιτρέπεται να χρησιμοποιεί έναν αλγόριθμο των συζυγών να βρει αποτελεσματικά βέλτιστη hyperparameters που οδηγεί στην παραλλαγή GBHC-ΝΟΔΕ είναι κατά μέσο όρο πάνω από 10 φορές πιο γρήγορα από ό, τι παραλλαγή GBHC-TREE του αλγορίθμου μας, χωρίς συμβιβασμούς στην απόδοση ομαδοποίησης.

Διαθεσιμότητα

Η εφαρμογή MATLAB των GBHC-δέντρο και GBHC-ΝΟΔΕ είναι διαθέσιμα σε https://sites.google.com/site/gaussianbhc/

Υποστήριξη Πληροφορίες

Υλικό S1.

Bayesian ιεραρχική ομαδοποίηση για μελέτη Cancer Gene Expression δεδομένα με άγνωστη Στατιστικά

doi:. 10.1371 /journal.pone.0075748.s001

(PDF)

Ευχαριστίες

Η συγγραφείς ευχαριστήσω Katherine A. Heller για την κοινή χρήση κώδικα της για την αρχική BHC αλγόριθμο.

Χρόνιες ασθένειες

PLoS One: Μπεϋζιανή Ιεραρχική Ομαδοποίηση για την μελέτη Cancer Gene Expression δεδομένα με άγνωστη Statistics