PLoS One: Καρκίνος Δευτερεύων Discovery και βιοδεικτών Ταυτοποίηση μέσω μιας νέας άρτιας Δίκτυο Clustering Αλγόριθμος

Ιούλιος 10th, 2016 elhealth του καρκίνου άρθρα

Αφηρημένο

Στη βιολογία του καρκίνου, είναι πολύ σημαντικό να κατανοήσουμε τις φαινοτυπικές αλλαγές των ασθενών και να ανακαλύψουν νέες υποτύπων καρκίνου. Πρόσφατα, οι τεχνολογίες των μικροσυστοιχιών με βάση το έχουν ρίξει φως σε αυτό το θέμα με βάση το προφίλ της γονιδιακής έκφρασης που μπορεί να περιέχουν ακραίες τιμές οφείλονται είτε σε χημικές ή ηλεκτρικές λόγους. Αυτά τα άγνωστα υπότυποι μπορεί να είναι ετερογενής όσον αφορά την υποκείμενη δίκτυα ή μονοπάτια, και σχετίζονται με μόνο μερικά από αλληλοεξαρτώμενες βιοδεικτών. Αυτό παρακινεί την ανάγκη για τις μεθόδους έκφρασης που βασίζονται σε ισχυρή γονίδιο ικανό να ανακαλύπτουν τέτοια υποτύπων, διασαφηνίζονται οι αντίστοιχες δομές των δικτύων και την αναγνώριση που σχετίζονται με τον καρκίνο βιοδείκτες. Αυτή η μελέτη προτείνει ένα τιμωρούνται βάσει μοντέλου του Student t ομαδοποίησης με απεριόριστη συνδιασποράς (PMT-UC) για να ανακαλύψετε υποτύπων καρκίνου με δίκτυα συμπλέγματος ειδικά, λαμβάνοντας γονίδιο εξαρτήσεις υπόψη και έχουν ανθεκτικότητα έναντι των ακραίων τιμών. Εν τω μεταξύ, η ταυτοποίηση βιοδεικτών και την ανασυγκρότηση του δικτύου επιτυγχάνεται με την επιβολή προσαρμοστική ποινή για τα μέσα και τις μήτρες αντίστροφη κλίμακα. Το μοντέλο είναι εξοπλισμένο με τον αλγόριθμο μεγιστοποίησης προσδοκία χρησιμοποιώντας το γραφικό λάσο. Εδώ, ένα κριτήριο επιλογής γονίδιο που βασίζεται σε δίκτυο που προσδιορίζει βιοδείκτες όχι ως μεμονωμένα γονίδια, αλλά ως υποδίκτυα εφαρμόζεται. Αυτό μας επιτρέπει να εμπλέξει χαμηλή διακριτική βιοδείκτες που διαδραματίζουν κεντρικό ρόλο στην υποδίκτυο με τη διασύνδεση πολλών διαφορικά εκφραζόμενων γονιδίων, ή έχουν υποκείμενες δομές δίκτυο συμπλεγμάτων ειδικών. αποτελέσματα του πειράματος προσομοίωσης σύνολα δεδομένων και ένα διαθέσιμο σύνολο δεδομένων καρκίνου πιστοποιούν την αποτελεσματικότητα, την ευρωστία της PMT-UC στον καρκίνο του υποτύπου ανακάλυψη. Moveover, PMT-UC έχει τη δυνατότητα να επιλέξει σχετίζονται βιοδείκτες του καρκίνου που έχουν επιβεβαιωθεί σε βιοχημικές ή βιοϊατρική έρευνα και να μάθουν τη βιολογική σημαντική συσχέτιση μεταξύ γονιδίων

Παράθεση:. Wu ΜΟΥ, Dai DQ, Zhang XF, Zhu Υ (2013) Καρκίνος Δευτερεύων Discovery και βιοδεικτών Ταυτοποίηση μέσω μιας νέας άρτιας Δίκτυο Clustering Αλγόριθμος. PLoS ONE 8 (6): e66256. doi: 10.1371 /journal.pone.0066256

Επιμέλεια: Zhi Wei, New Jersey Institute of Technology, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 8 του Φεβρουαρίου, 2013? Αποδεκτές: 2η Μαΐου του 2013? Δημοσιεύθηκε: 17, Ιουνίου 2013

Copyright: © 2013 Wu et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Η χρηματοδότηση που προβλέπεται από το Εθνικό Ίδρυμα Επιστημών της Κίνας (90920007, 11171354), και το Υπουργείο Παιδείας της Κίνας (20120171110016). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Με την ολοένα και πιο συσσώρευση των προφίλ έκφρασης του γονιδιώματος-ευρεία, μέθοδος που βασίζεται σε μικροδιάταξη γίνεται μια βασική τεχνική για τον εντοπισμό γονιδίων που σχετίζονται με τον καρκίνο (βιοδείκτες) και την ανακάλυψη νέων υποτύπων καρκίνου [1]. Σε σύγκριση με την κλινική και παθολογικοί παράγοντες κινδύνου, όπως η ηλικία του ασθενούς, το μέγεθος του όγκου, και το καθεστώς υποδοχέα στεροειδών, η κατανόηση των υποκείμενων γονιδίων μπορούν να αποκτήσουν διορατικότητα φυσιολογία του καρκίνου [2] – [4], και είναι πιο αποτελεσματική για την ανίχνευση νέων υποτύπων καρκίνου, όπως ο καρκίνος του μαστού [5], [6], τον καρκίνο των ωοθηκών [7], καρκίνος του παχέος εντέρου [8]. Αυτοί οι υπότυποι μπορεί να έχουν διαφορές στο γονίδιο ή έκφραση πρωτεΐνης, γονίδιο ρυθμιστικής πρωτεΐνης ή σηματοδότησης δικτύων [9]. Προβλέποντας αυτούς τους υποτύπους από τα προφίλ γονιδιακής έκφρασης μπορεί να θεωρηθεί ως ένα πρόβλημα ομαδοποίησης, και την εύρεση των γονιδίων για την πρόβλεψη μπορεί να θεωρηθεί ως ένα πρόβλημα μεταβλητής επιλογή από υψηλής διαστάσεων μη επισημασμένα δεδομένα.

Μία πρόκληση καρκίνου υποτύπου ανακάλυψη είναι ότι οι διαφορές στο δίκτυο ή το επίπεδο της οδού κατά μήκος αυτών των υποτύπων μπορεί να κάνει τα συμβατικές προσεγγίσεις ομαδοποίησης με βάση την έκφραση του γονιδίου προφίλ διαφορές ανεπαρκής [9]. Η ανακάλυψη αυτών των δικτύων και των μονοπατιών είναι πολύ σημαντική για την κατανόηση της συλλογικής βιολογικής λειτουργίας των γονιδίων και των επιπτώσεών τους στις φαινοτυπικές αλλαγές των ασθενών [9] – [12]. Επιπλέον, βιοδείκτες συχνά επιλέγονται ανεξαρτήτως βάση την διακριτική τους ικανότητες [13]. Ωστόσο, τα γονίδια συχνά χρειάζεται να αλληλεπιδρά με τους άλλους να συμμετάσχουν σε κάποιες βιολογικές διαδικασίες ή μοριακές λειτουργίες [14] – [17]. Μερικά από αυτά δεν μπορεί να εκφράζονται διαφορικά, αλλά ανήκουν σε μια υποδίκτυο το οποίο έχει συνολική διακριτική δραστηριότητα ή είναι ένα χρήσιμο μονοπάτι για έναν συγκεκριμένο υπότυπο [3], [9], [18]. Ως εκ τούτου, το έργο της ανακάλυψης των υποτύπων, διαλεύκανση αντίστοιχων δομών του δικτύου τους, και να πάρει έξω βιοδείκτες που βασίζεται στο δίκτυο εξακολουθεί να είναι πολύ σημαντικό στον τομέα της βιοϊατρικής τομείς.

Υπάρχουν διάφορες μέθοδοι ομαδοποίησης που εφαρμόζονται σε σύνολα δεδομένων γονιδιακής έκφρασης για στεγανοποίηση βιολογικά δείγματα [19]. Το μοντέλο με βάση την ομαδοποίηση που έχει μια σταθερή πιθανολογικό πλαίσιο χρησιμοποιείται ευρέως σε βιοδείκτη και υπότυπο του καρκίνου ανακάλυψη λόγω των καλών επιδόσεων, interpretability και την ευκολία της εφαρμογής [20]. Επί του παρόντος, η διαδικασία επιλογής γονίδιο περισσότερες προσεγγίσεις έχουν σχεδιαστεί με την επιβολή περιορισμών ποινή για την πιθανότητα να επιτευχθεί μια αραιή λύση.

Για την τιμωρείται βάσει μοντέλου ομαδοποίηση, προκειμένου να μειωθεί ο αριθμός των παραμέτρων, ένα κοινό παραδοχή είναι ότι κάθε cluster έχει διαγώνιο πίνακα συνδιασποράς, έτσι ώστε τα γονίδια υποτίθεται ότι είναι ανεξάρτητη. Κάθε ομάδα είναι συχνά μοντελοποιείται ως τυχαία μεταβλητή που προέρχονται από μίγμα κατανομή Gauss, και σε συνδυασμό με διάφορες κυρώσεις, όπως πρόστιμο, προσαρμοστική ποινή και πρόστιμο ομάδα [21], [22]. Από το ημερολόγιο-πιθανότητα κατανομή Gauss διασπάται quadratically με την απόσταση από το κέντρο, είναι ευαίσθητη σε ακραίες τιμές που παρατηρούνται συνήθως σε πειράματα μικροσυστοιχιών οφείλεται είτε σε χημικές ή ηλεκτρικές λόγους [23]. Μια πιο ισχυρή Student τιμωρούνται βάσει μοντέλου το t ομαδοποίησης με διαγώνιο συνδιασποράς (PMT-DC) εισάγεται στο [24], για να ασχοληθεί με το θόρυβο και ακραίες γονίδια. Μπορούν επίσης να παρέχουν έναν τρόπο για την κατάταξη των γονιδίων ανάλογα με τη συμβολή τους στη διαδικασία ομαδοποίησης με ένα εκκίνησης διαδικασίας. Ωστόσο, οι παραπάνω μέθοδοι αγνοούν εξαρτήσεις μεταξύ γονιδίων εντός υποτύπων καρκίνου. Ένα τακτοποιηθεί το μοντέλο Gaussian μείγμα προτείνεται να λάβει διάφορες εξαρτήσεις υπόψη επιτρέποντας μια θεραπεία γενικών πινάκων συνδιακύμανσης. Ένας αλγόριθμος προσδοκία μεγιστοποίησης (ΕΜ) χρησιμοποιώντας το γραφικό λάσο χρησιμοποιείται για την εκτίμηση των παραμέτρων, και επιτυγχάνει καλύτερη υποτύπου ανακαλύπτοντας τις επιδόσεις και την επιλογή του γονιδίου [20]. Ως ενδιάμεση μεταξύ διαγώνιο και ένα γενικό πίνακα συνδιασποράς, μια άλλη ιδέα ότι μοντελοποίηση ενός πίνακα συνδιασποράς χρησιμοποιώντας κάποιες λανθάνουσες μεταβλητές όπως γίνεται στο μίγμα των αναλυτών παράγοντας εισάγεται [25]. Έχει περισσότερες περιορισμούς και είναι πιο περίπλοκη από ό, τι η μέθοδος βασίζεται σε μια αβίαστη πίνακα συνδιασποράς. Ωστόσο, είναι πιο αποτελεσματική αν κάποια λανθάνουσα μεταβλητή που προκαλείται υπόθεση συνδιακύμανσης κατέχει στο σύνολο δεδομένων γονιδιακής έκφρασης. Και οι δύο μέθοδοι έχουν δύσκολο να ασχοληθεί με τις ακραίες τιμές λόγω της Gaussian υπόθεση τους. Αυτές οι συμβατικές μέθοδοι τιμωρηθεί μοντέλο που βασίζεται μόνο σε επιλεγμένα γονίδια με βάση τη μέση απόκριση, και αγνοούν τις επιπτώσεις τους για τα υποκείμενα δίκτυα ή πορείες οι οποίες είναι πολύ σημαντικές για την κατανόηση της συλλογικής βιολογική λειτουργία.

Παρακινημένος από τις προκλήσεις που θέτει η υποκείμενων δικτύων ή οδών και των ακραίων τιμών που παρατηρήθηκαν σε υψηλές διαστάσεων του συνόλου δεδομένων γονιδιακής έκφρασης, και τους περιορισμούς από τις παραπάνω μεθόδους, η μελέτη αυτή προτείνει ένα τιμωρούνται βάσει μοντέλου του Student t ομαδοποίησης με απεριόριστη συνδιασποράς (PMT-UC) για τον καρκίνο του υποτύπου ανακάλυψη και ταυτοποίηση βιοδεικτών. Η νέα προτεινόμενη μέθοδος βασίζεται στην κατανομή t του Student πολυπαραγοντική που κάνει ο αλγόριθμος δεν επηρεάζεται από ακραίες ή ασυνήθιστες γονίδια. Σε αντίθεση με PMT-DC με την ανεξάρτητη υπόθεση, προκειμένου να εξετάσει τη σχέση μεταξύ γονιδίων και να ανακαλύψουν τα υποτύπων καρκίνου που διαφέρουν από την άποψη των υποκείμενων δομών του δικτύου, ένα σύμπλεγμα ειδικό αβίαστη συνδιακύμανση χρησιμοποιείται αντί της διαγώνιας συνδιακύμανσης. Η ανάπτυξη των αλγορίθμων για την εκτίμηση αραιή γραφήματα με την εφαρμογή ενός ποινή στη μήτρα αντίστροφο συνδιασποράς [26], [27] κάνουν την ιδέα ότι η λήψη εξάρτηση γονίδιο υπόψη εφικτή. Έχουμε επιβάλει μια προσαρμοστική ποινή για τα μέσα και τις μήτρες αντίστροφη κλίμακα για την επίτευξη ταυτοποίηση βιοδεικτών που βασίζεται στο δίκτυο και την ανασυγκρότηση του δικτύου. Το μοντέλο είναι εξοπλισμένο μέσω ενός αλγόριθμου ΕΜ, χρησιμοποιώντας την γραφική λάσο. Ένα νέο κριτήριο επιλογής γονίδιο εισάγεται για να βρείτε τις ακόλουθες ενημερωτικές γονίδια: τα γονίδια που έχουν μέσο διασποράς ειδικά, τα γονίδια που δεν εκφράζονται διαφορικά, αλλά αλληλεπιδρούν με κάποια διακριτική γονίδια για να σχηματίσουν μια συλλογική βιολογική λειτουργία, και τα γονίδια που έχουν ταξικές συγκεκριμένες υποκείμενες δομές του δικτύου. Με την εφαρμογή του νέου μοντέλου για την προσομοίωση σύνολα δεδομένων και μία διαθέσιμη στο κοινό σύνολο δεδομένων καρκίνου, δείχνουμε ότι ο αλγόριθμος είναι ισχυρή έναντι των ακραίων τιμών στην ομαδοποίηση, την επιλογή των γονιδίων και των διαδικασιών ανασυγκρότησης του δικτύου ταυτόχρονα, και δίνει ανταγωνιστικό αποτελέσματα με τις state-of-the-art αλγορίθμους για ανίχνευση νέων υποτύπων καρκίνου. Πολλά εντοπίστηκαν βιοδείκτες έχουν επαληθευτεί σε βιοχημικές ή βιοϊατρική έρευνα. Η (GO) ανάλυση Gene Ontology δείχνει ότι τα γονίδια στο ίδιο υποδίκτυο επιλεγεί από τη νέα προτεινόμενη μέθοδο έχουν σημαντική βιολογική και λειτουργική συσχέτιση.

Μέθοδοι

Αυτή η ενότητα εισάγει την τιμωρείται βάσει μοντέλου μαθητή t ομαδοποίηση με αβίαστη συνδιασποράς (PMT-UC) για να επιλέξετε ένα μικρό αριθμό γονιδίων, που μπορεί να χρησιμοποιηθεί για την ταξινόμηση των δειγμάτων σε φυσικά ομάδες, και να ανακαλύψουν τη σχέση μεταξύ των γονιδίων.

το πλαίσιο της PMT -UC

Ας υποθέσουμε ότι υπάρχουν ανεξάρτητοι διάστατο δείγματα, όπου αντιπροσωπεύει το γονίδιο έκφραση των γονιδίων. Τα γονίδια έχουν τυποποιηθεί για να έχουν μια μέση τιμή 0 και διακύμανση 1 σε παρατηρήσεις.

Κάθε δείγμα υποτίθεται ότι προέρχονται από μια κατανομή μείγμα με τα συστατικά των οποίων η συνάρτηση πυκνότητας πιθανότητας είναι (1), όπου περιλαμβάνει όλες τις παραμέτρους το μοντέλο, είναι η μη αρνητική ανάμειξη ποσοστό για το συστατικό με, και είναι οι άγνωστες παράμετροι που έχει αντιστοιχούν σε.

Κάθε στοιχείο ορίζεται ως t κατανομή πολυμεταβλητή του Student με τις παραμέτρους που, όπου είναι η παράμετρος θέσης, είναι η κλίμακα μήτρα και είναι οι βαθμοί ελευθερίας. Έχει την πυκνότητα πιθανότητας (2), όπου είναι η συνάρτηση γάμα, και υποδηλώνει την Mahalanobis τετράγωνο απόσταση μεταξύ και. Η μέση τιμή και η μήτρα συνδιακύμανσης των t κατανομή του κάθε μαθητή είναι και, αντίστοιχα. Σε γενικές γραμμές, το σύνολο των παραμέτρων μπορεί να εκτιμηθεί με τη μεγιστοποίηση της λειτουργία λογαριθμικής πιθανότητας.

Ωστόσο, δεδομένου ότι ο αριθμός των γονιδίων είναι συχνά πολύ περισσότερο από τον αριθμό των δειγμάτων, η μέγιστη εκτίμηση πιθανότητας είναι πιθανώς ενικό. Η μήτρα αντίστροφη κλίμακα υποδηλώνεται ως με τα στοιχεία. Κατά τα τελευταία λίγα χρόνια, μια σειρά από συγγραφείς εισάγουν πολλές προσεγγίσεις για να δώσει ένα θετικό καθορισμένης συνδιακύμανσης με την αύξηση της αραιότητας του [26], [27]. Η δομή του δικτύου κατασκευάζεται συνήθως βασίζεται σε συσχέτιση ή μερικής συσχέτισης [28]. Στο έγγραφο αυτό, η μερική συσχέτιση μπορεί να προέρχεται από τη μήτρα αντίστροφο κλίμακα. Η μερική συσχέτιση χρησιμοποιείται αντί της συσχέτισης για να παρουσιάσει τη σχέση μεταξύ δύο γονιδίων λόγω της ικανότητάς του παραγοντοποίησης έξω την επίδραση άλλων γονιδίων. Ως εκ τούτου, μπορεί να αντανακλά τη σχέση μεταξύ των γονιδίων για διασποράς και μπορούν να θεωρηθούν ως τα δίκτυα ή πορείες για τα γονίδια. Η δήλωση ότι τα περισσότερα γονίδια (γονίδιο προϊόντα) αλληλεπιδρούν μόνο με μερικά γονίδια (γονίδιο προϊόντα) υποδεικνύει την αραιότητας του από την άποψη της βιολογικής ερμηνείας [15]. Έχουμε επιβάλει μια προσαρμοστική ποινή για τις off-διαγώνια στοιχεία της για την αντιμετώπιση της αραιότητας της [29].

Επιπλέον, θεωρείται ότι η ελάχιστες αναφορές του μέσου, το οποίο χρησιμοποιείται συχνά για την επιλογή του γονιδίου. Η μέση βασίζεται σε διακριτική γονίδιο ορίζεται να έχει μέσα διασποράς ειδικά, δεν έχει σημασία αν θα έχει μια κοινή ή ένα σύμπλεγμα συγκεκριμένες διαφορές [20]. Συγκεκριμένα, έχει τουλάχιστον ένα μη μηδενικό αφού τα δείγματα έχουν τυποποιηθεί για να έχουν μέση τιμή μηδέν για κάθε γονίδιο. Ως εκ τούτου, μπορούμε να επιβάλει μια προσαρμοστική ποινή σε κάθε να συρρικνωθεί στο μηδέν [29].

Στη συνέχεια, με βάση την τιμωρούνται λειτουργία log-πιθανότητα που αποτελείται από τη λειτουργία καταγραφής-πιθανότητα και η διάρκεια ποινής, την αντικειμενική συνάρτηση του PMT- UC πρέπει να μεγιστοποιείται είναι η εξής: (3) όπου, και περιλαμβάνει τις μη αρνητικές παραμέτρους νομιμοποίησης και s και s αντίστοιχα. Οι παράμετροι νομιμοποίηση έλεγχο της αραιότητας του μοντέλου. Όσο μεγαλύτερες είναι οι αξίες της και τα περισσότερα γονίδια θα είναι noninformative και ανεξάρτητη. Η προσαρμοστική ποινή είναι μια σταθμισμένη έκδοση της ποινής του με βάρος ή για κάθε συστατικό. Επιτυγχάνει τις τρεις επιθυμητές ιδιότητες ταυτόχρονα ότι μπορούν να παράγουν αραιά διαλύματα, εξασφαλίζει τη συνοχή της επιλογής μοντέλου, και να οδηγήσει σε αμερόληπτη εκτιμήσεις για τις μεγάλες συντελεστές [30].

Συμπερασμός Αλγόριθμος

Αυτή η μελέτη χρησιμοποιεί την προσδοκία μεγιστοποίηση (ΕΜ) αλγόριθμο [31] για τη βελτιστοποίηση της αντικειμενικής συνάρτησης για συγκεκριμένη σταθερή και. Όπως και στο [20], [24], κάθε δείγμα είναι πιθανόν να έχει ένα αντίστοιχο φορέα απαρατήρητο δείκτη, προσδιορίζοντας το συστατικό μείγματος που ανήκει. Αν προέρχεται από συστατικό στη συνέχεια, αλλιώς. Δεδομένου, ακολουθεί κατανομή t του Student με τη συνάρτηση πυκνότητας πιθανότητας. Σύμφωνα με το γεγονός ότι η t κατανομή του Student μπορεί να γραφτεί ως πολυμεταβλητή κατανομή Gauss με τη μήτρα συνδιακύμανσης κλιμακώνεται με την αμοιβαία μιας Gamma τυχαία μεταβλητή, η πρόσθετη ελλείποντα δεδομένα εισάγονται, όπου κάθε στοιχείο του ακολουθεί την κατανομή Γάμμα [32]. Στη συνέχεια, ο τιμωρούνται πλήρη δεδομένων καταγραφής-πιθανότητα της πλήρους δεδομένων είναι (4), όπου μπορεί να εκφραστεί ως το γινόμενο των συναρτήσεων πυκνότητας πιθανότητας των Gaussian και Γάμμα κατανομή (βλ Κείμενο S1 για λεπτομέρειες).

Η ΕΜ αλγόριθμος εφαρμόζει επαναληπτικά ένα βήμα προσδοκία (Ε) για τον υπολογισμό της αναμενόμενης τιμής του σε σχέση με την τρέχουσα εκτίμηση των παραμέτρων κατά την επανάληψη τάξεως, και μία μεγιστοποίηση (Μ) βήμα για να βρείτε τις ενημερωμένες παραμέτρους μεγιστοποιώντας, μέχρι την επίτευξη ενός κριτηρίου ακινητοποίησης.

E βήμα. Η αξία του εξαρτάται από τις ακόλουθες τρεις προσδοκίες (βλ Κείμενο S2 για λεπτομέρειες).

Από ακολουθεί την πολυωνυμική κατανομή και προέρχεται από τη διανομή μείγμα με συνάρτηση πυκνότητας πιθανότητας, η αξία του είναι ίση με (5)

μπορεί να θεωρηθεί ως η οπίσθια πιθανότητα ανήκουν στην ου σύμπλεγμα. Βλέποντας ότι η κατανομή Γάμμα είναι συζευγμένο με τον εαυτό του (self-συζευγμένο) σε σχέση με μια συνάρτηση Gaussian πιθανότητα, έχουμε (6) και

(7), όπου είναι η συνάρτηση Δίγαμμα [32].

M βήμα. Πρώτον, η ενημέρωση του δίνεται από την equationwith τον περιορισμό ως

(8) Κατά δεύτερο λόγο, η αξία του στο ου επανάληψη είναι μια λύση της εξίσωσης (9), όπου. Σε αυτή την εργασία, δεδομένου ότι η λύση του (9) είναι σε μη κλειστή μορφή, η λειτουργία R «nlminb» χρησιμοποιείται για να βρει την αριθμητική λύση για [24].

Τρίτον, ο στόχος είναι να μεγιστοποιηθεί ( 10) για να αποκτήσετε την ενημερωμένη έκδοση για το. Στο στάδιο, οι προσαρμοστικές βάρη ορίζονται να

(11) Η παράμετρος εισάγεται προκειμένου να εξασφαλισθεί η σταθερότητα και για να εξασφαλιστεί ότι ένα μηδενικό αξιόλογο συστατικό μπορεί να ξεφύγει από το μηδέν στην επόμενη επανάληψη [33]. Όταν είναι πολύ μικρή, η μηδενική αξία στοιχείο εξακολουθεί να έχει τόσο μεγάλο βάρος ότι θα παραμείνει μηδέν στην επόμενη επανάληψη. Όταν είναι πολύ μεγάλο, καθιστά τη διαφορά μεταξύ των s ή s δεν είναι σημαντική και επιτρέπει σε πολλούς μη μηδενικό αποτιμώνται συστατικά, με αποτέλεσμα ένα πολύπλοκο και ανακριβή μοντέλο. Έχει ανατεθεί πολλές τιμές κατά τη διάρκεια της διαδικασίας του πειράματος. Έχει αποδειχθεί ότι είναι κατάλληλη. Οι αρχικές εκτιμήσεις και επιλέχθηκε ως αποτελεσμάτων εκτιμάται από την ποινή.

Με την εξέταση της differentiability του σε σχέση με δύο περιπτώσεις ότι και η εκτίμηση ενημέρωση έχει ως εξής (βλέπε Κείμενο S3 για λεπτομέρειες) [20] : αν (12) και στη συνέχεια? Αλλιώς

(13) Μετά την εγκατάλειψη των όρων που δεν σχετίζονται με το, έχουμε (14), όπου

Αυτό το πρόβλημα βελτιστοποίησης μπορεί να λυθεί χρησιμοποιώντας τη γραφική λάσο των οποίων η αντίστοιχη R πακέτο «Glasso» είναι διαθέσιμη στις CRAN [27]. Η γραφική λάσο έχει σχεδιαστεί για να εξετάσει το πρόβλημα της εκτίμησης αραιά γραφήματα από ένα λάσο ποινή εφαρμόζεται στη μήτρα αντίστροφο συνδιασποράς [27]. Είναι πρώτα προτείνεται για την μεγιστοποίηση της Gaussian log-πιθανότητα των στοιχείων σε σχέση με τον πίνακα συνδιασποράς. Η νέα προτεινόμενη μέθοδος λαμβάνει υπόψη, αντί του πίνακα συνδιακύμανσης του δείγματος, όπου περιέχει μια εκ των υστέρων ενημέρωση του δείγματος, και μπορεί να μειώσει την επίδραση των ακραίων τιμών σε αυτό το πρόβλημα βελτιστοποίησης.

Μοντέλο επιλογής

υπάρχουν τρεις παράμετροι που πρέπει να εκτιμηθεί πριν από τον αλγόριθμο PMT-UC, συμπεριλαμβανομένου του αριθμού των συστάδων, τις παραμέτρους ποινικοποίηση και. Στο έγγραφο αυτό, τα ακόλουθα κατά προσέγγιση το βάρος της απόδειξης (AWE) κριτήριο που βασίζεται σε μια προσέγγιση με την ταξινόμηση log-πιθανότητας χρησιμοποιείται για την επιλογή μοντέλου: (15), όπου είναι ο πραγματικός αριθμός των παραμέτρων στο μοντέλο με και [34], [ ,,,0],35]. Επιβάλλει ένα υψηλότερο πρόστιμο στην πιο περίπλοκη από ό, τι το μοντέλο BIC και είναι σε θέση να προσδιορίσει το σωστό αριθμό των συστάδων, ακόμη και όταν οι πυκνότητες συστατικό κακώς προσδιορισμένο [36], [37]. Μια αναζήτηση στο δίκτυο εφαρμόζεται για να βρείτε τη βέλτιστη το οποίο έχει την ελάχιστη AWE.

Δευτερεύων Ανακαλύπτοντας μέσω ομαδοποίησης

Μετά την εκτίμηση των παραμέτρων σε PMT-UC, clusters μπορούν στη συνέχεια να οριστεί ως δείγματα παρακάτω το παρόμοιο διανομής που καθορίζεται από την αξία της οπίσθιας πιθανότητας. Λαμβάνοντας υπόψη ένα δείγμα, PMT-UC προβλέπει ο υπότυπος του καρκίνου του προφίλ γονιδιακής έκφρασης από αυτό που δίνει το μεγαλύτερο οπίσθιο πιθανότητα, αυτό είναι.

Η διαλεύκανση του υποκείμενου δικτύου Δομές

Μπορούμε να τότε διαφωτίσει το υποκείμενες δομές δίκτυο συμπλεγμάτων ειδικά με βάση την μήτρα αντίστροφη κλίμακα. Ένα δίκτυο συμπλεγμάτων ειδικά μπορεί να παρασταθεί ως μη-κατευθυνόμενο γράφημα, με τα γονίδια και τις κορυφές και ακμές, όπως τις σχέσεις τους με βάση. Ακμές συνδέουν αυτά τα γονίδια των οποίων η μερική συσχετίσεις προέρχονται από είναι μεγαλύτερα από. Στη συνέχεια, ένα υποδίκτυο ορίζεται ως ένα σύνολο που περιέχει γονίδια και ακμές που επάγει μια ενιαία συνδεδεμένο συστατικό σε αυτό το δίκτυο. Αυτά τα cluster ειδικά υποδίκτυα δείχνουν τις διαφορετικές σχέσεις μεταξύ των γονιδίων με διάφορους υποτύπους του καρκίνου και θεωρούνται ως οι βασικές δομές του δικτύου.

Δίκτυο που βασίζεται βιοδεικτών Αναγνώριση

Λόγω ότι τα γονίδια σε ένα κύτταρο σπάνια δράσει μόνη της, αλλά σχηματίζουν ένα δίκτυο αλληλεπιδράσεων [14], οι βιοδείκτες που προσδιορίζονται ως υποδίκτυα αλληλεπίδρασης γονιδίων αντί των μεμονωμένων γονιδίων σε αυτό το έγγραφο. Συγκεκριμένα, πρώτον ξεχωρίσω τα υποδίκτυα που ορίζονται παραπάνω. Δεύτερον, λαμβανομένου υπόψη του γεγονότος ότι η θορυβώδης γονίδιο και το πληροφοριακό γονίδιο είναι ασυσχέτιστες μεταξύ τους [20], [38], τα υποδίκτυα που έχουν τουλάχιστον ένα μέσο που βασίζεται διακριτική γονίδιο επιλέγονται ως βιοδείκτες υποδίκτυο. Αυτό κριτήριο επιλογής γονίδιο μπορεί να εντοπίσει γονίδια που δεν εκφράζονται διαφορικά αλλά αλληλεπιδρούν με κάποια διακριτική γονίδια για να σχηματίσουν μια συλλογική βιολογική λειτουργία. Τέλος, τα υπόλοιπα υποδίκτυα του οποίου η εσωτερική δομή (η σχέση μεταξύ των γονιδίων) είναι διαφορετικά μεταξύ θεωρούνται επίσης ως βιοδείκτες για τη διαλεύκανση των υποκείμενων δομών δίκτυο συμπλεγμάτων ειδικών.

Ο τελικός αλγόριθμος για PMT-UC

το σχήμα 1 συνοψίζει τη λεπτομερή αλγόριθμο για την ανακάλυψη υποτύπων καρκίνου, υποκείμενες δομές του δικτύου, και βιοδείκτες που βασίζεται σε δίκτυο μέσω PMT-UC. Για οποιοδήποτε δεδομένο, το αποτέλεσμα του Κ-μέσου χρησιμοποιείται ως αρχικοποίησης για τον αλγόριθμο EM. Προκειμένου να αποφευχθεί η τοπική βέλτιστη Κ-μέσων, διατρέχουμε τον ολόκληρο αλγόριθμο πέντε φορές με τυχαία K-means προετοιμασία, και να επιλέξετε το αποτέλεσμα που δίνει την υψηλότερη τιμή της αντικειμενικής συνάρτησης (3).

Αποτελέσματα και Συζήτηση

προσομοιώσεις

Ένα σύνολο δεδομένων με περιττές γονίδια προσομοιώνεται να αξιολογήσει την ομαδοποίηση, την επιλογή των γονιδίων και του δικτύου απόδοση ανακατασκευή της μεθόδου. Το σύνολο δεδομένων πρέπει δείγματα και ενημερωτικά γονίδια με διάσταση εισόδου. λαμβάνεται να είναι υψηλότερη από ό, τι το μέγεθος του δείγματος κάθε συγκροτήματος, έτσι ώστε η συνδιακύμανση δείγμα κάθε συμπλέγματος δεν είναι αναστρέψιμη. Οι πρώτες ενημερωτικές γονίδια προέρχονται από τη διανομή T a διάστατο πολυπαραγοντική Student για την ου συμπλέγματος. Τα υπόλοιπα θορυβώδη γονίδια τα οποία είναι ανεξάρτητα από τα πληροφοριακά γονίδια είναι ανεξάρτητα και πανομοιότυπα διανέμεται από τη διανομή t μονοπαραγοντική του Student για όλες τις ομάδες. Οι βαθμοί ελευθερίας θα επηρεάσει το επίπεδο θορύβου του συνόλου δεδομένων. Το κάτω οι βαθμοί ελευθερίας οι παχύτεροι ουρές το σύνολο δεδομένων θα έχει.

Κατ ‘αρχάς, το σύνολο δεδομένων με δύο συστάδες προσομοιώνεται, με δείγματα για κάθε ομάδα. Οι τρεις περιπτώσεις που προβλέπονται στα επόμενα πειράματα για να διερευνήσει τις επιπτώσεις των ακραίων τιμών για την απόδοση της μεθόδου [24]. Όταν, η κατανομή της προσομοιωμένης σύνολο δεδομένων είναι κατά προσέγγιση για κατανομή Gauss. Για κάθε μία από τις τρεις περιπτώσεις, οι ακόλουθες τέσσερις set-ups θεωρούνται:

set-up 1 έχει μέσα διασποράς ειδικά με και, και κοινή κλίμακα μήτρα διαγώνια με, όπου είναι διάστατο πλέγμα ταυτότητα

set-up 2 έχει μέσα του συμπλέγματος ειδικά με και, και κοινή κλίμακα μήτρα μη-διαγώνια με. είναι μια αραιή μήτρα συμμετρία που έχει τα διαγώνια στοιχεία και τα μη διαγώνια στοιχεία με την εξαίρεση του,.

set-up 3 έχει μέσο σύμπλεγμα ειδικά με και, και χρησιμοποιεί δύο γενικές μήτρες αραιή κλίμακα που παράγεται από το παρόμοια διαδικασία που περιγράφεται στο [9], [26]. Ένας διαγώνιος πίνακας με ίδια θετική διαγώνια στοιχεία παράγεται κατ ‘αρχάς, στη συνέχεια, ένα δεδομένο αριθμό nonzeros εισάγονται τυχαία στα μη διαγώνια θέσεις συγκεκριμένο τμήμα της μήτρας συμμετρικά. Ο αριθμός των μη μηδενικά μη διαγώνια στοιχεία έχει οριστεί σε. Ένα πολλαπλάσιο της ταυτότητας είναι η προσθήκη στη μήτρα για να εξασφαλιστεί η θετική οριστικότητα. Τέλος, κάθε στοιχείο χωρίζεται από το αντίστοιχο διαγώνιο στοιχείο για τη δημιουργία του πλέγματος αντίστροφη κλίμακα. Σε αυτό το set-up, και.

set-up 4 έχει μέσο διασποράς ειδικά με και, και παρόμοια κλίμακα μήτρες μη διαγώνια ως set-up 3 με και.

Σύμφωνα με την προσομοίωση μοτίβο αναφέρθηκε παραπάνω, θέτουμε, και παρόμοια με εκείνη που εισάγεται στο [20]. Για κάθε set-up, η προσομοίωση επαναλαμβάνεται 50 φορές και είναι εξοπλισμένα με, και.

PMT-UC συγκρίνεται με τιμωρείται βάσει μοντέλων Gaussian ομαδοποίηση με αβίαστη συνδιασποράς (PMG-UC) και τιμωρείται βάσει μοντέλων μαθητή t ομαδοποίησης με διαγώνιο συνδιασποράς (PMT-DC) όσον αφορά τις ακόλουθες criterions αξιολόγησης. Η Rand Index (RI), η προσαρμοσμένη Rand Index (ARI) και οι συχνότητες των επιλεγμένων αριθμών (Ν) των συστάδων (Κ) χρησιμοποιούνται για να εκτιμηθεί η ικανότητα της μεθόδου για την ομαδοποίηση [20]. Προκειμένου να ποσοτικοποιηθεί η ικανότητα της μεθόδου για την ανασυγκρότηση του δικτύου, η απόσταση Hamming δομικό (SHD) μεταξύ πραγματικής και τα προκύπτοντα δίκτυα υπολογίζεται, το οποίο είναι ο αριθμός των διαφορών άκρη για να μετατρέψει το ένα δίκτυο στο άλλο δίκτυο [9]. Το μικρότερο SHD δείχνει την μεγαλύτερη προσέγγιση προς την πραγματική του δικτύου. Τα ακόλουθα δύο δείκτες που χρησιμοποιούνται για την αξιολόγηση της απόδοσης επιλογής γονίδιο, ο αριθμός πληροφοριακών μεταβλητών επιλεγμένων εσφαλμένα να είναι noninformative (ψευδώς αρνητικά, FN) και ο αριθμός των noninformative μεταβλητών σωστά επιλεγμένο (αληθές αρνητικά, ΤΝ) [20].

επίδραση της παραμέτρου.

Η επίδραση της παραμέτρου που έχει σχεδιαστεί για τη σταθερότητα του αλγορίθμου για την απόδοση της PMT-UC συζητείται σε σχέση με τα πέντε μέτρα που θεσπίστηκαν παραπάνω (RI, ARI , SHD, FN και TN). Ιδιαίτερα, διατρέχουμε PMT-UC σε ένα σταθερό σύνολο δεδομένων σύμφωνα με το set-up 4 με τις οποίες το σύνολο δεδομένων έχει υψηλότερο επίπεδο θορύβου, ένα λιγότερα γονίδια με μέσα διασποράς, συγκεκριμένα και ορισμένα γονίδια με δομές δικτύου συμπλεγμάτων ειδικών, με διαφορετικές τιμές ( ). Ο Πίνακας 1 δείχνει τις μέσες τιμές και οι τυπικές αποκλίσεις των πέντε μέτρων σε 50 προσομοιώσεις σε σχέση με διάφορες τιμές του σε αυτό το set-up. Όταν δεν είναι πολύ μεγάλη, η απόδοση αλγόριθμος τείνει να είναι αρκετά ισχυρή για την επιλογή του. Από τα αποτελέσματα με το δείχνουν κάποια βελτίωση σε σχέση με τις άλλες περιπτώσεις, ορίζεται σε 0,1 στα ακόλουθα πειράματα.

Επίδραση της προετοιμασίας.

Η σύγκλιση των PMT-UC έχει μελετηθεί από λαμβάνοντας υπόψη τα αντίστοιχα αποτελέσματα σε σχέση με διαφορετικές initializations χρήση Κ-μέσων. Η μελέτη αυτή εξαρτάται επίσης από το set-up 4 με. Ένα προσομοιωμένο σύνολο δεδομένων είναι σταθερή και η όλη διαδικασία εφαρμόζεται δέκα φορές από τις οποίες κάθε φορά χρησιμοποιεί πέντε K-σημαίνει initializations. Οι τυπικές αποκλίσεις των επιλεγμένων παραμέτρων και των αποτελεσμάτων του πειράματος αυτών των δέκα πειράματα μπορούν να θεωρηθούν ως οι δείκτες αξιολόγησης για τη σύγκλιση των PMT-UC. Για να μειωθεί η μεταβλητότητα, τα πέντε σύνολα δεδομένων που δημιουργούνται, και οι μέσοι όροι και οι τυπικές αποκλίσεις των αποτελεσμάτων για κάθε σύνολο δεδομένων είναι κατάλογος στον Πίνακα 2. Έχει αποδειχθεί ότι τα αποτελέσματα ομαδοποίησης και γονίδιο επιλογής δεν έχουν σημαντική αλλαγή με διαφορετικές initializations. Ωστόσο, η πλήρης αλγόριθμος PMT-UC έχει κάποια διακύμανση όσον αφορά την παράμετρο και την ΕΑΥ αποτελέσματα που αντιστοιχούν στο δίκτυο της ανασυγκρότησης.

Αποτελέσματα ομαδοποίησης.

Τα αποτελέσματα ομαδοποίησης πείραμα τα τέσσερα set-ups με φαίνονται στον πίνακα 3. από τα σύνολα δεδομένων προέρχονται από μια κατά προσέγγιση κατανομή Gaussian κατανομή, τόσο PMT-UC και PMG-UC πάντα προσδιορίσει σωστά τις δύο ομάδες. Για set-ups 1, 2, 3, PMT-UC λειτουργεί ελαφρώς καλύτερα από ό, τι PMG-UC για τον εντοπισμό δομών ομαδοποίηση, όπως συνοψίζονται από τον RI ή ARI στον Πίνακα 3. Για set-up 4, με την παρουσία περισσότερων μεταβλητών θορύβου με βάση για τη μέση, RI και Ari του PMG-UC μειωθεί δραματικά σε 0,734 και 0,47. Για set-up 1 με το αληθινό μοντέλο με μια διαγώνια μήτρα συνδιακύμανσης, τόσο PMT-UC και PMT-DC έχουν παρόμοιες επιδόσεις ομαδοποίηση. Όσο ισχυρότερη είναι οι συσχετίσεις μεταξύ των μεταβλητών, το πιο πιθανό για το PMT-DC για να πάρετε περισσότερες συστάδες κατά λάθος και να έχουν κακή απόδοση ομαδοποίησης. Ειδικά, για PMT-DC με την υπόθεση της ανεξαρτησίας, το σύνολο δεδομένων στο set-up 4 έχει μόνο πέντε ενημερωτικό γονίδια, που οδηγεί σε ποσοστό σφάλματος υψηλής ομαδοποίησης.

Για να διερευνηθεί η επίδραση των ακραίων τιμών, εμείς χρησιμοποιήστε τα μικρότερα μοίρες και. Ο πίνακας 3 δίνει επίσης τα αποτελέσματα για τα τέσσερα set-ups με αυτές τις δύο περιπτώσεις. Όπως αναμενόταν, PMG-UC εκτελεί ανεπαρκώς με μικρότερα βαθμούς, και είναι πιο ευαίσθητα στις ακραίες παρατηρήσεις. Για set-up 1, τα αποτελέσματα ομαδοποίησης των PMT-DC δεν αλλάζουν σημαντικά με τη μείωση των βαθμών για την αξιοπιστία του και την παραδοχή της ανεξαρτησίας. Ωστόσο, συχνά δεν μπορούν να βρουν τις πραγματικές δομές ομαδοποίησης στα άλλα τρία set-ups. Συνοπτικά, τα αποτελέσματα για το set-ups 1-4, όταν αποδεικνύουν ότι PMT-UC έχει καλύτερη απόδοση ομαδοποίησης από PMG-UC και PMT-DC για τα σύνολα δεδομένων με ανεξάρτητη ή συσχετίζονται ενημερωτικό γονίδια, και είναι ανθεκτική στις ακραίες τιμές.

ανακατασκευή δικτύου.

το Σχήμα 2 δείχνει τις Boxplots του συμπλέγματος ειδικά SHD μεταξύ των υπολογισθέντων και αληθινή δίκτυα πάνω από 50 προσομοιώσεις για τις παραπάνω τέσσερις set-ups από τις τρεις περιπτώσεις έχει οριστεί σε 2. Επιπλέον, σχεδιάζουμε το μέσο όρο ελάχιστες αναφορές μοτίβο που είναι η σχετική μήτρα συχνότητας για PMG-UC και PMT-UC. Από PMT-DC προϋποθέτει μια διαγώνια συνδιασποράς, δεν σχεδιάζεται εδώ. Η σχετική μήτρα συχνότητα αποτελείται από τη σχετική συχνότητα του μη μηδενική εκτιμάται για κάθε στοιχείο της μήτρας αντίστροφου κλίμακα πάνω από τα 50 επαναλήψεις. Το Σχήμα 3 δείχνει το σύμπλεγμα-ειδικά αποτελέσματα από τα πρώτα πληροφοριακά γονίδια (βλέπε S4 Κείμενο για τα αποτελέσματα του συνόλου των γονιδίων). Κάνουμε τις ακόλουθες παρατηρήσεις με βάση τα αποτελέσματα που δίδονται στα σχήματα 2 και 3. Σε όλες τις περιπτώσεις, PMT-UC παρέχει μικρότερη SHD σε σχέση με τις άλλες δύο προσεγγίσεις. Όταν με το οποίο t κατανομή του Student είναι παρόμοια με κατανομή Gauss, τόσο PMT-UC και PMG-UC είναι σε θέση να ανακτήσει την αραιή δομή συνδιασποράς αντίστροφη set-up 1. Έχει αποδειχθεί ότι αν και οι δύο PMT-UC και PMG-UC έχουν μη-διαγώνια υπόθεση, μπορούν να πάρουν το διαγώνιο συνδιακύμανσης ως την αλήθεια από ένα αρκετά μεγάλο πρόστιμο για τις off-διαγώνια στοιχεία των πινάκων συνδιακύμανσης αντίστροφο. Για set-up 2, PMT-UC μπορεί να προσδιορίσει με ακρίβεια τη θέση των nonzeros σχεδόν κάθε προσομοίωση. Εν τω μεταξύ, με την υψηλή αξία των off-διαγώνια nonzeros της συνδιακύμανσης, PMG-UC μπορεί επίσης να ανακτήσει το αντίστροφο μοτίβο συνδιακύμανση μερικές φορές. Ωστόσο, όταν οι επιμέρους συσχετίσεις των γονιδίων δεν είναι υψηλά στο set-up 3, με την ποινή, PMG-UC δεν έχει απόδοση ανασυγκρότηση καλό δίκτυο διαφορετικό από αυτό της PMT-UC. Για το set-up 4, με την αύξηση του θορύβου από την άποψη του μέσου, το αποτέλεσμα της PMG-UC είναι ασαφής. Όταν ή με τις οποίες το σύνολο δεδομένων έχει υψηλότερο επίπεδο θορύβου, PMG-UC είναι σε θέση να ανακτήσει τη δομή του δικτύου. Ωστόσο, PMT-UC μπορεί ακόμα να ανακαλύψει τη σχέση μεταξύ γονιδίων στο πλαίσιο του δικτύου.

Σε κάθε κουτί, το κεντρικό σημείο είναι το διάμεσο, τα άκρα του κουτιού είναι οι 25η και 75η εκατοστιαία, τα μουστάκια επεκταθεί η πιο ακραία σημεία των δεδομένων δεν θεωρούνται ακραίες τιμές και οι ακραίες τιμές απεικονίζονται ξεχωριστά. Τα αποτελέσματα παρουσιάζονται για PMT-UC, PMG-UC και PMT-DC στα τέσσερα set-ups από τρεις περιπτώσεις. SHD1 και SHD2 είναι τα αποτελέσματα για την πρώτη και δεύτερη συστάδες, αντίστοιχα

true:. 1 και αληθή: 2 είναι τα τμήματα του αρχικού και που αντιστοιχεί στα πρώτα πληροφοριακά γονίδια για το πρώτο και δεύτερο συστάδες , αντίστοιχα. PMT-UC: 1 και PMT-UC: 2 είναι η εκτίμηση των εν λόγω τμημάτων των πινάκων αντίστροφη κλίμακα χρησιμοποιώντας PMT-UC. PMG-UC: 1 και PMG-UC: 2 είναι η εκτίμηση των εν λόγω τμημάτων των πινάκων συνδιασποράς αντίστροφη χρησιμοποιώντας PMG-UC

επιλογή

Gene

Οι δύο γονιδίων αξιολόγηση επιλογής.. ευρετήρια FN και TN συνοψίζονται επίσης στον πίνακα 3. για τα τέσσερα set-ups, PMG-UC τείνει να ξεχωρίζει περισσότερα γονίδια τα οποία είναι μη κατατοπιστική από PMT-UC και PMT-DC. Στο set-ups 1 και 3, τα πληροφοριακά γονίδια έχουν μέσο διασποράς ειδικά και μπορούν να επιλεγούν από όλες τις τρεις μεθόδους, όταν το σύνολο δεδομένων έχει χαμηλό επίπεδο θορύβου. Για ιδρύσεις 2 και 3, υπάρχουν δύο γονίδια τα οποία δεν εκφράζονται διαφορικά αλλά αλληλεπιδρούν με κάποια διακριτική γονίδια, και πέντε γονίδια τα οποία είναι, επίσης, δεν εκφράζονται διαφορικά αλλά έχουν διαφορετικές υποκείμενες δομές του δικτύου, αντίστοιχα. Ο Πίνακας 3 δείχνει ότι μεταξύ των τριών μεθόδων μόνο PMT-UC μπορούν να ανακαλύψουν αυτά τα γονίδια.

Το σύνολο των δεδομένων με πολλαπλά λεπτά ουρά clusters.

Για μια πρόσθετη δέσμη στοιχείων με πιο λεπτή ουρά συστάδες είναι

Χρόνιες ασθένειες

PLoS One: Καρκίνος Δευτερεύων Discovery και βιοδεικτών Ταυτοποίηση μέσω μιας νέας άρτιας Δίκτυο Clustering Αλγόριθμος