PLoS One: Μια νέα Συνδυαστική προσέγγιση βελτιστοποίησης για την Ολοκληρωμένη Δυνατότητα επιλογής Χρησιμοποιώντας διάφορες τράπεζες δεδομένων: Ένας Καρκίνος του προστάτη Transcriptomic Study


Αφηρημένο

Ιστορικό

Η κοινή μελέτη των πολλαπλών συνόλων δεδομένων έχει γίνει μια κοινή τεχνική για αυξάνοντας στατιστική ισχύ για την ανίχνευση βιοδεικτών που προέρχονται από μικρότερες μελέτες. Η προσέγγιση που ακολουθείται γενικά βασίζεται στο γεγονός ότι ο συνολικός αριθμός των δειγμάτων αυξάνεται, αναμένουμε να έχουν μεγαλύτερη δύναμη για την ανίχνευση ενώσεων που παρουσιάζουν ενδιαφέρον. Η μεθοδολογία αυτή έχει εφαρμοστεί σε γονιδιώματος σε επίπεδο σύνδεσης και transcriptomic μελέτες λόγω της διαθεσιμότητας των συνόλων δεδομένων στο δημόσιο τομέα. Ενώ αυτή η προσέγγιση είναι καθιερωμένη στην βιοστατιστικής, η εισαγωγή νέων μοντέλων συνδυαστικής βελτιστοποίησης για να αντιμετωπίσει αυτό το ζήτημα δεν έχει διερευνηθεί σε βάθος. Σε αυτή τη μελέτη, έχουμε εισαγάγει ένα νέο μοντέλο για την ενσωμάτωση των πολλαπλών συνόλων δεδομένων και δείχνουμε την εφαρμογή της στην transcriptomics.

Μέθοδοι

Προτείνουμε ένα νέο πρόβλημα συνδυαστικής βελτιστοποίησης που αντιμετωπίζει το βασικό θέμα της βιοδείκτη ανίχνευση σε ολοκληρωμένα σύνολα δεδομένων. Βέλτιστες λύσεις για αυτό το μοντέλο προσφέρει μια επιλογή χαρακτηριστικών από ένα πίνακα των υποψηφίων βιοδεικτών. Το μοντέλο που προτείνουμε είναι μια γενικευμένη έκδοση του

,

β) -k

-Feature Σετ πρόβλημα. Εμείς απεικονίζουν την απόδοση αυτής της νέας μεθοδολογίας μέσω δύσκολο έργο μετα-ανάλυση που περιλαμβάνει έξι προστάτη σύνολα δεδομένων καρκίνο μικροσυστοιχιών. Τα αποτελέσματα συγκρίνονται με το εργαλείο μετα-ανάλυση δημοφιλή RankProd και για το τι μπορεί να επιτευχθεί με την ανάλυση των επιμέρους σύνολα δεδομένων από μόνη της στατιστικής και συνδυαστικές μεθόδους.

Αποτελέσματα

Η εφαρμογή της ολοκληρωμένης μεθόδου είχε ως αποτέλεσμα σε μια πιο κατατοπιστική υπογραφή από την κατάταξη με βάση το μετα-ανάλυση ή επιμέρους αποτελέσματα του συνόλου δεδομένων, και ξεπερνά τα προβλήματα που προκύπτουν από την πραγματική παγκόσμια σύνολα δεδομένων. Το σύνολο των γονιδίων που ταυτοποιούνται είναι ιδιαίτερα σημαντική στο πλαίσιο καρκίνου του προστάτη. Η μέθοδος που χρησιμοποιείται δεν βασίζεται σε ομογενοποίηση ή μετασχηματισμού των αξιών σε μια κοινή κλίμακα, και την ίδια στιγμή είναι σε θέση να συλλάβει δείκτες που σχετίζονται με τις υποομάδες της νόσου

Παράθεση:. Puthiyedth Ν, Riveros C, Berretta R , Moscato P (2015) Μια νέα Συνδυαστική προσέγγιση βελτιστοποίησης για την Ολοκληρωμένη Δυνατότητα επιλογής Χρησιμοποιώντας διάφορες τράπεζες δεδομένων: Ένας Καρκίνος του προστάτη Transcriptomic Μελέτη. PLoS ONE 10 (6): e0127702. doi: 10.1371 /journal.pone.0127702

Ακαδημαϊκό Επιμέλεια: Holger Fröhlich, Πανεπιστήμιο της Βόννης, Βόννη-Άαχεν Διεθνές Κέντρο για την ΤΠ, Γερμανία

Ελήφθη: 3 Νοέμβρη, 2014? Αποδεκτές: 17 Απρ 2015? Δημοσιεύθηκε: 24 Ιουνίου 2015

Copyright: © 2015 Puthiyedth et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Δεδομένα Διαθεσιμότητα: Singh σύνολο δεδομένων είναι διαθέσιμο στο δικτυακό τόπο Ινστιτούτο Broad Πρόγραμμα Καρκίνου Legacy πόροι δημοσίευσης: https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N01-N31.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N32-N62.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T01-T30.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T31-T62.CEL.tar.gz. Ουαλίας σύνολο δεδομένων είναι διαθέσιμο στο Ινστιτούτο Γονιδιωματικής της Έρευνας της Novartis https://www.stat.cmu.edu/~jiashun/Research/software/HCClassification/Prostate/GNF_prostate_data_CR61_5974.xls. Uma σύνολο δεδομένων είναι διαθέσιμο σε ArrayExpress: (https://www.ebi.ac.uk/arrayexpress/experiments/E-GEOD-6919/) υπό τον αριθμό πρόσβασης E-GEOD-6919. . L-2695, L-3044 και L-3289 σύνολα δεδομένων είναι διαθέσιμα στο Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) υπό τον αριθμό πρόσβασης GSE3933

Χρηματοδότηση: PM υποστηρίζεται από το Αυστραλιανό Συμβούλιο Έρευνας (ARC, https://www.arc.gov.au/) μέλλον Fellowship FT120100060. Αυτό το έργο χρηματοδοτείται εν μέρει από την ARC Discovery Έργου DP120102576, Αυστραλία

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Η εξαγωγή των πληροφοριών που προκύπτουν από την ενοποίηση των πολλαπλών συνόλων δεδομένων και η μετάφρασή της σε γνώση του τομέα είναι ένα σημαντικό πρόβλημα σε πολλούς τομείς. Σήμερα, όλο και περισσότεροι βιολογία και την υγεία που σχετίζονται με μελέτες σε όλο τον κόσμο που ασχολούνται με την χρήσιμη πολιτική αφήνοντας πρώτων αποτελεσμάτων τους διαθέσιμα για το κοινό καλό, μέσω βάσεων δεδομένων δημόσιο τομέα. Αυτή η ανοιχτή ανταλλαγή έχει ωφελήσει την επαναληψιμότητα των αποτελεσμάτων άλλων ερευνητών. Οι υφιστάμενες σε απευθείας σύνδεση σύνολα δεδομένων γίνονται επίσης πολύ χρήσιμο για την ανάπτυξη νέων μαθηματικών και υπολογιστικών προσεγγίσεων για την αναγνώριση προτύπων, μηχανική μάθηση και μεθόδους τεχνητής νοημοσύνης. Αυτή η υγιής πρακτική της ανταλλαγής δεδομένων τώρα υιοθετείται όλο και περισσότερο από τις κυβερνήσεις και επιστημονικά περιοδικά. Ο ιδιωτικός και δημόσιος τομέας συμμετέχει επίσης σε «διαγωνισμούς εξόρυξης δεδομένων», στην οποία οι σύνολα δεδομένων γίνονται ευρέως διαθέσιμα και πλήθος προέλευσης για την ανάλυση δεδομένων. Σε αυτή τη νέα, ψηφιακή και διασυνδεδεμένο παγκόσμιας έρευνας της επιχείρησης ανοικτά δεδομένα, αυτό είναι σίγουρα μια καλή κατεύθυνση για την επιστήμη, την έρευνα και την ανάπτυξη και είμαστε σίγουροι για να επιβεβαιώσει ότι αυτή η τάση είναι εδώ για να μείνει.

Ο όρος «μετα ανάλυσης »αναφέρεται γενικά σε μια ολοκληρωμένη μελέτη η οποία στοχεύει στην ανάπτυξη ενός συναίνεση των ευρημάτων από μεμονωμένες μελέτες. Μερικές φορές οι συγγραφείς χρησιμοποιούν τον όρο αυτό και όχι αόριστα σημαίνει μόνο ένα «επανεξέταση» του συνόλου των υφιστάμενων μελετών που είναι ανεξάρτητα λαμβάνονται, αλλά σχετίζεται με μια σειρά κοινών ερωτήσεων ενδιαφέροντος [1]. Όταν πληρούνται ορισμένες προϋποθέσεις, μια ολοκληρωμένη μελέτη μπορεί να βοηθήσει να βελτιώσει τη δύναμη της ανάλυσης, αυξάνοντας το συνολικό αριθμό των δειγμάτων υπό εξέταση [2]. Μετα-αναλύσεις είναι επίσης ένα σημαντικό εργαλείο όταν κάποια από τις υπάρχουσες μελέτες έχουν αντικρουόμενα συμπεράσματα [3] και ο γενικός στόχος είναι να τα επιλύσουν, αν είναι δυνατόν. Αυξάνοντας τη δύναμη ανίχνευση των μικρότερων μελετών με την ενσωμάτωσή τους σε μια μεγαλύτερη μελέτη έχει γίνει επίσης ένας τρόπος για να ξεπεραστούν οι περιορισμοί της χρηματοδότησης της έρευνας. Αυτό ισχύει ιδιαίτερα στην transcriptomics, και υπάρχει μια αδιαμφισβήτητη ανάγκη για νέα μαθηματικά μοντέλα και αλγορίθμους με στόχο την άντληση πληροφοριών από κοινού μελετώντας διαφορετικά σύνολα δεδομένων τα οποία συχνά περιέχουν πληροφορίες που εξάγονται με διαφορετικές και συνεχώς μεταβαλλόμενες τεχνολογικές πλατφόρμες.

Η ύπαρξη μεγάλου αριθμού των διαθέσιμων στο κοινό transcriptomic μελέτες δίνει ένα ισχυρό κίνητρο για την ανάπτυξη νέων μαθηματικές μεθόδους που βοηθούν για να εξαγάγετε

πάνελ βιοδεικτών

χρησιμοποιώντας διάφορα σύνολα δεδομένων μικροσυστοιχιών. Παρά τον αυξανόμενο αριθμό των μελετών, μια γενική συναίνεση έχει ακόμα επιτευχθεί σχετικά με το πώς να το κάνετε αυτό [4, 5]. Οι ερευνητές τονίζουν μερικές φορές μόνο τα εμπόδια μπροστά, για παράδειγμα, από δείχνοντας τις βασικές διαφορές στις πλατφόρμες μικροσυστοιχιών, πειραματικά σχέδια, τις διαδικασίες συλλογής δειγμάτων, ανομοιογένειες των εργαστηριακών πρωτοκόλλων και τις μεθόδους ανάλυσης που χρησιμοποιούνται για τη μελέτη [6]. Οι περισσότερες από τις μελέτες που είναι σε θέση να παράσχει μια σαφή απάντηση στο ερώτημα του ενδιαφέροντος δεδομένου ότι πολύ λίγα δείγματα τέθηκε σε μελέτη [7]. Ωστόσο, όλα αυτά τα ζητήματα σύγχυσης πρέπει να ληφθούν υπόψη και προβάλλοντας τους δεν μειώνει την ανάγκη να αναπτυχθεί ολοκληρωμένη τεχνικές για την από κοινού πίνακα των βιοδεικτών εκμαίευση.

Πολλές μελέτες έχουν δείξει ότι είναι δύσκολο να αποκτήσει ένα αξιόπιστο αποτέλεσμα από μια ενιαίο σύνολο δεδομένων [8-11]. Ακόμα κι αν κάποιοι ερευνητές μπορεί τελικά να προμηθευτεί τους οικονομικούς πόρους για τη διεξαγωγή μελετών με μεγάλο αριθμό δειγμάτων, οδηγώντας σε μεγαλύτερη δύναμη για να εντοπίσει μεμονωμένους δείκτες, μια ολοκληρωμένη μελέτη μπορεί να δώσει μια σαφέστερη εικόνα ως το τελικό αποτέλεσμα θα αναζητήσουν συναίνεση σε μια σειρά από μεμονωμένες μελέτες . Αυτό δείχνει την ανάγκη για την ανάπτυξη συνδυαστικών προσεγγίσεων βελτιστοποίησης που βασίζεται για να καθορίσει μια σημαντική λίστα των γονιδίων από πολλαπλές πλατφόρμες, όταν ψάχνουμε σε ένα πάνελ που δρα από κοινού για ένα έργο διακρίσεις σε αρκετές μελέτες.

Ένταξη

δεδομένα Multi-πλατφόρμα παραμένει δύσκολο, καθώς τα σύνολα δεδομένων από διαφορετικά πειράματα δεν είναι άμεσα συγκρίσιμα, λόγω των παραγόντων που συνδέονται με την παραγωγή του συνόλου δεδομένων [12]. Μερικές από τις προκλήσεις είναι απλώς τεχνικό χαρακτήρα, για παράδειγμα, τα γονιδιακά δεδομένα μπορούν να έρχονται σε μια ευρεία ποικιλία των μορφών δεδομένων, καθιστώντας έτσι την άμεση ένταξη δύσκολη. Τα σύνολα δεδομένων μπορούν να μετατραπούν σε μια κοινή μορφή των δεδομένων πριν από το συνδυασμό τους, αλλά αυτό δεν είναι πάντα εφικτό [13]. Αρκετές μέθοδοι έχουν προταθεί κατά τα τελευταία χρόνια για την μετα-ανάλυση των δεδομένων γονιδιακής έκφρασης για να βρει το σύνολο των σημαντικών γονιδίων μεταξύ των επιλεγμένων σύνολα δεδομένων. Οι υπάρχουσες μέθοδοι μετα-ανάλυση είτε εκτελούν στατιστικά στοιχεία για κάθε σύνολο δεδομένων ή ενσωματώνουν όλα τα επιλεγμένα σύνολα δεδομένων σε μια ενιαία μεγάλου όγκου δεδομένων για να εκτιμηθεί η διαφορική γονιδιακή έκφραση. Μια μέθοδος που βασίζεται κατάταξη που προτείνει Breitling

et al

. [14] και αργότερα αναπτύχθηκε από το Χονγκ

et al

. στο πακέτο RankProd Bioconductor [15], χρησιμοποιεί τις φορές αλλαγές μεταξύ όλων των interclass ζευγάρι των δειγμάτων για τον υπολογισμό τάξεις σύνολο δεδομένων για κάθε γονίδιο, στη συνέχεια, συνδυάζει τάξεις με το γεωμετρικό μέσο των βαθμίδων σε όλη ζευγών δειγμάτων. MetaArray είναι μια άλλη μέθοδος μετα-ανάλυση που προτείνει Choi

et al

. [16] στην οποία τα δεδομένα μετατρέπονται σε πιθανότητα έκφρασης [17] που ακολουθείται από την διήθηση των γονιδίων με βάση την ανάλυση ενοποιητική συσχέτισης. Mergemaid [18] είναι ένα άλλο πακέτο για την μετα-ανάλυση που βοηθά να ενσωματώσει ετερογενή σύνολα δεδομένων πλατφόρμα βάσει των ταυτοτήτων χρηστών που παρέχονται από τα γονίδια. Η τυποποιημένη συντελεστές παλινδρόμησης και Ζ-βαθμολογίες χρησιμοποιούνται ως μέτρο για τη διαδικασία επιλογής γονίδιο σχηματίσει το ενιαίο σύνολο δεδομένων. Αν και αυτές οι μέθοδοι είναι σε θέση να επιλέξετε υπογραφές από το ολοκληρωμένο σύνολο δεδομένων της ετερογενείς πλατφόρμες, δεν είναι σε θέση να ασχοληθεί με τα γονίδια που δεν εκπροσωπούνται σε όλα τα σύνολα δεδομένων. Μια πρότεινε πρόσφατα η μέθοδος ονομάζεται NetSel [19] είναι μια ευρετική μέθοδος συγκέντρωσης κατάταξη για την επιλογή χαρακτηριστικό που μπορεί να εφαρμοστεί σε ετερογενές σύνολο καταλόγων. Ωστόσο, RankProd είναι μακράν η πιο δημοφιλής από αυτές τις μεθόδους, και έχουμε επιλέξει ως σημείο αναφοράς σύγκρισης.

Ο στόχος αυτού του άρθρου είναι να παρουσιάσει μια νέα μέθοδο για την ενσωμάτωση των συνόλων δεδομένων γονιδιακής έκφρασης μικροσυστοιχιών που μπορεί να έχουν ληφθεί χρησιμοποιώντας διαφορετικές πλατφόρμες. Το κάνουμε αυτό χωρίς να χρειάζεται να μετατρέψει τις τιμές σε μια κοινή ενιαία μορφή και το εύρος των τιμών. Προτείνουμε επίσης μια νέα προσέγγιση συνδυαστικής βελτιστοποίησης για να επιλέξετε το καλύτερο σύνολο των κοινών χαρακτηριστικών που μπορεί να διακρίνει τις δεδομένες τάξεις. Η μέθοδος είναι μια γενικευμένη έκδοση του αποδεδειγμένα και πολύ επιτυχημένη

,

β) -k

-Feature Σετ μεθοδολογία προηγουμένως για πρώτη φορά από την ομάδα μας [20, 21] και δείχνουμε εδώ πώς μπορεί να εφαρμοστεί στο συνδυασμένο σύνολο δεδομένων. Αξιολογούμε τις νέες μας μέθοδο αναλύοντας την ενσωμάτωση των έξι σύνολα δεδομένων καρκίνου του προστάτη που παράγονται χρησιμοποιώντας διαφορετικές πλατφόρμες και υπογραμμίσει τα κύρια ευρήματα της. Γυρνάμε σκόπιμα την προσοχή μας σε σχετικά μικρό και σχετικά παλαιά σύνολα δεδομένων, κάπως δεν λαμβάνονται υπόψη ως δυνητικά «πληκτικός» λόγω των προκαταβολών της τρέχουσας βιοτεχνολογιών. Συγκρίνουμε τα ολοκληρωμένα αποτελέσματα σε σχέση με τη συλλογή των αποτελεσμάτων των ατομικά εφαρμόζοντας παραδοσιακές στατιστική ανάλυση και το

,

β) -k

-Feature μεθοδολογία που σε κάθε σύνολο δεδομένων. Στόχος μας είναι να απεικονίζουν τις δυνατότητες της δευτεροβάθμιας αναλύσεις αυτών των συνόλων δεδομένων με τη χρήση της προτεινόμενης τεχνικής

Η δομή του άρθρου έχει ως εξής.? τα υλικά και οι μέθοδοι που χρησιμοποιούνται σε αυτό το έγγραφο εξηγείται λεπτομερώς στο τμήμα 2? στην Ενότητα 3 παρουσιάζουμε τα αποτελέσματά μας με την εφαρμογή της προτεινόμενης ενοποίησης και διαθέτουν μέθοδο επιλογής για σύνολα δεδομένων καρκίνο του προστάτη. Στην Ενότητα 4 παρουσιάζουμε κάποια συζήτηση με βάση το αποτέλεσμα. Τμήμα 5 δίνει ένα συμπέρασμα αυτής της μελέτης και τις μελλοντικές κατευθύνσεις.

Υλικά και Μέθοδοι

2.1 Σύνολα

συλλέχθηκαν Οι έξι διαθέσιμες στο κοινό σύνολα δεδομένων γονιδιακής έκφρασης του καρκίνου του προστάτη που χρησιμοποιούνται σε αυτή τη μελέτη από την έκφραση γονιδίων Omnibus (GEO) ή από την αρχική πηγή. Τα στοιχεία όλων των συνόλων δεδομένων σε αυτό το έργο συνοψίζονται στον Πίνακα 1.

Η

Τα επιλεγμένα σύνολα δεδομένων έχουν δημιουργηθεί χρησιμοποιώντας δύο διαφορετικές πλατφόρμες. Τα επίπεδα έκφρασης του γονιδίου από τρεις από αυτούς μετρήθηκαν χρησιμοποιώντας συστοιχίες δύο καναλιών cDNA και οι άλλοι τρεις χρησιμοποιώντας συστοιχίες Affymetrix. Τα σύνολα δεδομένων ονομάζονται σύμφωνα με το όνομα του πρώτου συγγραφέα του δημοσιευμένο άρθρο. Όπως φαίνεται, τα τελευταία τρία σύνολα δεδομένων που συλλέγονται μορφή το ίδιο άρθρο, έτσι ώστε τα σύνολα δεδομένων έχουν ονομαστεί με την αρχική και η πλατφόρμα GEO αριθμό του πρώτου συγγραφέα (π.χ.. L-2695). Λεπτομέρειες για τα σύνολα δεδομένων έχουν ως εξής.

Στο [22], Singh et al. εισήγαγε ένα μοντέλο πρόβλεψης αποτέλεσμα να γίνεται διάκριση μεταξύ του όγκου και φυσιολογικά δείγματα. Το σύνολο των δεδομένων που χρησιμοποιούνται σε αυτή τη μελέτη περιέχει 102 δείγματα ιστών συλλέγονται μετά από ριζική προστατεκτομή. Το δείγμα αποτελείται από 50 φυσιολογικά δείγματα και 52 στοιχειώδη δείγματα καρκίνου του προστάτη. Αυτό το σύνολο δεδομένων δημιουργήθηκε χρησιμοποιώντας (GPL8300) συστοιχίες Affymetrix HG-U95A v2.

Το δεύτερο σύνολο δεδομένων έχει εισφέρει Welsh et al. [23] το 2001. Η μελέτη ερευνά μια θεραπευτική προσέγγιση για τη διαφοροποίηση του όγκου και φυσιολογικών δειγμάτων. Το σύνολο δεδομένων περιέχει 55 δείγματα που υβριδικές να HG-U95A v2 (GPL8300) συστοιχίες. Τα δείγματα του πρωτογενούς όγκου 25 και 9 φυσιολογικούς ιστούς και τα υπόλοιπα ελήφθησαν δείγματα από διαφορετικούς δότες με διαφορετικούς τύπους καρκίνων.

Το τρίτο σύνολο δεδομένων έχει δημοσιευθεί Ούμα et al. το 2007 [24]. Η μελέτη αυτή εισάγει ένα πειραματικό σχεδιασμό για την αντιμετώπιση των διαφορών στον κυτταρικό περιεχόμενο μεταξύ πρωτογενών και μεταστατικών όγκων. Το σύνολο δεδομένων περιέχει 63 δείγματα καρκινικού ιστού και 17 δείγματα φυσιολογικού ιστού και έχει παραχθεί χρησιμοποιώντας συστοιχίες Affymetrix HGU95Av2.

Lapointe et al. [25] εισήγαγε μια ιεραρχική τεχνική ομαδοποίησης να διακρίνει όγκου από φυσιολογικά δείγματα και να προσδιορίσουν τις υποκατηγορίες του καρκίνου του προστάτη το 2004. Η μελέτη αυτή πραγματοποιήθηκε με τη χρήση τριών διαφορετικών συνόλων δεδομένων που παράγονται χρησιμοποιώντας συστοιχίες δύο καναλιών cDNA? η πρώτη Lapointe σύνολο δεδομένων (L-2695) περιέχει 26 δείγματα (13 πρωτογενείς ιστό του όγκου, 9 φυσιολογικό ιστό και 4 δείγματα μετάσταση των ιστών). Το δεύτερο σύνολο δεδομένων Lapointe (L-3044), με συνολική καταμέτρηση δείγμα 41, έχει 23 δείγματα πρωτογενούς όγκου, 16 δείγματα φυσιολογικού και 2 δείγματα μετάσταση. Το τρίτο σύνολο δεδομένων (L-3289) περιέχει συνολικά 45 δείγματα, εκ των οποίων 26 είναι πρωτοπαθούς όγκου, 16 κανονική και 3 δείγματα μετάσταση.

Έχουμε περιορισμένη μελέτη μας μόνο σε εκείνα τα δείγματα τα οποία προέρχονται είτε σε πρωτογενείς όγκους ή φυσιολογικό ιστό. Ο συνολικός αριθμός των δειγμάτων είναι τότε 319, από τα οποία 202 είναι πρωτοπαθείς όγκους και τα υπόλοιπα είναι από φυσιολογικό ιστό.

2.2 Ενσωμάτωση μέθοδο

Η άμεση ενσωμάτωση των δεδομένων γονιδιακής έκφρασης μικροσυστοιχιών από πολλαπλές πλατφόρμες είναι κατ ‘αρχήν, διευκολύνεται σε μεγάλο βαθμό όταν υπάρχει κοινά στοιχεία μεταξύ των πλατφορμών που χρησιμοποιούνται. Ωστόσο διαφορετικές πλατφόρμες γονιδιακής έκφρασης θα στοχεύσει γονιδίων ή μεταγραφημάτων διαφορετικά με τη χρήση διαφόρων συνόλων ανιχνευτών. Μπορεί να υπάρχουν πολλοί ανιχνευτές χαρτογράφησης του ίδιου γονιδίου οφείλεται σε διπλότυπο στίγματα ανιχνευτές σε chips μικροσυστοιχίας. Από την άλλη πλευρά, μπορεί να υπάρχει ένα μόνο καθετήρα που χαρτογραφεί σε διάφορα γονίδια (ή loci) εάν η εξειδίκευση της αλληλουχίας ανιχνευτή δεν είναι αρκετά καλή. Αυτοί οι ανιχνευτές πρέπει να απορρίπτεται από την προκαταρκτική ανάλυση, δεδομένου ότι είναι δύσκολο να αναλυθούν αυτά τα πολλαπλά γονίδια. Επιπλέον, η ερμηνεία των αποτελεσμάτων μέσω Γονιδιακή Οντολογία ή βάσεις δεδομένων μονοπάτι ενημερωμένοι θα μπορούσε να τεθεί σε κίνδυνο από τα προβλήματα πολλαπλές χαρτογράφησης. Εκτός από αυτές τις δυσκολίες, μπορούμε επίσης να αντιμετωπίσουμε το πρόβλημα ότι ένας ανιχνευτής που απευθύνονται σε διαφορετικές περιοχές του ίδιου γονιδίου θα μπορούσε να είναι έμμεση παρακολούθηση πιθανές διαφορετικές αφθονία των ισομορφών της πρωτεΐνης. Αυτή πολλά-προς-πολλά φύση του προβλήματος χαρτογράφησης καθιστά δύσκολο να πάρετε μια απλοϊκή προσέγγιση για τις ουσιαστικά διαφορετικές χάρτες που πλατφόρμες παράγουν από σύνολα ελέγχων τους.

Σε αυτή τη συμβολή, έχουμε χαρτογραφήσει σε επίπεδο γονιδίου. Προκειμένου να χαρτογραφήσει τις ανιχνευτές σε όλες τις πλατφόρμες στον Πίνακα 1 στα γονίδια, έχουμε χρησιμοποιήσει μια απλή πολιτική ευθυγράμμισης, εξηγείται παρακάτω? χωρίς διάκριση των ισομορφών και αγνόησε τα προβλήματα που αναφέρθηκαν. Οι ανιχνευτές χαρτογραφήθηκαν χρησιμοποιώντας την έκδοση hg19-GRCh37 του πίνακα του προγράμματος περιήγησης Γονιδιώματος που παράγεται από το γονιδίωμα Κοινοπραξία αναφοράς για την αποφυγή της misnaming και κακή ευθυγράμμιση των γονιδίων. Για να αποκτήσει ένα σχετικά μεγάλο αριθμό των ανιχνευτών που θα μπορούσαν να χρησιμοποιηθούν στο τελικό ολοκληρωμένο σύνολο δεδομένων, που συλλέγονται εκείνα που ικανοποιούν οποιαδήποτε από τις τρεις δεδομένες συνθήκες:

Σε περίπτωση που οι ανιχνευτές στοχεύουν την ίδια ακολουθία

Σε περίπτωση που οι ακολουθίες στόχευσης επικαλυπτόμενες

Όταν οι ακολουθίες στόχευσης βρίσκονται σε απόσταση το πολύ 1000 ζεύγη βάσεων

η

οι ανιχνευτές από κάθε σύνολο δεδομένων έχουν χαρτογραφηθεί με τα γονίδια και το σχετικό έναρξης της μεταγραφής και το τέλος θέση των γονιδίων που στοχεύουν σε σύγκριση σύμφωνα με τις προϋποθέσεις που αναφέρονται παραπάνω. Κάθε φορά που υπάρχει μια κοινή στόχευση γονιδίων για διαφορετικούς ανιχνευτές από πολλαπλά σύνολα δεδομένων, θεωρούμε τους διαφορετικούς συνδυασμούς αυτών των ανιχνευτών στο συνδυασμένο σύνολο δεδομένων. Ομοίως, αν τα χαρακτηριστικά (η αρχή και το τέλος της μεταγραφής αλληλουχίες) έχουν μια επικάλυψη μεταξύ τους, ή βρίσκονται σε απόσταση το πολύ 1000bp, ο συνδυασμός αυτών των παραγόντων επισημάνσεως επιλέγεται επίσης να είναι μέρος του συνδυασμένου συνόλου δεδομένων. Η επιλεγμένη λίστα του συνδυασμού των ανιχνευτών δίνεται στο Συμπληρωματικό Υλικά (S1 πίνακα). Κάθε μοναδικό συνδυασμό των ανιχνευτών από διαφορετικά σύνολα δεδομένων γίνεται ένα χαρακτηριστικό στο συνδυασμένο σύνολο δεδομένων.

2.3 Feature μέθοδο επιλογής

Αρχικά, χρησιμοποιήσαμε Φαγιάντ και Irani της εντροπίας που βασίζεται ευρετική για κάθε σύνολο δεδομένων για να αφαιρέσετε uninformative χαρακτηριστικά. Αυτή η μονοπαραγοντική μηχανισμός επιλογής είναι ένα βήμα προ-επεξεργασίας που σχετίζονται με την ελάχιστη Περιγραφή Μήκος Αρχή (MDL) [26]. Ο σκοπός της χρήσης αυτό το βήμα σε αυτή τη μέθοδο είναι διττός: αφαιρεί χαρακτηριστικά που δεν διαφέρουν σημαντικά σε υγιή και νόσο δείγματα (έτσι βοηθά με τη μείωση της διάστασης του προβλήματος), και το δεύτερο βοηθά discretise τις τιμές (οι οποίες με τη σειρά τους διευκολύνουν η συνδυαστική προσέγγιση).

σε αυτήν την συμβολή σας προτείνουμε και να αναλύσει μια νέα συνδυαστική προσέγγιση για να επιλέξετε μια σειρά από

k

σημαντικά χαρακτηριστικά που μπορεί να εξηγήσει το multi-platform ολοκληρωμένη σύνολα δεδομένων. Καλούμε αυτό το πρόβλημα η Χρωματιστά

,

β) -k

-Feature Σετ πρόβλημα. Η προσέγγιση είναι μια γενικευμένη έκδοση του

,

β) -k

-Feature Σετ πρόβλημα μεθοδολογία [27, 28], η οποία είναι μια επιβλεπόμενη μέθοδο επιλογής χαρακτηριστικών για να επιλέξετε ένα σημαντικό σύνολο χαρακτηριστικά που μπορούν συλλογικά διαχωρισμό των ομάδων του δείγματος. Η μέθοδος έχει χρησιμοποιηθεί επιτυχώς σε αρκετές μελέτες με Moscato et al. για την εύρεση βιοδεικτών για διάφορες ασθένειες [20, 21, 28-34].

Το

,

β) -k

-Feature Σετ πρόβλημα παρέχει ένα σημαντικό σύνολο των γονιδίων που μεγιστοποιούν συλλογικά τη διάκριση μεταξύ κατηγορίας και της συνοχής εντός της τάξης [33]. Η μέθοδος επιδιώκει να διαφοροποιήσει όλα τα ζεύγη δειγμάτων που ανήκουν σε διαφορετικές κατηγορίες, επιλέγοντας ένα ελάχιστο σύνολο των γονιδίων που δεν παρουσιάζουν κατ ‘ανάγκην ένα ομοιόμορφο επίπεδο έκφρασης σε όλη δείγματα σε κάθε κατηγορία, αλλά συλλογικά παρέχουν το μέγιστο ποσό των αποδείξεων. Σε αντίθεση, οι μέθοδοι βαθμό που σκοράρει και τα γονίδια τάξη με διαφορική έκφραση τους σε όλες τις κατηγορίες φέρει σύνολα γονιδίων που μπορεί να μην δουλεύουν μαζί σαν μία υπογραφή, ιδιαίτερα σε πολύπλοκες ασθένειες των οποίων το μοριακό χαρακτηρισμό μπορεί να παρουσιάσει υποομάδες.

Οι αναφερόμενες επιλογή χαρακτηριστικών μέθοδος λειτουργεί καλά με ένα μόνο ομοιόμορφο σύνολο δεδομένων, αλλά όχι για ένα ολοκληρωμένο σύνολο δεδομένων. Η Χρωματιστά

,

β) -k-

Feature Set πρόβλημα χειρίζεται το ολοκληρωμένο σύνολο δεδομένων με συνεπή τρόπο και επιλέγει τα χαρακτηριστικά που διαφοροποιούν τα ζεύγη δειγμάτων σε όλες τις βάσεις δεδομένων. Η εφαρμογή ενός

,

β) -k-

Feature Set πρόβλημα μέθοδος που βασίζεται για την μετα-ανάλυση, επομένως βοηθά να παρέχει την καλύτερη σειρά από χαρακτηριστικά από το συνδυασμένο σύνολο δεδομένων, επιτρέποντας στους ερευνητές να αποκαλύψουν τα γενετικά μονοπάτια που συμμετέχουν στην ανάπτυξη της νόσου.

Εδώ παρουσιάζουμε πιο επίσημα τις εκδόσεις απόφαση της γενίκευσης του

k

-Feature Ρυθμίστε το πρόβλημα ονομάζεται το

,

β) -k

-Feature Σετ πρόβλημα, η Χρωματιστά

,

β) -k

-Feature Σετ πρόβλημα και η Γενικευμένη

,

β) -k

-Feature Σετ πρόβλημα. Σε ό, τι ακολουθεί, ας αντιπροσωπεύουν το σύνολο των δυαδικών τιμών, δηλαδή ας

ν

είναι ο αριθμός των χαρακτηριστικών και

m

τον αριθμό των δειγμάτων,

σ

είναι ο αριθμός των ομάδες του δείγματος (δηλαδή, διαφορετικές πλατφόρμες /ομάδες /σύνολα δεδομένων) και η πλειάδα

y

να είναι οι ετικέτες κατηγορίας των δειγμάτων.

2.3.1 (α, β) -Κ-Feature Set.

Πρωτοδικείο :.

ένα σύνολο, μια πλειάδα

y

Β

m

, ακέραιοι

α

& gt? 0,

β

≥ 0,

k

& gt? 0

Παράμετροι :.

α

,

β

και

k

Η

Ερώτηση:.

υπάρχει ένα σύνολο

I

⊆ {1, …, em

ν

} με |

I

| ≤

k

τέτοια ώστε για όλα τα

i

,

ι

∈ {1, …,

m

}

Εάν

y

i

≠ em

y

ι

υπάρχει με τέτοιο ώστε

x

i

,

s

x

ι

,

s

για όλους

Εάν

y

i

=

y

ι

υπάρχει με τέτοιο ώστε

x

i

,

s

=

x

ι

,

s

για όλους

Η

λεπτομερής επεξήγηση της ασφαλούς κανόνες μείωσης που βοηθούν να μειωθεί η διάσταση του

,

β) -k

Feature Set πρόβλημα δίνονται στο [20, 32].

2.3.2 Χρωματιστά

,

β) -k-

σύνολο χαρακτηριστικών γνωρισμάτων.

Πρωτοδικείο :.

ένα σύνολο, μια λειτουργία χρωματισμό

γ

: {1, …,

m

} → {1, …,

σ

}, μια πλειάδα, ακέραιοι

α

& gt? 0,

β

≥ 0,

k

& gt? 0

Παράμετροι :.

α

,

β

και

k

Η

Ερώτηση:.

υπάρχει ένα σύνολο

I

⊆ {1, …, em

ν

} με |

I

| ≤

k

τέτοια ώστε για όλα τα

i

,

ι

∈ {1, …,

m

} όπου

γ

(

i

) =

γ

(

ι

)

Εάν

y

i

y

ι

υπάρχει με τέτοιο ώστε

x

i

,

s

x

ι

,

s

για όλους

Εάν

y

i

=

y

ι

υπάρχει με τέτοιο ώστε

x

i

,

s

=

x

ι

,

s

για όλους

η

Με άλλα λόγια, η Χρωματιστά

, em

β) -k

-Feature Σετ πρόβλημα παράδειγμα είναι κατασκευασμένο από μια συλλογή των μεμονωμένων

,

β) -k

-Feature Σετ περιπτώσεις με κοινά χαρακτηριστικά, όταν η σύγκριση αξιών χαρακτηριστικό είναι περιορισμένη για να δοκιμάσετε τα ζεύγη που σχηματίζονται από κάθε επιμέρους περίπτωση. Η «χρωματιστό» όνομα προέρχεται από την παραδοχή δείγματα σε κάθε περίπτωση είναι χρωματισμένα με το ίδιο μοναδικό χρώμα, τότε μόνο ίδιου χρώματος τα δείγματα μπορούν να συνδυαστούν σε ζεύγη.

Είναι προφανές ότι το ίδιο σύνολο κανόνων μείωση των δεδομένων που παρουσιάζονται στο [21] για το

,

β) -k

-Feature Σετ πρόβλημα ισχύει και για την περίπτωση του Χρωματιστά

,

β) -k

-Feature Ρυθμίστε το πρόβλημα, καθώς το τελευταίο είναι τυπικά ισοδυναμεί με ένα μεγαλύτερο βαθμό από ένα

,

β) -k

-Feature Σετ πρόβλημα από κατάλληλη μετονομασία της δείγματα.

2.3.3 γενικευμένων

,

β) -k-

Feature Set.

στην πιο γενική μορφή κατάλληλη για μετα- ανάλυση των συνόλων δεδομένων με κοινά χαρακτηριστικά, η

,

β) -k

-Feature Ρυθμίστε το πρόβλημα μπορεί να διατυπωθεί ως εξής:

Πρωτοδικείο :.

ένα σύνολο, μια λειτουργία μια πλειάδα, ακέραιοι

α

& gt? 0,

β

≥ 0,

k

& gt? 0

Παράμετροι :.

α

,

β

και

k

Η

Ερώτηση:.

υπάρχει ένα σύνολο

I

⊆ {1, …, em

ν

} με |

I

| ≤

k

τέτοια ώστε για όλα τα

i

,

ι

∈ {1, …,

m

} όπου

g

(

i

,

ι

) = 1

Εάν

y

i

y

ι

υπάρχει τέτοια που

x

i

,

s

x

ι

,

s

για όλους

Εάν

y

i

=

y

ι

υπάρχει με τέτοιο ώστε

x

i

,

s

=

x

ι

,

s

για όλους

Η

Η Γενικευμένη

,

β) -k

-Feature Ρυθμίστε το πρόβλημα έχει επινοηθεί για να ασχοληθεί με τη γενικότερη κατάσταση στην οποία ορισμένα δείγματα σε μία ομάδα δείγμα μπορεί να συγκριθεί με τα δείγματα σε μια άλλη ομάδα δείγμα, για παράδειγμα. Η δυαδική λειτουργία

g

(

i

,

ι

) δείχνει πότε οι τιμές χαρακτηριστικό για ένα δεδομένο αυθαίρετο ζεύγος δείγματος (

i

,

ι

) μπορεί να συγκριθεί.

Σε όλες τις προηγούμενες συνθέσεις, τα δείγματα έχουν παρουσιαστεί ως μια σειρά από

n

1 δυαδικές τιμές, αν και αυτό δεν είναι απολύτως απαραίτητο. Η ετικέτα τάξη μπορεί να είναι μια κατηγορική μεταβλητή αξίες ανάληψη ενός (συνήθως μικρό) σύνολο κατηγοριών ή κλάσεων. Τα χαρακτηριστικά μπορούν να έχουν τιμές οποιουδήποτε είδους, εφ ‘όσον υπάρχει μια ουσιαστική σχέση σε θέση να αποφασίσει αν υπάρχουν δύο τιμές θεωρούνται ίσες ή διαφορετικές.

2.3.4 Χρωματιστά

,

β) -k-

Χαρακτηριστικό Ορισμός ως ένα πρόβλημα ακέραιου προγραμματισμού.

Στη συνέχεια, σας παρουσιάζουμε το Χρωματιστά

,

β) -k-

χαρακτηριστικό Ορισμός πρόβλημα ως πρόβλημα βελτιστοποίησης προγραμματισμού ακέραιος. Ας

σ

,

ν

,

m

και

y

είναι όπως δίνεται πριν. Καθώς το δείγμα ομάδες είναι ξένα μεταξύ τους, δεν υπάρχουν κοινά δείγματα μεταξύ δύο οποιωνδήποτε από αυτούς. Για κάθε δείγμα

ι

και κάποιο χαρακτηριστικό

s

∈ {1, …,

n

}, αφήστε το

γ

ι

∈ {1, …,

σ

} είναι το δείγμα ομάδας στην οποία ανήκει, και

x

JS

η τιμή του χαρακτηριστικού για το δείγμα. Για κάθε ζεύγος δείγματος (

i

,

ι

) letand

Η αντικειμενική συνάρτηση και οι περιορισμοί για την Χρωματιστά

,

β) -k

-Feature τα μοντέλα βελτιστοποίησης ακέραιου προγραμματισμού Ρυθμίστε το πρόβλημα δίνεται παρακάτω, όπου η δυαδική μεταβλητή

στ

s

είναι 1 αν η λειτουργία

s

επιλέγεται στο σύνολο χαρακτηριστικών γνωρισμάτων, και 0 διαφορετικά. Το πρόβλημα επιδιώκει το ελάχιστο: (1) υπόκειται στους όρους: (2) (3), όπου:

Ένα Έγχρωμο

,

β) -k

-Feature Ρυθμίστε το πρόβλημα παράδειγμα, μπορεί να έχει περισσότερες από μία βέλτιστη λύση με k χαρακτηριστικά στο καθένα. Αυτή η πολλαπλότητα επιλύεται με μεταγενέστερη πρόβλημα βελτιστοποίησης που ψάχνει για τη λύση του μεγέθους k με μέγιστη κάλυψη. Στη συνέχεια, καθορίζουν την βέλτιστη λύση του Χρωματιστά

,

β) -k

-Feature Σετ πρόβλημα με εκείνο που μεγιστοποιεί: (4) υπόκειται στους όρους: (5) ( 6) (7), όπου:

Στην εξίσωση 4, το κάλυμμα

e

s

είναι ο αριθμός των ζευγών των δειγμάτων τα οποία διαθέτουν

s

καλύπτει, και μπορεί να οριστεί ως:

η λύση του προβλήματος βελτιστοποίησης (1-3) απαιτεί τον προσδιορισμό των παραμέτρων

α

και

β

. Ένας τρόπος που απαιτούν μια ισχυρή λύση του προβλήματος είναι να διευκρινίσει

α

όσο το δυνατόν μεγαλύτερο. Αυτή η τιμή καθορίζεται από την εμφάνιση του προβλήματος, και είναι ίσος με τον ελάχιστο αριθμό των χαρακτηριστικών που διαφοροποιούν οποιοδήποτε ζεύγος δείγματος διαφορετικές ετικέτες κατηγορίας. Μόλις η τιμή του

k

επιτυγχάνεται με

β

= 0, μπορούμε στη συνέχεια κατ ‘επανάληψη να λύσει το πρόβλημα (4-7) για την όλο και πιο μεγάλες τιμές του

β

στο ( 7), έως ότου το πρόβλημα γίνεται ανέφικτη. Η τελευταία εφικτή λύση είναι η επιδιωκόμενη υπογραφή.

Μια τελευταία σημείωση σχετικά με την υπολογιστική πολυπλοκότητα αυτής της οικογένειας των προβλημάτων. Η

,

β) -k

-Feature Σετ πρόβλημα είναι τουλάχιστον τόσο περίπλοκο όπως το κλασικό

k

-Feature Ρυθμίστε το πρόβλημα, το οποίο είναι NP-complete [ ,,,0],35, 36]. Η

,

β) -k

-Feature Σετ πρόβλημα δεν είναι μόνο NP-complete, αλλά W [2] -πλήρων [37, 38].

2.4 t-test

για τη συγκριτική αξιολόγηση έναντι των παραδοσιακών στατιστικών μεθόδων, μπορούμε να εκτελέσουμε μια ανάλυση t-test των επιμέρους σύνολα δεδομένων. Το t-test είναι μια μέθοδος τεστ στατιστικής σημαντικότητας που χρησιμοποιείται εδώ για να επιλέξετε τα γονίδια που εμφανίζουν διαφορική γονιδιακή έκφραση μεταξύ των δύο διαφορετικές συνθήκες [39], στην περίπτωσή μας κανονική εναντίον πρωτοπαθούς όγκου, πάνω από ένα ορισμένο

σ

-τιμή επίπεδο της εμπιστοσύνης. Η διαδικασία του

t-test

περιγράφεται παρακάτω:

Ας

S

1 και

S

2 είναι οι μέσες τιμές ενός συγκεκριμένου γονιδίου σε δύο διαφορετικές ετικέτες κατηγορίας 1 και 2, του μεγέθους

m

1 και

m

2. Η

t

-statistic για αυτό το συγκεκριμένο γονίδιο υπολογίζεται ως εξής: όπου

X

είναι η συγκεντρωτική διακύμανση του δείγματος

Εδώ και είναι η διακύμανση της αναπαραχθεί παρατηρήσεις σε κάθε κατάσταση και

ν

1 +

ν

2 – 2 είναι ο αριθμός των βαθμών ελευθερίας. Στη μελέτη μας χρησιμοποιήσαμε το πακέτο Bioconductor «genefilter» [40] με ένα επιλεγμένο

σ

-τιμή των 10

-4 να εκτελέσει μας

t-test

.

2.5 RankProd

συγκρίνουμε τα αποτελέσματά μας με αυτά που λαμβάνονται από μια άλλη δημοφιλής μέθοδος μετα-ανάλυση. RankProd είναι ένα μη-παραμετρικό εργαλείο μετα-ανάλυση που εισήγαγε Hong et al. [15] για την ανίχνευση διαφορικά εκφραζόμενα γονίδια. Είναι αναμφισβήτητα είναι η πιο ευρέως χρησιμοποιούμενη μέθοδος γονιδιακής έκφρασης μετα-ανάλυση, και παρέχεται ως πακέτο Bioconductor που τροποποιεί και επεκτείνει την μέθοδο προϊόν rank προτείνει Breitling et al. [14]. Διπλώστε Αλλαγή (FC) χρησιμοποιείται ως κριτήρια βαθμολόγησης να ταξινομήσει και να συγκρίνουν τα γονίδια μέσα σε κάθε σύνολο δεδομένων. Μια συνολική πίνακα κατάταξης γονίδιο παράγεται με την άθροιση των επιμέρους τάξεις σε όλη σύνολα δεδομένων.

Μια αλλαγή φορές κατά ζεύγη (

σ

FC) υπολογίζεται για κάθε γονίδιο

g

μέσα ένα συγκεκριμένο σύνολο δεδομένων

k

όπως, στην οποία και είναι οι αξίες έκφραση του γονιδίου

g

για δείγμα

ι

(που ανήκει στην πειραματική κατάσταση

T-

π.χ. «όγκου») και

l

(που ανήκει στην πειραματική κατάσταση

C-

π.χ. «ελέγχου»), και και ο αριθμός των επαναλήψεων που παράγουν συνολικά

p

FC τιμές ανά γονίδιο. Στη συνέχεια, οι αντίστοιχες

αναλογίες σ

FC κατατάσσονται και συμβολίζεται ως

r

gi

, όπου

g

= 1, …,

G

αντιπροσωπεύει τον αριθμό των γονιδίων και

i

= 1, …,

K

k

αντιπροσωπεύει την κατά ζεύγη σύγκριση μεταξύ των δειγμάτων. Το προϊόν κατάταξη του κάθε γονιδίου

g

ορίζεται ως ο γεωμετρικός μέσος όρος,

Οι τιμές έκφρασης για κάθε γονίδιο μέσα σε κάθε σύνολα δεδομένων ανεξάρτητα permuted

φορές L

και παράγουν όπου

l

= 1, …,

L

επαναλαμβάνοντας τα παραπάνω βήματα. Μια κατανομή αναφοράς λαμβάνεται από όλους και την προσαρμοσμένη τιμή-p και το ποσοστό εσφαλμένης ανακάλυψη για κάθε γονίδιο υπολογίστηκαν.

Σε αυτή τη μελέτη, τα σύνολα δεδομένων σε συνδυασμό με τους όρους των κοινών γονιδίων σε όλες τις πλατφόρμες. Έχουμε υποβάλει αίτηση RankProd στο συνδυασμένο σύνολο δεδομένων για να επιλέξετε τα γονίδια που σχετίζονται με την κατάσταση που διερευνάται.

2.6 Ανθεκτικότητα

Για να αξιολογηθεί η ευρωστία της μεθόδου μας σε σχέση με διαταραχές στα δεδομένα έχουμε πραγματοποιήσει μια σειράς πειραμάτων. Η παρουσία του θορύβου στα δεδομένα γονιδιακής έκφρασης είναι δύσκολο να εκτιμηθεί, καθώς εξαρτάται από την πλατφόρμα-ειδικούς παράγοντες, καθώς και πειραματικές συνθήκες. Ωστόσο, η τελική εκδήλωση των διαταραχών στις ομάδες δεδομένων θα ήταν μια αλλαγή στη σύνθεση του συνόλου των ανιχνευτών που περνούν το κριτήριο MDL. έτσι έχουμε αναλύσει την ευρωστία των τελικών αποτελεσμάτων ένταξης σε σχέση με ποικίλες συνθέσεις των επιμέρους σύνολα δεδομένων, για τα διάφορα μοντέλα διαταραχή, εμπνευσμένο από την προσέγγιση «να αφήσει ένα έξω».

You must be logged into post a comment.