PLoS One: Προσδιορισμός των ελάχιστων Κατάρτισης Μέγεθος δείγματος για μικροσυστοιχιών βασισμένη Καρκίνος Αποτέλεσμα Πρόβλεψη-Εμπειρική Assessment

Αύγουστος 22nd, 2015 elhealth του καρκίνου άρθρα

Αφηρημένο

Η υπόσχεση της τεχνολογίας των μικροσυστοιχιών στην παροχή ταξινομητές πρόβλεψη για την εκτίμηση της έκβασης του καρκίνου του έχει επιβεβαιωθεί από έναν αριθμό αποδεδειγμένη επιτυχίες. Ωστόσο, η αξιοπιστία των αποτελεσμάτων πρόβλεψης εξαρτάται σε μεγάλο βαθμό από την ακρίβεια των στατιστικών παραμέτρων που εμπλέκονται στην ταξινομητές. Δεν μπορεί να προσδιοριστεί αξιόπιστα, με μόνο έναν μικρό αριθμό δειγμάτων εκπαίδευσης. Ως εκ τούτου, είναι ζωτικής σημασίας για τον καθορισμό του ελάχιστου αριθμού δειγμάτων εκπαίδευσης και να εξασφαλισθεί η κλινική αξία των μικροσυστοιχιών σε πρόβλεψη έκβασης του καρκίνου. Αξιολογήσαμε την επίδραση του μεγέθους του δείγματος κατάρτισης στις επιδόσεις μοντέλο εκτενώς με βάση 3 μεγάλα σύνολα δεδομένων καρκίνου μικροσυστοιχιών που παρέχεται από τη δεύτερη φάση του έργου μικροσυστοιχιών Ποιοτικού Ελέγχου (MAQC-ΙΙ). Ένα SSNR-based (κλίμακα του λόγου σήματος προς θόρυβο) πρωτόκολλο προτάθηκε στην παρούσα μελέτη για τον προσδιορισμό μέγεθος δείγματος ελάχιστη εκπαίδευση. Εξωτερικές αποτελέσματα πιστοποίησης με βάση τα άλλα 3 σύνολα δεδομένων καρκίνου επιβεβαίωσε ότι η προσέγγιση SSNR-based δεν θα μπορούσε μόνο να καθορίσει τον ελάχιστο αριθμό δειγμάτων εκπαίδευσης αποτελεσματικά, αλλά και να παρέχει μια πολύτιμη στρατηγική για την εκτίμηση της υποκείμενης απόδοσης των ταξινομητών εκ των προτέρων. Μόλις μεταφραστούν σε κλινικές εφαρμογές ρουτίνας, το πρωτόκολλο SSNR-based θα παρέχουν μεγάλη ευκολία στην πρόβλεψη έκβασης του καρκίνου μικροσυστοιχιών βασισμένη στη βελτίωση της αξιοπιστίας ταξινομητή

Παράθεση:. Shao L, Fan Χ, Cheng Ν, Wu L, Cheng Υ (2013) Προσδιορισμός των ελάχιστων Κατάρτισης Μέγεθος δείγματος για μικροσυστοιχιών βασισμένη Καρκίνος Αποτέλεσμα Πρόβλεψη-μια αξιολόγηση εμπειρική. PLoS ONE 8 (7): e68579. doi: 10.1371 /journal.pone.0068579

Επιμέλεια: Cynthia Gibas, Πανεπιστήμιο της Βόρειας Καρολίνας στο Charlotte, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 24 Σεπτέμβρη 2012? Αποδεκτές: 31 Μάη, 2013? Δημοσιεύθηκε: 5 Ιουλ, 2013

Copyright: © 2013 Shao et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από το Εθνικό Ίδρυμα Επιστημών της Κίνας (30830121, 81173465) και το Ίδρυμα Φυσικών Επιστημών Zhejiang Provincial της Κίνας (R2080693) .Τα χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου .

Αντικρουόμενα συμφέροντα:. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Οι πρόσφατες εξελίξεις στην γονιδιακή τεχνολογία μικροσυστοιχιών έκφρασης έχουν ανοίξει νέες ευκαιρίες για καλύτερη μεταχείριση των διαφορετικών ασθένειες [1], [2], [3]. Μια δεκαετία εντατικής έρευνας για την ανάπτυξη ταξινομητές πρόβλεψη απέδωσε μια σειρά από απτές επιτυχίες, ιδιαίτερα την ικανότητα πρόβλεψης διαφορετικών πιθανών απαντήσεων σε θεραπεία [4]. Για παράδειγμα, βοήθησε με την επιλογή της θεραπείας για να παρατείνει το χρόνο επιβίωσης και τη βελτίωση της ποιότητας ζωής των ασθενών με καρκίνο. Η επιδοκιμασία των MammaPrint ™ από την αμερικανική Υπηρεσία Τροφίμων και Φαρμάκων (FDA) για την πρόγνωση του καρκίνου του μαστού κλινική [5] απεικονίζεται η υπόσχεση της τεχνολογίας των μικροσυστοιχιών στη διευκόλυνση ιατρική θεραπεία στο μέλλον.

Πιο πρόσφατα, μικροσυστοιχιών Ποιοτικού Ελέγχου Έργων ΙΙ (MAQC II) μελέτη [6] επιβεβαίωσε για άλλη μια φορά ότι τα μοντέλα πρόβλεψης που βασίζεται σε μικροδιάταξη μπορεί να χρησιμοποιηθεί για να προβλέψει τις κλινικές παραμέτρους αν κατασκευαστεί και χρησιμοποιηθεί σωστά. Ωστόσο, η αξιοπιστία των αποτελεσμάτων πρόβλεψης βασίστηκε σε μεγάλο βαθμό από την ακρίβεια των στατιστικών παραμέτρων που εμπλέκονται στην ταξινομητές μικροσυστοιχιών, η οποία δεν μπορεί να εκτιμηθεί αξιόπιστα από ένα μικρό αριθμό δειγμάτων εκπαίδευσης. Ως εκ τούτου, θα βοηθήσει με τη συλλογή όσες κλινικά δείγματα όσο το δυνατόν. Παρ ‘όλα αυτά, λαμβάνοντας υπόψη το γεγονός ότι είναι σχετικά σπάνια κλινικά δείγματα ιστού μπορεί να χρησιμοποιηθεί για μεταγραφική προφίλ, είναι μια πρόκληση για την εκτίμηση του κατάλληλου αριθμού δειγμάτων εκπαίδευσης αρκετή για να επιτευχθεί σημαντική στατιστική ισχύς.

Αρκετές μέθοδοι έχουν προταθεί για το δείγμα προσδιορισμό του μεγέθους, όπως είναι ο κανόνας στάσης [7], ο αλγόριθμος ανάλυσης δύναμη [8], η παραμετρική μοντελοποίηση μείγμα σε συνδυασμό με την παραμετρική bootstrapping [9], διαδοχική διαδικασία κατάταξης με βάση το Martingale κεντρικό οριακό θεώρημα [10], το παραμετρικό μοντέλο πιθανοτήτων – μεθοδολογίας που βασίζεται [11], το Μόντε Κάρλο σε συνδυασμό με προσεγγίσεις προσέγγιση [12], και τον αλγόριθμο που βασίζεται σε σταθμισμένο τοποθέτηση της καμπύλες μάθησης [13], κ.λπ. οι περισσότερες από τις παραπάνω μελέτες ήταν διερευνητική στη φύση, και επικεντρώθηκε στις σχέσεις μεταξύ των το μέγεθος του δείγματος, ουσιαστική διαφορά στη μέση, και δύναμη. Είναι μάλλον δυνατό για τις μεθόδους αυτές για να παραχθεί είτε ένα υποτιμηθεί ή υπερεκτιμηθεί μέγεθος του δείγματος, εάν είχε χρησιμοποιηθεί ένα συγκεκριμένο διακύμανσης και ουσιαστική διαφορά στη μέση [14]. Επιπλέον, τα στατιστικά μοντέλα ή /και δείκτες που χρησιμοποιούνται στην παραπάνω μέθοδοι είναι αρκετά δύσκολο να εφαρμοστούν σε πραγματικές εφαρμογές, και είναι εφικτές μόνο όταν είναι αρκετά δείγματα εκπαίδευσης που συλλέγονται. Dobbin et al. πρότεινε μια μέθοδο υπολογισμού του μεγέθους του δείγματος με βάση την τυποποιημένη αλλαγή φορές, η επικράτηση της κατηγορίας και τον αριθμό των γονιδίων ή χαρακτηριστικά σχετικά με τις συστοιχίες [15]. Αν και αυτή η μέθοδος είναι αρκετά απλή σε σύγκριση με τις προηγούμενες προσεγγίσεις, είναι μόνο προσαρμοστεί για την αντιμετώπιση των εκ των υστέρων διαπίστωση του κατά πόσον το μέγεθος του δείγματος είναι επαρκής για να αναπτύξει ένα ταξινομητή. Με αυτόν τον τρόπο, μερικά ζητήματα πρέπει να αντιμετωπιστούν πριν από μια απλή και αποτελεσματική μέθοδος για την εκτίμηση του μεγέθους του δείγματος θα μπορούσαν να αναπτυχθούν.

Στις αρχές του 2005, Van Niel et al. έχει επισημάνει ότι ο απαιτούμενος αριθμός δειγμάτων κατάρτισης θα πρέπει να καθορίζεται λαμβάνοντας υπόψη την πολυπλοκότητα του προβλήματος των διακρίσεων [16]. Τυποποιημένα αλλαγή φορές και την επικράτηση της κατηγορίας που προτείνει Dobbin et al. είναι επίσης σε κάποιο βαθμό συσχετίζεται με την πολυπλοκότητα ταξινόμηση [15]. Popovici et al. Αποδείχθηκε περαιτέρω ότι η απόδοση μιας γονιδιωματικής προγνωστικός δείκτης καθορίζεται σε μεγάλο βαθμό από την αλληλεπίδραση μεταξύ του μεγέθους του δείγματος και της πολυπλοκότητας ταξινόμησης [17]. Εν ολίγοις, υπολογίζοντας τη σχέση μεταξύ του μεγέθους του δείγματος, τις επιδόσεις μοντέλο, και την πολυπλοκότητα ταξινόμηση είναι μεγάλη βοήθεια για την ανάπτυξη μιας φιλικής προς το πρωτόκολλο του δείγματος σχεδιασμού μέγεθος.

Τρία μεγάλα σύνολα δεδομένων μικροσυστοιχιών με ένα σύνολο 10 τελικών σημείων παρέχεται σε MAQC-II [6] έχουν αξιολογηθεί εκτενώς για τη σχέση μεταξύ του μεγέθους του δείγματος κατάρτιση και την εκτέλεση του κατασκευάστηκε ταξινομητές πρόβλεψη στην παρούσα μελέτη. Διαπιστώθηκε ότι το ελάχιστο μέγεθος του δείγματος εκπαίδευσης θα μπορούσε να εκτιμηθεί από την εγγενή δυνατότητα πρόβλεψης των παραμέτρων, και προτείναμε μια σταδιακή πρωτόκολλο εκτίμησης SSNR-based. Εξωτερικές αποτελέσματα επικύρωσης χρησιμοποιώντας άλλα τρία σύνολα δεδομένων μεγάλης κλίμακας επιβεβαίωσε την ικανότητα του εν λόγω πρωτοκόλλου. Σε σύγκριση με τις προηγούμενες μεθόδους, το πρωτόκολλο που προτείνεται στην παρούσα μελέτη έχει τα πλεονεκτήματά του στις εξής τρεις πτυχές: πρώτον, είναι πιο εύκολο να εφαρμοστεί και πολύ πιο αποτελεσματική για κλινικές εφαρμογές? δεύτερον, απαιτείται λιγότερη προηγούμενη ενημέρωση, και ως εκ τούτου πειραματική κόστος θα μπορούσε να είναι καλύτερη ελέγχεται? Τέλος, καθοδηγεί τον πειραματικό σχεδιασμό, εκτός από την εκ των υστέρων εκτίμηση του μεγέθους του δείγματος εκπαίδευσης.

Υλικά και Μέθοδοι

Σύνολα

Έξι μεγάλης κλίμακας σύνολα δεδομένων καρκίνο έχουν έχουν συλλεχθεί σε αυτή τη μελέτη για την εκτίμηση του μεγέθους του δείγματος εκπαίδευσης και τους σκοπούς εξωτερική επικύρωση. Πίνακας 1 παρουσιάζεται μια συνοπτική περίληψη των συλλεχθέντων σύνολα δεδομένων, συμπεριλαμβανομένων των πληροφοριών σχετικά με το μέγεθος του δείγματος και την κατανομή του δείγματος

Τρία σύνολα δεδομένων με 10 κλινικά τελικά σημεία -. Καρκίνο του μαστού (BR), πολλαπλό μυέλωμα (ΜΜ), νευροβλάστωμα επιλέχθηκαν και χρησιμοποιήθηκαν σε αυτή τη μελέτη για να αξιολογήσει τον αντίκτυπο του μεγέθους του δείγματος κατάρτισης στις επιδόσεις μοντέλο (ΝΒ), παρέχεται στο MAQC-II [6]. Για τον καρκίνο του μαστού, Κατεδείχθη BR-erpos και BR-PCR αντιπροσωπεύουν οιστρογόνου κατάσταση του υποδοχέα και την επιτυχία της θεραπείας που περιλαμβάνει χημειοθεραπεία που ακολουθείται από χειρουργική εκτομή ενός όγκου, αντίστοιχα. Για το πολλαπλό μυέλωμα, το MM-EFS και MM-OS αντιπροσωπεύουν ελεύθερη συμβαμάτων επιβίωση και τη συνολική επιβίωση μετά από 730 ημέρες μετά τη θεραπεία της διάγνωσης, ενώ NB-EFS και NB-OS αντιπροσωπεύουν την ίδια έννοια μετά από 900 ημέρες μετά τη θεραπεία ή διάγνωση. Επιπλέον Τερματικά NB-PC και MM-PC, NB-NC και MM-NC επίσης περιλαμβάνονται σε αυτή τη μελέτη ως θετικοί και αρνητικοί έλεγχοι, αντίστοιχα. Η NB-PC και MM-PC προήλθαν από τα σύνολα δεδομένων NB και ΜΜ με τα τελικά σημεία που συμβολίζεται με το φύλο, ενώ τελικά σημεία για NB-NC και MM-NC δημιουργήθηκαν τυχαία.

άλλα τρία σύνολα δεδομένων, συμπεριλαμβανομένου ενός μη -hodgkin λέμφωμα (NHL) [18] σύνολο δεδομένων και δύο σύνολα δεδομένων του καρκίνου του μαστού (BR2 [19] και BR3 [20]) που χρησιμοποιείται σε προηγουμένως δημοσιευμένες μελέτες προγνωστική μοντελοποίηση, χρησιμοποιήθηκαν σε αυτή τη μελέτη για τις εξωτερικές σκοπό την επικύρωση. NHL σχετίζεται με την επιβίωση του μη Hodgkin λεμφώματος [18] οι ασθενείς, ενώ BR2 και BR3 σχετίζονται με την κατάσταση των οιστρογονικών υποδοχέων (BR2-erpos) [19] και το 5-ετή μετάσταση επιβίωση χωρίς (BR3-EFS) [ ,,,0],20] των ασθενών με καρκίνο του μαστού.

για την προσομοίωση του πραγματικού κόσμου κλινική εφαρμογή της γονιδιωματικής μελέτες, οι δύο ανεξάρτητοι πληθυσμοί των ασθενών για κάθε σύνολο δεδομένων που δημιουργήθηκε από την MAQC κοινοπραξία ή από τους αρχικούς ερευνητές διατηρούνται σε αυτή τη μελέτη, όπως η κατάρτισης και επικύρωσης σύνολα. Στην περίπτωση της BR2-erpos και BR3-EFS, δεν υπήρχε καμία πληροφορία για το διαχωρισμό του δείγματος. Έτσι όλα τα δείγματα κατανεμήθηκαν σε εκπαίδευση και την επικύρωση θέτει τυχαία στη μελέτη αυτή. Αναλυτικότερες πληροφορίες σχετικά με τα σύνολα δεδομένων μπορούν να βρεθούν στο κύριο έγγραφο της MAQC-II [6] και της αντίστοιχης πρωτότυπες εργασίες.

Στατιστική Ανάλυση

Λεπτομερείς πληροφορίες σχετικά με το σχεδιασμό της μελέτης ήταν απεικονίζεται στην Εικόνα 1, πρόσθετες πληροφορίες σχετικά με τη διαδικασία μοντέλο κατασκευή είναι διαθέσιμη στις μεθόδους S1. Ένα σύνολο δεδομένων με ένα συγκεκριμένο μέγεθος δείγματος ήταν αρχικά προέρχονται από την αρχική εκπαίδευση οριστεί ως νέα δείγματα εκπαίδευσης. Μετά το μοντέλο κατασκευής από τα ανακτημένα δείγματα κατάρτισης, χρησιμοποιώντας ένα 5-φορές διασταυρωμένης επικύρωσης, το λαμβανόμενο

καλύτερο ταξινομητή

εφαρμόστηκε στη συνέχεια να προβλέψει το αρχικό σύνολο επικύρωσης. Για να εξασφαλιστεί η στατιστική ισχύ, όπως η διαδικασία επαναλήφθηκε 100 φορές, με αποτέλεσμα 100 διαφορετικά σύνολα των προβλέψεων. Το μέσο αποτέλεσμα πρόβλεψη στη συνέχεια χρησιμοποιείται ως ένδειξη της απόδοσης μοντέλο που αντιστοιχεί σε αυτό το μέγεθος του δείγματος. Ο αριθμός των δειγμάτων εκπαίδευσης που εξετάζονται στην παρούσα μελέτη κυμαίνεται από 20 με βήμα 20. Τρεις ευρέως χρησιμοποιούμενες αλγόριθμους μηχανικής μάθησης, συμπεριλαμβανομένων

NCentroid

(Αστικό-Κέντρο βάρους),

KNN

(

-nearest γείτονες,

= 3) και επιλέχθηκαν

SVM

(Support Vector Machine) σε αυτή τη μελέτη για να αξιολογήσει τον αντίκτυπο του μεγέθους του δείγματος εκπαίδευσης.

ροή εργασίας για την αξιολόγηση των επιπτώσεων των διαφόρων αριθμός των δειγμάτων εκπαίδευσης.

με βάση τα αποτελέσματα 100-τρέξιμο, η τάση των επιδόσεων μοντέλο (όπως μετράται από το συντελεστή συσχέτισης Matthews (MCC) [21] σε σχέση με το . σταδιακή αύξηση του μεγέθους του δείγματος εκπαίδευσης απεικονίζεται με οικόπεδο μουστακιού (5-95% εκατοστημόριο) ο συντελεστής συσχέτισης Matthews (MCC) ορίζεται ως εξής: (1) όπου είναι ο αριθμός των πραγματικά θετικά, είναι ο αριθμός των αληθινή αρνητικά, είναι η τον αριθμό των ψευδώς θετικών και είναι ο αριθμός των ψευδώς αρνητικών. MCC κυμαίνεται μεταξύ -1 και +1 με 0 αντιστοιχεί σε τυχαία πρόβλεψη.

με βάση τα 100 διοικούμενο τιμές MCC, προτείναμε περαιτέρω μια εξίσωση σε περίπου εκτίμηση η δυνητική αξία της αύξησης του μεγέθους του δείγματος, η οποία λαμβάνει υπόψη τόσο τη σχετική βελτίωση της απόδοσης του μοντέλου και το κόστος της αύξησης του μεγέθους του δείγματος. (2)

Εδώ και αντιπροσωπεύουν την αξία MCC που λαμβάνεται από το

ου και

(i-1)

ου μέγεθος του δείγματος, ενώ είναι ο αριθμός των δειγμάτων κατάρτισης στο

(i-1)

ου σταδίου (

i = 2, …, n

). τιμή πολύ μικρότερη από 1 χρησιμοποιήθηκε σε αυτή τη μελέτη για να βοηθήσει στον καθορισμό της σχεδόν βέλτιστο ταξινομητή. Με άλλα λόγια, η αξία σε συνδυασμό με τη μέση τιμή και διακύμανση των τιμών MCC τελικά χρησιμοποιήθηκε για τον προσδιορισμό της σχεδόν βέλτιστο μέγεθος του δείγματος εκπαίδευσης.

Κλίμακα του σήματος προς θόρυβο (SSNR)

Ας υποθέσουμε ότι τα σύνολα δεδομένων μικροσυστοιχιών

(

δείγματα και

γονίδια) και

(

δείγματα και

γονιδίων) έχουν προφίλ από δείγματα της κατηγορίας 1 και της κατηγορίας 2, αντίστοιχα. Ο λόγος σήματος προς θόρυβο για το

ου γονιδίου (

i = 1,2, …, p

) αντανακλά τη διαφορά μεταξύ των τάξεων σε σχέση με τις τυπικές αποκλίσεις (SD) εντός των τάξεων, και θα μπορούσε να παρουσιαστεί ως εξής [22] 🙁 3)

Εδώ και δηλώνουν τα μέσα και SDS της καταγραφής των επιπέδων έκφρασης του

ου (

i = 1,2, …, p

) του γονιδίου της κατηγορίας 1 και της κατηγορίας 2, αντίστοιχα. δεν περιορίζεται σε [-1, 1], με μεγάλες τιμές του υποδεικνύοντας μία ισχυρή συσχέτιση μεταξύ της έκφρασης του γονιδίου και της κατηγορίας διάκριση. Το σημάδι είναι θετικές και αρνητικές αντιστοιχεί στο

ου γονιδίου που πιο πολύ που εκφράζονται στην κατηγορία 1 ή της κατηγορίας 2. SSNR είναι το αριθμητικό μέγεθος της για όλα τα γονίδια (

i = 1,2, … , σελ

) που αντιπροσωπεύει το αριθμητικό διαφορά μεταξύ του μεγαλύτερου επιβαλλόμενης και τις μικρότερες τιμές Αρνητικής SNR. Υποθέτοντας ότι εκπροσωπεί τους φορείς των τιμών SNR για όλα τα γονίδια σε ένα σύνολο δεδομένων, SSNR θα μπορούσε να οριστεί ως εξής: (4)

Αποτελέσματα

Ελάχιστο Κατάρτισης Μέγεθος δείγματος Διαφέρει ανάλογα με Endpoint Προβλεψιμότητα

Σχήμα 2 έδειξαν την τάση της απόδοσης μοντέλου σε σχέση με σταδιακή αύξηση του μεγέθους του δείγματος κατάρτισης για 10 παραμέτρους χρησιμοποιώντας το

NCentroid

, με τις αντίστοιχες τιμές παρουσιάζονται στον πίνακα S1. μπορούν να εξαχθούν δύο συμπεράσματα από τη μελέτη. Πρώτον, το μέγεθος του δείγματος εκπαίδευσης που ασκείται εμφανείς επιπτώσεις στις επιδόσεις μοντέλο για όλες τις παραμέτρους εκτός από τους αρνητικούς μάρτυρες. Δεύτερον, ο απαιτούμενος ελάχιστος αριθμός των δειγμάτων εκπαίδευσης διαφέρει ανάλογα με την πολυπλοκότητα των διαφόρων παραμέτρων. Για εξαιρετικά προβλέψιμη τελικά σημεία (NB-PC, MM-PC και BR-erpos) με πρόβλεψη MCC γύρω ή μεγαλύτερο από 0,8, 60 δείγματα εκπαίδευσης είναι αρκετά για να επιτευχθεί σχεδόν βέλτιστη ταξινομητές πρόβλεψη. Ενώ για τελικά σημεία (NB-EFS, NB-OS, BR-PCR) με μέτρια απόδοση πρόβλεψης (MCC μεταξύ 0,2 έως 0,5), τουλάχιστον 120 δείγματα κατάρτισης που είναι αναγκαίες. Για δύσκολα προβλέψιμη τελικά σημεία (MM-EFS και MM-OS), μικροσυστοιχιών με βάση το μοντέλο πρόβλεψης (MCC περίπου 0,1) δεν είναι γενικά μια καλή επιλογή σε αυτή την περίπτωση. Σε περίπτωση όταν απαιτούνται 120 δείγματα, δεν έχει νόημα να συγκεντρώσει περισσότερα δείγματα λόγω της αμελητέα βελτίωση. Για τους αρνητικούς μάρτυρες (NB-NC και MM-NC), μοντέλα πρόβλεψης αποτύχει για όλα τα μεγέθη των δειγμάτων εκπαίδευσης. Τέτοια αποτελέσματα αποκλείεται το ενδεχόμενο ψευδώς θετικά αποτελέσματα. Τα σχήματα S1 και S2 που λαμβάνεται από το

KNN

και

SVM

επιβεβαίωσε τα παραπάνω αποτελέσματα.

Πρόβλεψη MCC βασίζεται σε διαφορετικό αριθμό δειγμάτων κατάρτισης για 10 παραμέτρους χρησιμοποιώντας το

NCentroid

SSNR συσχετίζεται καλά με Endpoint προβλεψιμότητα

Τα παραπάνω αποτελέσματα έδειξαν ότι το ελάχιστο μέγεθος δείγματος εκπαίδευση που απαιτείται για την κατασκευή μοντέλο μεταβάλλεται με το καταληκτικό σημείο της προβλεψιμότητας. Έτσι, είναι ζωτικής σημασίας για την εκτίμηση του τελικού σημείου πολυπλοκότητα εκ των προτέρων καθορισμό του απαιτούμενου ελάχιστου αριθμού δειγμάτων κατάρτισης. Προτείναμε μια SSNR δείκτη σε αυτή τη μελέτη, και αξιολογείται η ικανότητά του ως ένδειξη της παραμέτρου προβλεψιμότητας. Σχήμα 3 (α) κατέδειξε τη σχέση μεταξύ SSNR και τις επιδόσεις μοντέλο που βασίζεται σε όλα τα δείγματα εκπαίδευσης με τη χρήση

NCentroid

. Εδώ μπορούμε να δούμε ότι SSNR συσχετίζεται καλά με το μοντέλο απόδοσης (τιμές MCC), με συντελεστή συσχέτισης Pearson του 0,897. Ως επιβεβαίωση, έχουμε ανταλλάξει περαιτέρω αρχικά σύνολα εκπαίδευσης και επικύρωσης, και επαναξιολογούνται τη συσχέτιση μεταξύ SSNR και τελικό σημείο της προβλεψιμότητας. Σχήμα 3 (β) απεικονίζεται αντίστοιχα αποτελέσματα. Μια συσχέτιση των 0,859 επιβεβαίωσε περαιτέρω ότι SSNR συσχετίζεται καλά με καταληκτικό σημείο της προβλεψιμότητας. Αυτό το συμπέρασμα υποστηρίζεται περαιτέρω από τη συσχέτιση των 0.875 και 0.864 για

KNN

και 0,887 και 0,901 για το

SVM ταξινομητές

όπως φαίνεται στο Σχήμα S3.

Η εκ των υστέρων σχέση μεταξύ των τιμών SSNR και προβλεψιμότητα τελικό σημείο (πρόβλεψη MCC) με βάση (α) κανονική και (β) τη μοντελοποίηση ανταλλαγής χρησιμοποιώντας

NCentroid

σε όλα τα δείγματα εκπαίδευσης. Εδώ πράσινο (α) και πορτοκαλί στήλες (β) αντιπροσωπεύουν τις τιμές SSNR που λαμβάνονται από το αρχικό σετ κατάρτισης και επικύρωσης, ενώ τα ορθογώνια που αντιμετωπίζουν κίτρινο οι αντίστοιχες τιμές πρόβλεψης MCC μοντέλων στην αρχική δείγματα επικύρωσης και της κατάρτισης, αντιστοίχως.

SSNR Οδηγοί τον προσδιορισμό του δείγματος κατάρτισης μέγεθος

Τα παραπάνω αποτελέσματα επιβεβαίωσαν ότι SSNR ήταν έγκυρη εκτίμηση της παραμέτρου προβλεψιμότητα και χρησιμεύει ως βάση για την εκτίμηση του μεγέθους του δείγματος εκπαίδευσης. Ωστόσο, τα αποτελέσματα αυτά βασίστηκαν σε εκ των υστέρων ανάλυση χρησιμοποιώντας όλα τα δείγματα εκπαίδευσης (πολύ περισσότερο από 60 ή 120 αυτά), αφήνοντας ένα άλυτο ζήτημα αν SSNR θα μπορούσε να καθοδηγήσει την εκτίμηση του μεγέθους του δείγματος εκπαίδευσης σε πραγματικές εφαρμογές. Έτσι θα αξιολογηθούν περαιτέρω τη σκοπιμότητα της χρήσης SSNR ως καθοδήγηση της εκτίμησης του μεγέθους του δείγματος εκπαίδευσης από τις ακόλουθες δύο πτυχές: πρώτον, η αξία SSNR επιθεωρήθηκε βασίζονται σε 60 ή 120 δείγματα εκπαίδευσης για να δούμε αν μπορεί να διαφοροποιήσει επιτυχώς τελικά σημεία με διαφορετική πολυπλοκότητα πρόβλεψη? δεύτερον, η αποτελεσματικότητα της SSNR επαληθεύτηκε για την εκτίμηση απαιτείται ελάχιστο μέγεθος δείγματος εκπαίδευσης σε πραγματικές εφαρμογές που χρησιμοποιούν τρεις εξωτερικές σύνολα δεδομένων επικύρωσης.

Εμείς ανακτηθεί τυχαία 60 ή 120 δείγματα από το αρχικό σύνολο εκπαίδευσης, κατασκευάστηκε ταξινομητές πρόβλεψη, προέβλεψε την αρχική επικύρωση σύνολα με τη χρήση του ταξινομητή, και στη συνέχεια καταγράφονται αντίστοιχες SSNR και πρόβλεψη τιμών MCC. Για να εξασφαλιστεί η στατιστική ισχύ, όπως η διαδικασία επαναλήφθηκε 100 φορές, με αποτέλεσμα 100 ζεύγη SSNR και MCC αξίες. Η ικανότητα των SSNR στη διαφοροποίηση τελικά σημεία με διαφορετική πολυπλοκότητα στη συνέχεια αξιολογούνται από αντίστοιχες μέσες τιμές και τυπικές αποκλίσεις (SDS). Σχήμα 4 (α) κατέδειξε τη σχέση μεταξύ των τιμών SSNR και MCC χρησιμοποιώντας 60 δείγματα κατάρτισης που βασίζεται στο

NCentroid

. Μπορούμε να δούμε ότι SSNR θα μπορούσε να διαφοροποιήσει επιτυχώς τα τρία πρώτα απλούστερες παραμέτρους (SSNR≥2) από τους άλλους, ενώ δεν υπάρχει εμφανής διαφορά δεν παρατηρήθηκε ανάμεσα στα υπόλοιπα. Με εξαίρεση τα πρώτα τρία τελικά σημεία (NB-PC, MM-PC και BR-erpos), θα αξιολογηθούν περαιτέρω η σχέση μεταξύ SSNR και MCC για τα υπόλοιπα 7 τελικά σημεία χρησιμοποιώντας 120 δείγματα εκπαίδευσης. Όπως φαίνεται στο Σχήμα 4 (b), οι πέντε τελικά σημεία με SSNR≥1 (NB-EFS, ΝΒ-OS, BR-PCR, ΜΜ-EFS και ΜΜ-OS) επιτυχώς διαχωρίζεται από τα άλλα δύο αρνητικούς μάρτυρες (SSNR & lt? 1 ) σε αυτήν την περίπτωση. Ως εκ τούτου, επιβεβαιώθηκε ότι SSNR θα μπορούσε να καθοδηγήσει τον καθορισμό του μεγέθους του δείγματος εκπαίδευσης αποτελεσματικά. Αντίστοιχα αποτελέσματα που λαμβάνονται από το

KNN

και

SVM

φαίνεται στο Σχήμα S4 επιβεβαίωσε τα παραπάνω αποτελέσματα.

Η σχέση μεταξύ των τιμών SSNR και τελικό σημείο της προβλεψιμότητας (πρόβλεψη MCC) με βάση (α ) 60 και (β) 120 δείγματα εκπαίδευσης με τη χρήση

NCentroid

, αντίστοιχα. Εδώ μπλε στήλες και μαύρες μπάρες αντιπροσωπεύουν τα μέσα και SDS αξιών SSNR σε 100 επαναλήψεις, ενώ το κίτρινο ορθογώνια και κόκκινες γραμμές είναι τα μέσα και SDS των τιμών MCC.

Προτείνεται επιπλέον ένα πρωτόκολλο SSNR που βασίζεται για προσδιορισμός του μεγέθους του δείγματος εκπαίδευσης σε αυτή τη μελέτη. Πρώτον, 60 δείγματα κατάρτιση συλλέχθηκαν και αξιολογήθηκαν αξία SSNR. Αν SSNR είναι μεγαλύτερο από 2, 60 δείγματα εκπαίδευση μέγεθος είναι αρκετά μεγάλο για να επιτευχθεί ένα σχεδόν βέλτιστο μοντέλο πρόβλεψης. Σε αντίθετη περίπτωση, τουλάχιστον 120 δείγματα εκπαίδευσης συλλέχθηκαν και αξία SSNR αξιολογήθηκε και πάλι? Αν SSNR αξία βασίζεται σε 120 δείγματα εκπαίδευσης ήταν μεγαλύτερο από 1, 120 δείγματα εκπαίδευσης είναι αρκετά για την κατασκευή μοντέλου αυτή τη φορά. Σε αντίθετη περίπτωση, η απόδοση της πρόβλεψης ταξινομητή θα πρέπει να θεωρείται ως πολύ κακή.

Τρεις εξωτερικές σύνολα δεδομένων επικύρωσης (BR2-erpos, BR3-EFS και NHL) χρησιμοποιήθηκαν περαιτέρω για να επιβεβαιώσει την απόδοση του προαναφερθέντος πρωτοκόλλου σε πραγματικές εφαρμογές. Για BR2-erpos, η αξία SSNR βασίζεται σε 60 δείγματα ασκήσεων (100 επαναλήψεις) έφθασε 2,16 ± 0,38 (μεγαλύτερο από 2), και έτσι 60 δείγματα ήταν αρκετά σύμφωνα με το πρωτόκολλο. Για BR3-EFS, οι τιμές SSNR βάση 60 και 120 δείγματα εκπαίδευσης ήταν 1,55 ± 0,23 (& lt? 2) και 1,18 ± 0,11 (& gt? 1), αντίστοιχα. Ως εκ τούτου, 120 δείγματα κατάρτισης που απαιτούνται για να επιτευχθεί ένα σχεδόν βέλτιστο μοντέλο αυτή τη φορά. Για NHL, οι τιμές SSNR βάση 60 και 120 δείγματα εκπαίδευσης ήταν 1,42 ± 0,22 (& lt? 2) και 1,25 ± 0,13 (& gt? 1), αντίστοιχα. Όσο για BR3-EFS, απαιτήθηκαν τουλάχιστον 120 δείγματα εκπαίδευσης. Το Σχήμα 5 (a-c), απεικονίζεται η απόδοση του ταξινομητών πρόβλεψης χρησιμοποιώντας διαφορετικό αριθμό δειγμάτων εκπαίδευσης για πάνω από σύνολα δεδομένων επικύρωσης. Επιβεβαίωσε τα αποτελέσματα που αναφέρθηκαν παραπάνω και η ικανότητα του πρωτοκόλλου προσδιορισμός του μεγέθους του δείγματος που προτείνονται στην παρούσα μελέτη.

Πρόβλεψη MCC βασίζεται σε διαφορετικό αριθμό δειγμάτων εκπαίδευσης για τρεις εξωτερικές σύνολα δεδομένων επικύρωσης.

συζήτηση

δεδομένα μικροσυστοιχιών έχει επιδείξει εξαιρετική υπεροχή στην υποβοήθηση του καρκίνου εκτίμηση αποτελέσματος από την παροχή ταξινομητές πρόβλεψη. Το μοντέλο αξιοπιστία εξαρτάται σε μεγάλο βαθμό από την ακρίβεια των στατιστικών παραμέτρων υπολογίζεται από δείγματα εκπαίδευσης. Ένας μικρός αριθμός των δειγμάτων εκπαίδευσης δεν μπορεί να προσφέρει μια εξαιρετικά αξιόπιστη ταξινομητή πρόβλεψη. Ως εκ τούτου, τον καθορισμό του ελάχιστου απαιτούμενου αριθμού δειγμάτων εκπαίδευσης γίνεται ένα θέμα ζωτικής σημασίας για κλινική εφαρμογή των μικροσυστοιχιών. Οι περισσότερες από τις τρέχουσες μεθόδους είναι πολύ περίπλοκο για να χρησιμοποιηθεί για τη συνήθη εφαρμογή. Ως εκ τούτου, προτείναμε μια απλή προσέγγιση SSNR με βάση για τον προσδιορισμό μέγεθος δείγματος εκπαίδευση σε αυτήν την μελέτη και απεικονίζονται χρησιμότητά του βασίζεται σε τρεις μεγάλες σειρές δεδομένων μικροσυστοιχιών παρέχονται σε MAQC-ΙΙ. Τα αποτελέσματα στις τρεις εξωτερικές σειρές επικύρωση επιβεβαιώνει ότι το πρωτόκολλο SSNR-based ήταν πολύ πιο εύκολο να εφαρμοστεί και πιο αποτελεσματική για την εκτίμηση του μεγέθους του δείγματος σε σχέση με τις τρέχουσες στατιστικές μεθόδους.

Τρία σημαντικά ευρήματα θα πρέπει να σημειωθεί σε αυτή τη μελέτη. Πρώτον, μπορεί να δει κανείς στο Σχήμα 2 ότι ο αριθμός των δειγμάτων εκπαίδευσης που ασκείται εμφανής επίδραση στην απόδοση μοντέλο, και ο ελάχιστος αριθμός των δειγμάτων εκπαίδευσης που απαιτείται για την κατασκευή μοντέλου μεταβάλλονται με καταληκτικό σημείο προβλεψιμότητα. Δεύτερον, η αξία SSNR συσχετίζεται καλά με καταληκτικό σημείο της προβλεψιμότητας με συντελεστή συσχέτισης περίπου 0.9 (Σχήμα 3), η οποία συνεπάγεται τη δυνατότητα χρήσης SSNR ως ένδειξη της παραμέτρου προβλεψιμότητας. Τρίτον, μια κλιμακωτή συνάρτηση SSNR που βασίζεται προτάθηκε στην παρούσα μελέτη για τον προσδιορισμό του ελάχιστου αριθμού δειγμάτων εκπαίδευσης με βάση τη σχέση μεταξύ του μεγέθους του δείγματος εκπαίδευσης, καταληκτικό σημείο της προβλεψιμότητας, και η αξία SSNR. Η διακριτή σχέση μεταξύ του μεγέθους του δείγματος εκπαίδευσης και της πολυπλοκότητας των τελικών σημείων επίσης υπονοείται από Mukherjee et al. στις αρχές του 2003 [23], υποστηρίζοντας περαιτέρω την προσέγγιση προσδιορισμό SSNR που βασίζεται προτείνεται στην παρούσα μελέτη. Επιπλέον, βρήκαμε ότι η προτεινόμενη προσέγγιση μπορεί επίσης να επεκταθεί με επιτυχία στις τοξικογονιδιωματικής (βλέπε Εικόνα S5).

Μια σημαντική πτυχή αυτής της μελέτης είναι ότι η εμπιστοσύνη των προαναφερθέντων ευρημάτων επιβεβαιώθηκε επίσης από τις δύο εσωτερικές και εξωτερικές στρατηγικές επικύρωση . Για την εσωτερική επικύρωση, δύο θετικές (NB-PC, MM-PC) και δύο αρνητικού ελέγχου (NB-NC, MM-NC) σύνολα δεδομένων ήταν απαραίτητα για την αξιολόγηση της απόδοσης των κλινικά σχετικές παραμέτρους κατά τη θεωρητική μέγιστη και την ελάχιστη απόδοση που παρέχεται από τους ελέγχους . Συγκεκριμένα, οι πολύ υψηλότερες τιμές SSNR για δύο θετικά σύνολα δεδομένων ελέγχου που φαίνεται στο Σχήμα 4 (α) επιβεβαίωσε την ικανότητα να χρησιμοποιεί SSNR ως ένδειξη της παραμέτρου προβλεψιμότητα, ενώ η αμελητέα επίπτωση του μεγέθους του δείγματος κατάρτισης στις επιδόσεις μοντέλο σε δύο αρνητικές σύνολα δεδομένων ελέγχου περαιτέρω απαγορεύει η πιθανότητα ψευδώς θετικών αποτελεσμάτων. Έτσι, συμπεριλαμβανομένων των θετικών και αρνητικών σύνολα δεδομένων ελέγχου σε τέτοιες αναλύσεις, θα είναι μεγάλη βοήθεια για την εξασφάλιση της αξιοπιστίας των τελικών αποτελεσμάτων. Επιπλέον, η αξιοπιστία της διαδικασίας κατάρτισης μπορεί να εξακριβωθεί μόνο από τα δείγματα εξωτερική επικύρωση. Ως εκ τούτου, τα εξωτερικά σύνολα δεδομένων επικύρωσης, μαζί με τους εσωτερικούς ελέγχους έχουν διαδραματίσει σημαντικό ρόλο στην επιβεβαίωση της ικανότητας προσέγγισης προσδιορισμός του μεγέθους του δείγματος εκπαίδευσης SSNR που βασίζονται σε αυτή τη μελέτη.

Παρόμοια αποτελέσματα ελήφθησαν από τρεις γνωστές μεθόδους ταξινόμησης που χρησιμοποιούνται σε η μελέτη αυτή (δηλαδή

NCentroid

KNN και SVM

, με αντίστοιχα αποτελέσματα παρέχονται στο Σχήμα 2 και Σχήμα S1 και S2, αντίστοιχα) επιβεβαίωσαν περαιτέρω την αξιοπιστία της εκτίμησης του μεγέθους του δείγματος εκπαίδευσης SSNR-based πλησιάζω. Ο λόγος είναι έξω από το πεδίο εφαρμογής της παρούσας μελέτης. Ωστόσο, το φαινόμενο αυτό είναι σύμφωνο με την έλλειψη σημαντικών διαφορών μεταξύ ενός μεγάλου αριθμού μεθόδων ταξινόμησης που αναφέρθηκαν για εφαρμογές μικροσυστοιχιών την άποψη της απόδοσης πρόβλεψης [24]. Ένα παρόμοιο συμπέρασμα προτάθηκε επίσης από MAQC-II [6]. Τα αποτελέσματα αυτά θα αποκλείει τον περιορισμό των διαφορετικών αλγορίθμων ταξινόμησης, και να επεκτείνει περαιτέρω τη δυνατότητα εφαρμογής της προσέγγισης προσδιορισμός του μεγέθους του δείγματος εκπαίδευσης SSNR-based.

Η ανωτερότητα και η εφαρμογή της προσέγγισης SSNR που βασίζεται μπορούν να συνοψιστούν ως εξής. Πρώτον, από στατιστική άποψη, δεν ήταν προκατειλημμένη από τις διαδικασίες έκπτωσης αποφεύγοντας εξελιγμένα στατιστικούς υπολογισμούς. Δεύτερον, όσον αφορά τις κλινικές εφαρμογές ρουτίνας, είναι πολύ πιο απλή και αποτελεσματική, καθώς οι μόνες απαιτήσεις συλλογής 60 ή /και 120 δειγμάτων και τον υπολογισμό των αντίστοιχων τιμών SSNR. Εν τω μεταξύ, το πρωτόκολλο που βασίζεται SSNR μπορεί επίσης να παρέχει μια πολύτιμη στρατηγική για την εκτίμηση της απόδοσης των ταξινομητών εκ των προτέρων. Λαμβάνοντας εξωτερικά σύνολα δεδομένων επικύρωσης φαίνεται στο Σχήμα 5, ως παράδειγμα, τις αξίες SSNR είναι 2,16 ± 0,38 και 1,18 ± 0,11 για BR2-erpos, και BR3-EFS επίσης να εννοηθεί ότι η απόδοση του τελικού ταξινομητές πρόβλεψη στην περίπτωση αυτή θα είναι εξαιρετική, και μέτρια , αντίστοιχα.

Συμπεράσματα

τεχνολογία μικροσυστοιχιών σε συνδυασμό με την αναγνώριση προτύπων έχει αποδειχθεί ως μια πολλά υποσχόμενη στρατηγική για την παροχή ταξινομητές πρόβλεψη για τη διάγνωση του καρκίνου, την πρόγνωση και την ανταπόκριση στη θεραπεία εκτίμησης και ούτω καθεξής. Συγκρινόμενη με τις παραδοσιακές εμπειρία που βασίζεται διάγνωση βασίζεται σε πολύπλοκες βιοχημικές δοκιμές και διάφορα συστήματα εικόνας, που βασίζεται σε μικροδιάταξη ταξινομητές πρόβλεψη, εάν κατασκευαστεί αξιόπιστα από αρκετά δείγματα εκπαίδευσης, θα προσφέρει μια πολύ πιο αντικειμενική, ακριβής και έγκυρη απεικόνιση των αποτελεσμάτων του καρκίνου. Κατά συνέπεια, η προσέγγιση προσδιορισμός του μεγέθους του δείγματος εκπαίδευσης SSNR με βάση θα παρέχει μεγάλη ευκολία για κλινική εφαρμογή των μικροσυστοιχιών στην αξιολόγηση έκβαση του καρκίνου, παρέχοντας ένα απλό και ρεαλιστικό τρόπο υπολογισμού του μεγέθους του δείγματος εκπαίδευσης. Επιπλέον, το γεγονός ότι οι επιπτώσεις μέγεθος του δείγματος εκπαίδευσης η απόδοση του τελικού ταξινομητές πρόβλεψης συνεπάγεται περαιτέρω τη σημασία της συστηματικής αξιολόγησης κάθε διαδικασία στο πλαίσιο της διαδικασίας μοντέλο κατασκευή και την ανάπτυξη πρακτικών οδηγιών για την ταξική ανάλυση σύγκρισης μικροσυστοιχιών-based.

Υποστήριξη Πληροφορίες

Εικόνα S1.

Μια πρόσθετη τιμή για την επίδραση του μεγέθους του δείγματος εκπαίδευσης με τη χρήση

KNN

. Πρόβλεψη MCC βασίζεται σε διαφορετικό αριθμό δειγμάτων κατάρτισης για 10 παραμέτρους χρησιμοποιώντας το

KNN

Η doi:. 10.1371 /journal.pone.0068579.s001

(ΔΕΘ)

Εικόνα S2.

Μια πρόσθετη τιμή για την επίδραση του μεγέθους του δείγματος εκπαίδευσης με τη χρήση

SVM

. Πρόβλεψη MCC βασίζεται σε διαφορετικό αριθμό δειγμάτων κατάρτισης για 10 παραμέτρους χρησιμοποιώντας το

SVM

Η doi:. 10.1371 /journal.pone.0068579.s002

(ΔΕΘ)

Εικόνα S3.

Μια πρόσθετη τιμή για τη σχέση μεταξύ SSNR και τελικό σημείο πρόβλεψης βασίζεται σε όλα τα δείγματα εκπαίδευσης. Η εκ των υστέρων σχέση μεταξύ των τιμών SSNR και τελικό σημείο της προβλεψιμότητας (πρόβλεψη MCC) με βάση την κανονική και ανταλλαγής μοντελοποίηση χρησιμοποιώντας το

KNN

και

SVM

σε όλα τα δείγματα εκπαίδευσης

doi:. 10.1371 /περιοδικό .pone.0068579.s003

(ΔΕΘ)

Εικόνα S4.

Μια πρόσθετη τιμή για τη σχέση μεταξύ SSNR και τελικό σημείο πρόβλεψης βασίζεται σε 60 και 120 δείγματα εκπαίδευσης. Η σχέση μεταξύ των τιμών SSNR και προβλεψιμότητα τελικό σημείο (πρόβλεψη MCC) με βάση (α) 60 και (β) 120 δείγματα εκπαίδευσης με τη χρήση

KNN

και

SVM

, αντίστοιχα

doi:. 10.1371 /journal.pone.0068579.s004

(ΔΕΘ)

Εικόνα S5.

Ένα πρόσθετο ποσό για την επίδραση του μεγέθους του δείγματος κατάρτισης για τοξικογονιδιοματικές σύνολο δεδομένων NIEHS

doi:. 10.1371 /journal.pone.0068579.s005

(ΔΕΘ)

Πίνακα S1.

αντίστοιχες τιμές ν για διαφορετικό μέγεθος του δείγματος εκπαίδευσης των 10 τελικών σημείων χρησιμοποιώντας το

NCentroid

Η doi:. 10.1371 /journal.pone.0068579.s006

(DOCX)

Μέθοδοι S1 ..

doi: 10.1371 /journal.pone.0068579.s007

(DOC)

Ευχαριστίες

Οι συγγραφείς θα ήθελαν να ευχαριστήσω τους παρόχους δεδομένων για την ανταλλαγή δεδομένων και πληροφοριών τους για το MAQC Κοινοπραξία.

Χρόνιες ασθένειες

PLoS One: Προσδιορισμός των ελάχιστων Κατάρτισης Μέγεθος δείγματος για μικροσυστοιχιών βασισμένη Καρκίνος Αποτέλεσμα Πρόβλεψη-Εμπειρική Assessment