PLoS One: Κάντρα: Καρκίνος-συγκεκριμένο πρόγραμμα οδήγησης παρερμηνεύσιμη μετάλλαξη Σχολιασμός με βελτιωμένα χαρακτηριστικά


Αφηρημένο

μεταλλάξεις οδηγού είναι σωματικές μεταλλάξεις που παρέχουν πλεονέκτημα ανάπτυξης σε καρκινικά κύτταρα, ενώ οι μεταλλάξεις των επιβατών είναι αυτά που δεν συνδέονται λειτουργικά με την ογκογένεση. Η διάκριση των οδηγών από τους επιβάτες είναι δύσκολη επειδή οι οδηγοί να συμβεί πολύ λιγότερο συχνά από ό, τι οι επιβάτες, τείνουν να έχουν χαμηλό επιπολασμό, οι λειτουργίες τους είναι πολυπαραγοντική και όχι διαισθητικά προφανές. νοηματικές μεταλλάξεις είναι άριστοι υποψήφιοι ως οδηγοί, όπως αυτά συμβαίνουν συχνότερα και είναι δυνητικά πιο εύκολο να εντοπιστούν από άλλους τύπους μεταλλάξεων. Αν και έχουν αναπτυχθεί διάφορες μέθοδοι για την πρόβλεψη της λειτουργικής αντίκτυπο των εσφαλμένου νοήματος μεταλλάξεις, μόνο λίγα έχουν σχεδιαστεί ειδικά για τον εντοπισμό μεταλλάξεων του οδηγού. Καθώς όλο και περισσότεροι μεταλλάξεις που ανακαλύπτονται, πιο ακριβή μοντέλα πρόβλεψης μπορούν να αναπτυχθούν με τη χρήση μηχανικής μάθησης προσεγγίσεις που χαρακτηρίζουν συστηματικά το κοινό και ιδιαιτερότητα των νοηματικές μεταλλάξεις υπό το φόντο συγκεκριμένων τύπων καρκίνου. Εδώ, σας παρουσιάζουμε ένα εργαλείο σχολιασμού οδηγό καρκίνο (Κάντρα) που προβλέπει μεταλλάξεις οδηγού εσφαλμένου νοήματος που βασίζεται σε ένα σύνολο 95 διαρθρωτικές και εξελικτική χαρακτηριστικά υπολογίζονται πάνω από 10 λειτουργικά αλγόριθμους πρόβλεψης, όπως χάσματος SIFT, και MutationAssessor. Μέσω της βελτιστοποίησης λειτουργία και την εποπτεία της κατάρτισης, Κάντρα ξεπερνά τα υπάρχοντα εργαλεία για την ανάλυση της πολύμορφο γλοιοβλάστωμα και σύνολα δεδομένων καρκίνωμα των ωοθηκών στο The Cancer Genome Atlas και το καρκινικό κύτταρο Γραμμή έργο Εγκυκλοπαίδεια

Παράθεση:. Μάο Υ, Chen H, Liang Η , Meric-Bernstam F, Mills GB, Chen Κ (2013) Κάντρα: Καρκίνος-συγκεκριμένο πρόγραμμα οδήγησης παρερμηνεύσιμη μετάλλαξη Σχολιασμός με βελτιωμένα χαρακτηριστικά. PLoS ONE 8 (10): e77945. doi: 10.1371 /journal.pone.0077945

Επιμέλεια: Tatjana Adamovic, του Ινστιτούτου Καρολίνσκα, στη Σουηδία

Ελήφθη: 13 του Ιούνη του 2013? Αποδεκτές: 5 Σεπτεμβρίου του 2013? Δημοσιεύθηκε: 30 του Οκτώβρη 2013

Copyright: © 2013 Μάο et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε εν μέρει από το Εθνικό Ινστιτούτο Υγείας (https://www.nih.gov/) [αριθμός επιχορήγηση 1R01CA172652, CA168394, CA083639, CA143883, UL1TR000371 και 1U01CA180964]? το MD Anderson Cancer Center Sheikh Khalifa Ben Zayed Al Nahyan Ινστιτούτο Εξατομικευμένη Θεραπεία του καρκίνου (https://www.mdanderson.org/education-and-research/research-at-md-anderson/personalized-advanced-therapy/institute-for-personalized-cancer-therapy/index.html) και το Εθνικό Grant Καρκίνος Ινστιτούτο Κέντρο Υποστήριξης (https://cancercenters.cancer.gov/) [P30 CA016672]. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Ο καρκίνος είναι μια πολύπλοκη γενετική ασθένεια. Η εμφάνιση και η εξέλιξη των περισσότερων καρκίνων μπορεί να αποδοθεί στη συσσωρευμένη μεταλλάξεις στο γονιδίωμα του καρκίνου [1]. Σε διαφορετικά στάδια της ογκογένεσης, μια ομάδα βασικών μεταλλάξεων, που ονομάζεται οδηγούς, μεταβάλλει σημαντικά τη φυσιολογική κυτταρική συστήματος [2], [3] και προσδίδουν ανάπτυξη και την επιβίωση πλεονεκτήματα για καρκινικά κύτταρα [4]. Ωστόσο, λόγω της εγγενούς αστάθειας γενωμική παρόν σε όγκους, οι μεταλλάξεις συμβαίνουν οδηγός για το φόντο ενός μεγάλου αριθμού μεταλλάξεων, που ονομάζεται επιβάτες, που δεν σχετίζονται λειτουργικά ογκογένεση. Η ταυτοποίηση των μεταλλάξεων του οδηγού είναι μια κρίσιμη αποστολή της γονιδιωματικής καρκίνου. Λίγες οδηγοί έχουν ταυτοποιηθεί και χρησιμοποιούνται ευρέως ως διαγνωστικοί ή /και προγνωστικός βιοδεικτών, ή ως φαρμακευτικοί στόχοι για τη θεραπεία του καρκίνου [5], [6]. Έρευνα που ανακρίνουν συγκεκριμένες μεταλλάξεις οδηγού και κλινικές επιπτώσεις τους γίνονται ευρέως διεξάγεται για πολλούς τύπους καρκίνου [7], [8], ωστόσο, περισσότερες προσπάθειες απαιτούνται για τη συστηματική γονιδιώματος-ευρεία χαρακτηρισμός των μεταλλάξεων του οδηγού και λειτουργικές επιπτώσεις τους.

Η πλειονότητα των μεταλλάξεων ανιχνεύονται σε καρκίνο είναι μεταλλάξεις σημείου. Όταν συμβαίνουν σε περιοχές κωδικοποίησης των γονιδίων, μπορούν να μεταβάλλουν αλληλουχίες που κωδικοποιούν πρωτεΐνες, επηρεάζουν τη δομή της πρωτεΐνης και η έκφραση, ή να διαταράξουν αλληλεπιδράσεις πρωτεΐνης-πρωτεΐνης [9]. Οι μεταλλάξεις που μεταβάλλουν αλληλουχίες αμινοξέων που ονομάζονται μη συνώνυμες μεταλλάξεις μεταξύ των οποίων η πλειοψηφία είναι παρανοηματικές μεταλλάξεις που υπολείμματα υποκατάστατο αμινοξέων. Σε αντίθεση με μετατόπιση πλαισίου ή ανοησία μεταλλάξεις, οι οποίες συνήθως οδηγούν σε κομμένες πρωτεΐνες, η λειτουργία των νοηματικές μεταλλάξεις είναι λιγότερο προφανής. Παρ ‘όλα αυτά, ένας μεγάλος αριθμός των νοηματικές μεταλλάξεις έχουν καταδειχθεί ως οδηγοί, όπως ο

BRAF

V600E μετάλλαξη στο μελάνωμα [10], και

KRAS

G12D και G12V μεταλλάξεις σε καρκίνο του παχέος εντέρου [11] .

Η σπανιότητα και η χαμηλή συχνότητα των μεταλλάξεων του οδηγού καθιστούν εξαιρετικά δύσκολο να προβλέψει κανείς τη χρήση συμβατικών στατιστικών μεθόδων που απαιτούν μέτρια μεγέθη δείγματος [1], [12] – [14]. Μεγάλο μέρος της σποραδικότητας δεδομένων μπορεί να αποδοθεί σε έναν υψηλό βαθμό γενετική ετερογένεια υποκείμενων κλινικά καθορισμένων τύπων καρκίνου. Επιπλέον, η λειτουργία μιας μετάλλαξης παρερμηνεύσιμη μπορεί να εξαρτάται από πολλούς άλλους παράγοντες που είναι μεταβλητές υπό διαφορετικές συνθήκες, όπως η γενετική προδιάθεση, η παρουσία άλλων σωματικών μεταλλάξεων, κυτταρική γραμμή, και το στάδιο της κακοήθειας.

Κατά τα τελευταία έτη , έχουν πολλαπλές υπολογιστικές μέθοδοι έχουν προταθεί για την αξιολόγηση της λειτουργικής αντίκτυπο των νοηματικές μεταλλάξεις. Συλλογικά, αυτές οι μέθοδοι έχουν υπολογιστεί περισσότερο από 90 σχετικές ποσότητες ή χαρακτηριστικά που περιγράφουν τις ιδιότητες μιας μετάλλαξης και των συναφών θέση του από τις πλευρές του (α) εξελικτικής διατήρησης, (β) οι φυσικοχημικές ιδιότητες των πρωτεϊνών, (γ) πεδία πρωτεΐνης, και (δ) το πλαίσιο ακολουθία. Διαφορετικές μέθοδοι μπορούν να χρησιμοποιήσουν αυτά τέσσερις τύπους χαρακτηριστικών μεμονωμένα ή σε συνδυασμό. Ειδικότερα, MutationAssessor [9] και SIFT [15] χρησιμοποιούν τον τύπο (α) χαρακτηριστικά, SNPs3D χρησιμοποιεί τύπους (α) και (β), CanPredict [16] χρησιμοποιεί τύπους (α) και (γ), MutationTaster [17] και SNAP [18] χρησιμοποιούν τύπους (α), (β) και (γ), και CHASM [19] και PolyPhen 2 [20] χρησιμοποιήσετε και τις τέσσερις τύπους χαρακτηριστικών.

οι περισσότερες από αυτές τις μεθόδους έχουν σχεδιαστεί για να λύσει ένα γενικό γενετικό πρόβλημα, δηλαδή, διακρίσεις επιβλαβείς μεταλλάξεις από μη δηλητηριώδη αυτά. Ωστόσο, οι περισσότεροι από τους αλγορίθμους δεν θεωρούν τη συγκεκριμένη γενετική ασθένεια ή πλαίσιο στο οποίο λαμβάνει χώρα μία μετάλλαξη. Αν και μπορούν να εφαρμοστούν για την αξιολόγηση σωματικές μεταλλάξεις εσφαλμένου νοήματος, τα αποτελέσματα δεν έχουν σαφώς ειδικότητα [13], [14], [19]. Δεδομένου ότι οι μεταλλάξεις του οδηγού ορίζεται κάτω από ένα συγκεκριμένο πλαίσιο νόσο, μια μέθοδος πρόβλεψης μετάλλαξη οδηγός δεν θα είναι ακριβής, χωρίς να λάβει υπόψη συγκεκριμένες ασθένειες παράγοντες όπως ο τύπος του καρκίνου, το στάδιο της νόσου, η επικράτηση μετάλλαξη, το φάσμα μετάλλαξη, και άλλα κλινικά χαρακτηριστικά.

Μεταξύ των δημοσιευμένων μεθόδων το βάραθρο είναι η μόνη που θεωρεί ρητά καρκίνο τύπου ειδικοί παράγοντες [19]. Σε χάσματος είναι 86 διαφορετικά χαρακτηριστικά από τους τέσσερις τύπους χαρακτηριστικό που χρησιμοποιείται για να χαρακτηρίσει κάθε παρερμηνεύσιμη μετάλλαξη, και τα μοντέλα ταξινόμησης εκπαιδεύονται σε καρκίνο του τύπου-ειδικό τρόπο, χρησιμοποιώντας ένα τυχαίο αλγόριθμο δάσος. Τα δεδομένα εκπαίδευσης για έναν τύπο καρκίνου περιλαμβάνουν μια σειρά από επιμελημένες μεταλλάξεων του οδηγού ως θετικά παραδείγματα και ένα σχεδόν ίσο αριθμό συνθετικών μεταλλάξεων των επιβατών (SPMs) ως αρνητικά παραδείγματα.

Αν και CHASM αντιπροσωπεύει μια σημαντική πρόοδο στην πρόβλεψη μεταλλάξεις οδηγού, υπάρχουν μερικές προειδοποιήσεις. Πρώτον, δεν είναι σαφές εάν οι SPMs είναι επαρκή μοντελοποίηση το ευρύ φάσμα των μεταλλάξεων των επιβατών που συμβαίνουν. Περαιτέρω, τα πρόσφατα στοιχεία έχουν δείξει ότι η εμφάνιση μεταλλάξεων των επιβατών επηρεάζεται από οριζόμενων παράγοντες, π.χ., το πλαίσιο ακολουθία, το χρονοδιάγραμμα αντιγραφή και έκφραση των γονιδίων, τα οποία είναι πιθανό να μην εκπροσωπούνται επαρκώς από το σύνολο των τυχαίων SPMs [21], [22]. Δεύτερον, οι πρόσφατες μέθοδοι έχουν δημιουργήσει νέα έξυπνη χαρακτηριστικά [9], [23] – [26] που δεν ελήφθησαν υπόψη στην ανάπτυξη του αλγορίθμου χάσμα. Τρίτον, δεν είναι σαφές αν η τυχαία αλγόριθμο δάσος είναι η βέλτιστη λόγω του σχετικά μικρού μεγέθους του συνόλου εκπαίδευσης και της μεγάλης διάστασης των συνόλων δεδομένων που πρόκειται να αναλυθεί. Τέταρτον, η μεγάλη ποσότητα των δεδομένων μετάλλαξης συσσωρευτεί από την πρόσφατη μεγάλης κλίμακας έργα αλληλουχίας του γονιδιώματος του καρκίνου και των έργων που βασίζονται στην κοινότητα, συμπεριλαμβανομένης της κλινικής αλληλουχίας δεν έχουν επαρκώς ενσωματωθεί CHASM να βελτιώσει την προφητική δύναμη.

Λόγω αυτών των ζητημάτων, με στόχο να αξιολογηθεί κατά πόσον πιο ακριβείς προβλέψεις μετάλλαξη του οδηγού μπορεί να επιτευχθεί με τη συστηματική ενσωμάτωση της μεγάλης ποσότητας των νέων διαθέσιμων στοιχείων και των υφιστάμενων αλγορίθμων. Ξεκινήσαμε εκτελώντας μια ολοκληρωμένη ανάλυση των δεδομένων μετάλλαξης στην κοσμική βάση δεδομένων [27], ο καρκίνος Genome Atlas (TCGA), και του έργου Cancer Cell Γραμμή Εγκυκλοπαίδεια (CCLE) [28] και τα παράγωγα σύνολα δεδομένων εκπαίδευσης και δοκιμών για τους εποπτευόμενους μοντέλο κατάρτισης και αξιολόγησης. Πραγματοποιήσαμε μια λεπτομερή ανάλυση των υφιστάμενων εργαλείων για να συγκρίνουν και να επιλέγουν τις πιο αποτελεσματικές λειτουργίες. Οι προσπάθειές μας οδήγησε σε ένα νέο εργαλείο σχολιασμού του οδηγού του καρκίνου, Κάντρα, που ενσωματώνει επιμελημένες τα δεδομένα και τα χαρακτηριστικά μας, για να υπολογίσει ένα σκορ οδηγό για κάθε πιθανό παρερμηνεύσιμη μετάλλαξη σε ένα συγκεκριμένο τύπο καρκίνου στον άνθρωπο. Έχουμε αποδείξει ότι Κάντρα επιτευχθεί καλύτερη ευαισθησία και ειδικότητα από ό, τι άλλα εργαλεία για την πρόβλεψη των μεταλλάξεων του οδηγού στο πολύμορφο γλοιοβλάστωμα (GBM) και καρκίνωμα ωοθηκών (OVC). Κάντρα και οι σχετικές σύνολα δεδομένων για κύριους τύπους καρκίνου (π.χ., του μαστού, του παχέος εντέρου, κακόηθες μελάνωμα και τον καρκίνο του δέρματος πλακωδών κυττάρων) είναι διαθέσιμα σε https://bioinformatics.mdanderson.org/main/CanDrA.

Υλικά και μέθοδοι

δεδομένα Επιμέλειας

Το αυστηρό σύνολο (S).

Δύο σύνολα δεδομένων παρερμηνεύσιμη μετάλλαξη, GBM και ΕΗΦ, ήταν σε επιμέλεια από εκείνα που αναφέρονται στην κοσμική (V58), TCGA, και το έργο CCLE. δεδομένα TCGA περιείχε συνολικά 727 μεταλλάξεις από 142 δείγματα GBM και 11005 μεταλλάξεις από 316 δείγματα OVC [13], [14]. Η κοσμική δεδομένα που περιέχονται 640 μεταλλάξεις από 351 δείγματα πρωτογενούς όγκου GBM και 237 από 212 ΕΗΦ δείγματα πρωτογενούς όγκου. Ορίσαμε μια μετάλλαξη του οδηγού, όπως αυτή που παρατηρήθηκε σε τουλάχιστον δύο διαφορετικά δείγματα, είτε από TCGA ή COSMIC. Για να είναι αυστηρές, αποκλείσαμε επαναλαμβανόμενες μεταλλάξεις που συνέπεσε με άλλα πιθανά λειτουργικά μεταλλάξεις όπως indels, μεταλλάξεις χωρίς νόημα, ασταμάτητα μεταλλάξεις, μεταλλάξεις θέση ματίσματος, και οι μεταλλάξεις θέση έναρξης της μετάφρασης στο ίδιο γονίδιο του ίδιου δείγματος. Εκείνοι που αλληλεπικαλύπτονται με τοποθεσίες dbSNP επίσης εξαιρούνται. Η διαδικασία αυτή είχε ως αποτέλεσμα 67 μεταλλάξεις οδηγού για GBM και 61 για OVC, οι περισσότεροι (92,5% και 80,3%, αντίστοιχα) από τα οποία είχε θεωρηθεί ως οδηγοί σε προηγούμενες μελέτες [19].

Έχουμε επιλέξει μεταλλάξεις των επιβατών από την υπερ -mutated δείγματα, τα οποία έχουν ανεπάρκεια στην επισκευή βλάβης του DNA και έχουν πολύ υψηλότερα κλάσματα των μεταλλάξεων των επιβατών από τα δείγματα μη-υπερ-μεταλλαγμένα [14]. Τρία δείγματα GBM ταυτοποιήθηκαν από TCGA, το καθένα με πάνω από 55 μεταλλάξεις εσφαλμένου νοήματος, και δύο OVC δείγματα ταυτοποιήθηκαν, το καθένα με πάνω από 130 μεταλλάξεις. Ένας υποψήφιος αποκλείστηκε εάν βρισκόταν σε οποιοδήποτε γονίδιο του καρκίνου (όπως ορίζεται από το κοσμικό απογραφή καρκίνο ή από τη μελέτη CHASM), ή επικαλύπτονται με dbSNP. Τέλος, 95 και 246 μεταλλάξεις αντίστοιχα επιλεγεί για GBM και OVC. Έχουμε επιμελήθηκε επίσης ένα δεύτερο σύνολο μεταλλάξεων των επιβατών από το έργο CCLE, το οποίο περιέχει μεταλλάξεις από 27 κυτταρικές γραμμές GBM και 19 OVC κυτταρικές σειρές. Μετά την εφαρμογή τα ίδια κριτήρια, επιλέχθηκαν 490 μεταλλάξεις για GBM και 462 μεταλλάξεις για OVC

Εν ολίγοις, σχηματίστηκαν τέσσερις αυστηρές σετ:. GBM.S1, GBM.S2, OVC.S1 και OVC.S2 (Πίνακας 1 και πίνακες S1-S4 στο αρχείο S1). Αυτά τα σύνολα χρησιμοποιήθηκαν ως ανεξάρτητη δοκιμή θέτει για τη μέτρηση των επιδόσεων Κάντρα έναντι εκείνων των άλλων εργαλείων.

Η

Η διευρυμένη σειρά (Ε).

Πολλές μεταλλάξεις συμβαίνουν κατ ‘επανάληψη σε κοντινή απόσταση (hotspots) σε διάφορους τύπους καρκίνου. Για παράδειγμα, το

BRAF V600

μετάλλαξη συμβαίνει στο θηλώδες καρκίνωμα του θυρεοειδούς, του παχέος εντέρου, το μελάνωμα και τον καρκίνο του πνεύμονα μη-μικρού κυττάρου, όπως κάνουν

BRAF

N580S, E585K, D593V, F594L, G595R , L596V, T598I, V599D, V599E, V599K, μεταλλάξεις V599R, K600E και A727V. Οι περισσότερες από αυτές τις μεταλλάξεις είναι συγκεντρωμένα σε δύο περιοχές hotspot: γλυκίνης πλούσια Ρ βρόχο του Ν λοβό και το τμήμα ενεργοποίησης και πλευρικές περιοχές [29]. Πολλές παρόμοιες μεταλλάξεις hotspot που παρατηρήθηκαν σε

TP53, PIK3CA, KRAS,

μεταξύ άλλων [30], [31]. Αυτές οι μεταλλάξεις έχουν παρόμοιες ιδιότητες και είναι πιθανό να έχουν παρόμοιες λειτουργίες σε διάφορους τύπους καρκίνου. Να εκπροσωπεί τέτοια κοινά σε όλους τους τύπους καρκίνου, κατασκευάσαμε ένα καρκίνο ειδικού τύπου, αλλά εκτεταμένο σύνολο των οδηγών και των επιβατών με τη χρήση των ακόλουθων εμπειρικών κανόνων.

Για ένα συγκεκριμένο τύπο καρκίνου, καλούμε μια παρερμηνεύσιμη μετάλλαξη μια μετάλλαξη του οδηγού, αν συμβαίνει σε ένα γονίδιο μεταλλαχθεί σε αυτόν τον τύπο καρκίνου και 1), αυτό παρατηρείται σε τουλάχιστον 3 δείγματα πρωτογενούς όγκου (ανεξάρτητα από τον τύπο του καρκίνου), ή 2) θέση του τέμνει τουλάχιστον 4 μεταλλάξεις (συμπεριλαμβανομένων indels, δινουκλεοτίδιο ή μεταλλάξεις τρινουκλεοτιδίου), ή 3) θα επικεντρώνεται σε μια περιοχή 25 bp που τέμνει τουλάχιστον 5 μεταλλάξεις στην κοσμική βάση δεδομένων. Εμείς αφαιρείται μεταλλάξεις οδηγού στο σύνολο S από αυτό το σύνολο να εξασφαλίσουν αμοιβαία ανεξαρτησία τους. Η διαδικασία αυτή είχε ως αποτέλεσμα το 1529 και το 1768 υποθετικό οδηγούς για GBM και OVC, αντίστοιχα.

μεταλλάξεις των επιβατών ενός τύπου καρκίνου επιλέχθηκαν όπως αυτές που συμβαίνουν μόνο μια φορά σε δείγματα πρωτογενούς όγκου αυτού του τύπου καρκίνου, δεν είναι σε καμία COSMIC καρκίνο γονίδιο απογραφή, και δεν συμπίπτουν με οποιεσδήποτε άλλες μεταλλάξεις μέσα σε ένα 31-bp παράθυρο σε ολόκληρο το COSMIC βάση δεδομένων. Σας αφαιρείται επίσης μεταλλάξεις των επιβατών στο σύνολο S από αυτό το σύνολο. Η διαδικασία αυτή είχε ως αποτέλεσμα το 1259 και 8075 επιβάτες για GBM και OVC, αντίστοιχα (Πίνακας 1)

Με το συνδυασμό αυτών των υποθετικών οδηγούς και τους επιβάτες για κάθε τύπο καρκίνου, δύο επεκτάθηκε σύνολα δεδομένων σχηματίστηκαν

:. GBM.Ex και OVC.Ex . Είχαν χρησιμοποιηθεί ως σύνολα εκπαίδευσης μας για την επιλογή χαρακτηριστικών και υπό την εποπτεία της κατάρτισης

περιγραφικά χαρακτηριστικά

Για κάθε παρερμηνεύσιμη μετάλλαξη, 95 χαρακτηριστικά (Πίνακας S5 στο S1 αρχείου) αποκτήθηκαν από τέσσερις πύλες δεδομένα:. CHASM του SNVBOX [19], Ensembl παραλλαγή Επίδραση Predictor [32], η μετάλλαξη Αξιολογητής [9] και ANNOVAR [33]. Μεταξύ αυτών είναι UniProtKB σχολιασμούς, εξελικτική βαθμολογίες διατήρησης, πρωτεΐνη φυσικοχημικές ιδιότητες, δείκτες πλαίσιο ακολουθία, και λειτουργικά αποτελέσματα των επιπτώσεων υπολογίζονται από αλγόριθμους όπως SIFT [15], PolyPhen-2 [20], CONDEL [25], η μετάλλαξη Αξιολογητής [9], PhyloP [26], GERP ++ [24] και LRT [23].

Δυνατότητα επιλογής και αξιολόγησης

Ένα μικρό κλάσμα περίπου 6,0% των δεδομένων δεν ήταν διαθέσιμα από αυτές τις πύλες δεδομένων. SNVBOX έχασε περίπου 13,3% των δεδομένων σε 29 χαρακτηριστικά, διότι δεν υπάρχει σχετική UniProt πληροφορίες τομέα πρωτεΐνη για ορισμένες θέσεις μετάλλαξης. ANNOVAR έχασε περίπου το 15% των δεδομένων σε χαρακτηριστικά όπως Phylop, Gerp ++ και βαθμολογίες LRT από άγνωστη αιτία. Για τη διευκόλυνση της έρευνας μας, υποκατεστημένο των ελλειπουσών χαρακτηριστικά με εκείνα από τις πλησιέστερες μεταλλάξεις στο ίδιο γονίδιο χρησιμοποιώντας ένα k-πλησιέστερου γείτονα αλγόριθμο. Η αξιολόγησή μας επηρεάστηκε ελάχιστα από αυτή τη λειτουργία, επειδή επιλεγμένα σύνολα δοκιμής μας ήταν σχεδόν απαλλαγμένη από τα χαρακτηριστικά που λείπουν.

Εκτιμήσαμε την προγνωστική απόδοση κάθε χαρακτηριστικό με βάση το Mann-Whitney U και την περιοχή κάτω από την καμπύλη (AUC ) του δέκτη καμπύλης. Χαρακτηριστικά με μη σημαντικές

αξίες σ

μετά τη διόρθωση Bonferroni και AUCs κάτω από ένα συγκεκριμένο όριο αποκλείστηκαν από την περαιτέρω ανάλυση? όπως ήταν μερικά χαρακτηριστικά που μπορεί να εισαγάγει το σύνολο δεδομένων (πληθυσμός) -εξειδικευμένης τάσεων (π.χ., AACOSMIC). Στη συνέχεια αξιολογούνται οι συνδυασμοί τη δυνατότητα χρησιμοποιώντας ένα αλγόριθμο υβριδικό επιλογής χαρακτηριστικών. Πρώτον, όλοι οι πιθανοί συνδυασμοί με λιγότερους από 4 επιλεγμένα χαρακτηριστικά μετρήθηκαν και αξιολογήθηκαν με βάση τις μέσες τιμές AUC από 10 φορές διασταυρωμένης επικύρωσης (επαναλαμβάνεται 5 φορές) στο σύνολο δεδομένων εκπαίδευσης. Δεύτερον, ο καλύτερος συνδυασμός χαρακτηριστικό επεκτάθηκε περαιτέρω χρησιμοποιώντας μια στρατηγική αναζήτησης με αναρρίχηση λόφων [34], η οποία περιελάμβανε επαναληπτικά τις υπόλοιπες λειτουργίες στην τρέχουσα συνδυασμό. Το σύνολο των χαρακτηριστικών που πέτυχε τη μέγιστη AUC σε διασταυρωμένης επικύρωσης επελέγη ως το βέλτιστο σύνολο.

Η κατάταξη Αποτελέσματα και βαθμολογίες

Χρησιμοποιούμε μια μηχανή σταθμισμένο διάνυσμα υποστήριξης (SVM) [35], όπως μας ταξινομητής, προκειμένου να αντιμετωπιστούν οι ισορροπημένη αριθμούς των οδηγών και των επιβατών στο σύνολο εκπαίδευσης. Κάντρα ταξινομεί μια μετάλλαξη σε 3 κατηγορίες: οδηγός, όχι κλήση, και των επιβατών, με βάση την βαθμολογία υπολογίζεται από το SVM (Σχήμα S1 στο S1 αρχείου) [36]. Σύμφωνα με τις κατανομές βαθμολογίας, μια μετάλλαξη έχει χαρακτηριστεί ως οδηγός, αν η βαθμολογία της είναι μεγαλύτερη από το 90

ο εκατοστημόριο εκείνων των μεταλλάξεων των επιβατών στο σύνολο εκπαίδευσης, ως επιβάτης, αν βαθμολογία του είναι μικρότερη από το 10

th εκατοστημόριο εκείνων των μεταλλάξεων του οδηγού, ή ως μια μη-κλήση με άλλο τρόπο. Επιπλέον, Κάντρα υπολογίζει βαθμό εμπιστοσύνης για κάθε πρόβλεψη, ορίζεται ως το κλάσμα μεταλλάξεων που έχουν περισσότερο ακραίες βαθμολογίες στην ίδια τάξη στα δεδομένα εκπαίδευσης (Σχήμα S1 στο File S1). Για παράδειγμα, εάν μια μετάλλαξη έχει χαρακτηριστεί ως οδηγός και η βαθμολογία του είναι μεγαλύτερες από εκείνες του 95% των οδηγών στο σύνολο εκπαίδευσης, το σκορ εμπιστοσύνη του είναι ίσο με 0,05. Αυτά τα αποτελέσματα εμπιστοσύνης είναι, επομένως

de facto

σημασία

P

τιμές υπολογίζεται από την εμπειρική τάξη-σοφός κατανομή βαθμολογίας στο σύνολο δεδομένων εκπαίδευσης.

Αποτελέσματα

Feature επιλογή και Γενική Κατάταξη Αποτελέσματα

Για GBM, εντοπίσαμε 28 χαρακτηριστικά που μεμονωμένα περάσει το AUC (

You must be logged into post a comment.