PLoS One: Μια μέθοδος για την ανίχνευση Βελτιωμένη διαρθρωτικών Παραλλαγές στον Καρκίνο γονιδιώματος από Short Διαβάστε Αξιόπιστες-End αλληλουχίας


Αφηρημένο

Ο ορισμός της αρχιτεκτονικής ενός συγκεκριμένου γονιδιώματος του καρκίνου, συμπεριλαμβανομένων των διαρθρωτικών τις παραλλαγές του, είναι απαραίτητη για την κατανόηση της βιολογίας των όγκων, οι μηχανισμοί της ογκογένεσης, και για το σχεδιασμό αποτελεσματικών εξατομικευμένες θεραπείες. Σύντομη ανάγνωση ζεύγη τέλος αλληλουχίας είναι σήμερα η πιο ευαίσθητη μέθοδος για την ανίχνευση σωματικών μεταλλάξεων που προκύπτουν κατά τη διάρκεια της ανάπτυξης του όγκου. Ωστόσο, χαρτογραφώντας τις διαρθρωτικές παραλλαγές χρήση αυτής της μεθόδου οδηγεί σε ένα μεγάλο αριθμό των ψευδώς θετικών κλήσεις, κυρίως λόγω του επαναλαμβανόμενου χαρακτήρα του γονιδιώματος και τη δυσκολία της ανάθεσης σωστές θέσεις χαρτογράφησης σε σύντομο διαβάζει. Αυτή η μελέτη περιγράφει μια μέθοδο για τον εντοπισμό αποτελεσματικά μεγάλο όγκο συγκεκριμένες διαγραφές, αναστροφές, επαναλήψεις και οι μετατοπίσεις από τα δεδομένα χαμηλή κάλυψη χρησιμοποιώντας SVDetect ή λογισμικό breakdancer και ένα σύνολο νέων διαδικασιών φιλτραρίσματος, με σκοπό τη μείωση των ψευδών θετικών κλήσεις. Εφαρμόζοντας τη μέθοδο μας σε ένα αυθόρμητο λέμφωμα Τ-κυττάρων που προκύπτουν σε ένα πυρήνα RAG2 /p53-ανεπαρκή ποντίκι, εντοπίσαμε 40 επικυρωθεί όγκου-ειδικά διαρθρωτικά αναδιατάξεις υποστηρίζεται από τόσο λίγα όσο 2 ανεξάρτητα ζεύγη ανάγνωσης

Παράθεση:. Μιγιούσκοβιτς Μ, Brown SM, Tang Ζ, Lindsay CR, Ευσταθιάδης Ε, Deriano L, et al. (2012) Μια μέθοδος για την ανίχνευση Βελτιωμένη διαρθρωτικών Παραλλαγές στον Καρκίνο γονιδιώματος από Short Διαβάστε Αξιόπιστες-End αλληλουχίας. PLoS ONE 7 (10): e48314. doi: 10.1371 /journal.pone.0048314

Επιμέλεια: Patrick Tan, Duke-Εθνικό Πανεπιστήμιο της Σιγκαπούρης Πτυχιούχος Ιατρικής Σχολής, Σιγκαπούρη

Ελήφθη: 16 Ιουλίου 2012? Αποδεκτές: 24 Σεπ 2012? Δημοσιεύθηκε: 29 Οκτωβρίου, 2012

Copyright: © 2012 Μιγιούσκοβιτς et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από την PN1EY018244 επιχορήγηση από το Εθνικό Ινστιτούτο Υγείας Πρωτοβουλία χάρτη πορείας στη νανοϊατρική (βραβείο Κέντρο Ανάπτυξης νανοϊατρική) και το Εθνικό Ινστιτούτο Υγείας χορηγούν R01CA104588 να DBR. SMB και ZT υποστηρίζονται μερικώς από το Εθνικό Ινστιτούτο Υγείας /Εθνικό Κέντρο Έρευνας Πόρων U54 επιχορήγηση RR024386-01A1 (Βραβείο Κλινική Επιστήμη της Μετάφρασης) σε Ιατρικό Κέντρο του Πανεπιστημίου της Νέας Υόρκης. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

σωματικά δομικές παραλλαγές (SVS), συμπεριλαμβανομένων των μεγάλων εξαλείψεις, ενθέσεις, αναστροφές, επαναλήψεις και οι μετατοπίσεις είναι σημαντικά χαρακτηριστικά των γονιδιωμάτων καρκίνο, υπεύθυνη για τη δημιουργία των γονιδίων σύντηξης, ο αριθμός αντιτύπων και κανονιστικές αλλαγές που οδηγούν στην ενεργοποίηση ή υπερέκφραση του ογκογονίδια και αδρανοποίηση των ογκοκατασταλτικών γονιδίων [1], [2], [3], [4], [5], [6]. Καθορισμό της δομής ενός συγκεκριμένου γονιδιώματος του καρκίνου είναι συνεπώς απαραίτητο όχι μόνο ως ένα πρώτο βήμα προς την κατανόηση της βιολογίας του όγκου και των μηχανισμών ογκογένεσης, αλλά και κλινικά προς το σχεδιασμό αποτελεσματικών εξατομικευμένες θεραπείες [7], [8].

οι πρόσφατες εξελίξεις στην τεχνολογία υψηλής απόδοσης αλληλουχίας [9], [10] έχουν καταστήσει δυνατή τη μελέτη ολόκληρων γονιδιωμάτων σε πρωτοφανή υψηλή ανάλυση και με σχετικά χαμηλό κόστος. Ωστόσο, οι τρέχουσες ζεύγη-end τεχνολογίες αλληλουχίας σύντομη ανάγνωση φέρει πολλές προκλήσεις, ιδιαίτερα εμφανές όταν προσπαθεί να μελετήσει βαλβίδων διακοπής στον καρκίνο. Πρώτον, η εγγενής πολυπλοκότητα του ιστού του όγκου [11], [12], [13] είναι μια πρόκληση από μόνη της, δεδομένου ότι οι όγκοι είναι σπάνια μονοκλωνικά και συχνά αναμειγνύονται με φυσιολογικό ιστό, έτσι ώστε η κάλυψη αλληλούχιση πρέπει να είναι βαθύτερη από ό, τι για την ανίχνευση SV σε η βλαστική. Δεύτερον, σύντομη διαβάζει δημιουργούνται από ζεύγη-άκρο αλληλουχίας (τυπικά, 50-100 bp από κάθε άκρο του τεμαχίου DNA 300-400 bp) να αποδειχθεί δύσκολο να χαρτογραφηθεί σωστά πίσω πάνω στο γονιδίωμα αναφοράς λόγω του υψηλού ποσοστού επαναλαμβανόμενες γονιδιωματικών αλληλουχιών [14], [15], [16], [17]. Όλα αυτά οδηγούν σε ένα μεγάλο αριθμό των ψευδώς θετικών κλήσεων, δημιουργώντας απαράδεκτα επίπεδα θορύβου. Ρετρομεταθετόνιων, κοινή σε ανθρώπινο και ποντικού γονιδιωμάτων [18], [19], η οποία επιπλέον περιπλέκει την ανάλυση των δεδομένων που οδηγεί σε ορισμένους τύπους ψευδών θετικών κλήσεων. Τέλος, αντικείμενα προετοιμασία βιβλιοθήκη DNA που προκύπτουν από την ενίσχυση PCR σε συνδυασμό με τα λάθη αλληλουχίας προσθέσετε ένα άλλο επίπεδο πολυπλοκότητας

Αυτή η εργασία περιγράφει μια ολόκληρη γονιδιώματος προσέγγιση για τον εντοπισμό 4 τύπους των βαλβίδων διακοπής:. Μεγάλες διαγραφές, αναστροφές, επαναλήψεις και οι μετατοπίσεις . Χρησιμοποιήσαμε SVDetect [20] και breakdancer [21] για να καλέσετε βαλβίδων διακοπής σε ένα γονιδίωμα λεμφώματος ποντικού από ένα σύνολο ζευγών τέλος διαβάζει λαμβάνονται στην πλατφόρμα HiSeq της Illumina του. Προκειμένου να μειωθεί ο υψηλός αριθμός των ψευδώς θετικών κλήσεις, έχουμε αναπτύξει μια διαδικασία φιλτραρίσματος που επιτρέπει την ανίχνευση των γεγονότων όγκου-ειδικά σε σχετικά χαμηλή κάλυψη (17x). Πρώτον, βρήκαμε ότι είναι απαραίτητο να συγκρίνουμε το σύνολο δεδομένων όγκου σε ένα βλαστικής σειράς δείγμα που λαμβάνεται από το ίδιο ζώο, για να απομακρυνθεί ένα μεγάλο αριθμό βλαστικής σειράς βαλβίδων διακοπής (κυρίως προκύπτουν από ρετρομεταθετόνιου) ανιχνεύθηκε στο πειραματόζωο σε σύγκριση με το γονιδίωμα αναφοράς. Δεύτερον, έχουμε αναπτύξει μεθόδους για την απομάκρυνση ανάγνωσης ζεύγη σημειώνονται ως ασύμφωνα λόγω σφαλμάτων ευθυγράμμισης, όπως επίσης και ατελής διπλότυπα PCR που προκύπτουν από την παρασκευή της βιβλιοθήκης και αλληλούχιση σφάλματα DNA. Τρίτον, εφαρμόζονται διάφορα φίλτρα για τα αποτελέσματα που παράγονται από προγράμματα καλώντας SV, όπως επικαλύψεις με σχολιασμένη απλές επαναλήψεις και χαμηλές περιοχές mappability, προκειμένου να εντοπιστούν οι υποψήφιοι SV υψηλή εμπιστοσύνη. Δείχνουμε επικύρωση αλληλούχισης PCR και Sanger 40 βαλβίδων διακοπής όγκου-ειδικά σε ένα μόνο γονιδίωμα όγκου υποστηρίζεται από τόσο λίγα όσο 2 ανεξάρτητα ζεύγη ανάγνωσης.

Συνοπτικά, η μέθοδος που παρουσιάζεται εδώ απλοποιεί την ανάλυση, αυξάνοντας δείγμα throughput. Επίσης, παρέχει υψηλή ευαισθησία, επιτρέποντας την ανίχνευση σπάνιων κλώνων παραλλαγή σε πολύπλοκα μίγματα που ενδέχεται να έχουν σημαντική προγνωστική ή θεραπευτική συνέπειες.

Αποτελέσματα και Συζήτηση

Δημιουργία αρχικές παραμέτρους Ανάλυση

χρησιμοποιούνται προσομοιώσεις αλληλουχίας ζεύγη-end (PE) ως εργαλείο για να καθορίσει τις αρχικές παραμέτρους ανάλυσης, για να ποσοτικοποιηθεί η επίδραση του βάθους αλληλουχίας για ανίχνευση γνωστών βαλβίδων διακοπής, καθώς και για τη μελέτη που σχετίζονται με την ευθυγράμμιση false positives. Έχουμε προσομοίωση ενός αναδιαταχθέντος γονιδίωμα βασίζεται στην αναφορά /6J ποντικών C57BL (mm9), εισάγοντας 10 μετατοπίσεις interchromosomal και 10 μεγάλες διαγραφές σε περιοχές ποικίλης mappability (Πίνακας 1). Διαβάστε μήκος, το μέσο μέγεθος ενθέματος και τυπική απόκλιση του μεγέθους ενθέτου επιλέχθηκαν για να είναι αντιπροσωπευτικά των πειραματικών δεδομένων μας (50, 315, 44, αντίστοιχα). Χρησιμοποιώντας τρεις ανεξάρτητες προσομοιωμένο σύνολα δεδομένων με 10, 20, 40, 80 και 160 εκατομμύρια ζεύγη ανάγνωσης, αξιολογήσαμε τον αριθμό των εντοπισμένων πραγματικών και ψευδώς θετικά, καθώς και την πιθανότητα ανίχνευσης ως συνάρτηση των τοπικών mappability.

Η

αλληλούχιση ΡΕ αποδείχθηκε μια αποτελεσματική μέθοδος για την ανίχνευση SV σε επίπεδα κάλυψης που αντιστοιχεί σε 80 ή περισσότερα εκατομμύρια ζεύγη ανάγνωσης. 90% των γεγονότων στην προσομοιωμένη αναδιατάσσονται γονιδίωμά μας ανιχνεύθηκαν με 160 εκατομμύρια ζεύγη αναγνώσεως, σχετικά με το ελάχιστο παρόν μπορεί να ληφθεί από μία μόνο λωρίδα χρησιμοποιώντας την πλατφόρμα Illumina HiSeq (Εικ. 1Α). Όπως ήταν αναμενόμενο, ανιχνευσιμότητα ενός ορισμένου αναδιάταξη εξαρτάται σε μεγάλο βαθμό από το σημείο θραύσης μικροπεριβάλλον, με μεγαλύτερη κάλυψη που απαιτείται για την ανίχνευση γεγονότων στις περιοχές του κάτω mappability (Εικ. 1Β). Κατά την αξιολόγηση των false positives, διαπιστώσαμε ότι το 97% των συνολικών κλήσεων SV αποδόθηκαν σε διαβάζει με περισσότερες από μία εξίσου έγκυρη θέση χαρτογράφησης. Αυτά διαβάζει προέρχονται από διάφορες επαναλαμβανόμενες περιοχές του γονιδιώματος (όπως κεντρομερική δορυφορικών ακολουθιών, ρετροστοιχείων, τα γονίδια RNA, κ.λπ.) και έπρεπε να αφαιρεθεί από την ανάλυση. Μετά την εξέταση BWA βαθμολογίες ποιότητας χαρτογράφηση των διαβάζει συμβάλλει στην πραγματική και ψευδώς θετικά αποτελέσματα, επιλέξαμε μια αποκοπής του 23 για την ανάλυσή μας (για περαιτέρω συζήτηση, βλέπε «Τα ψευδώς θετικά που προκύπτουν από σφάλματα ευθυγράμμισης BWA

»

). Θα πρέπει να σημειωθεί ότι αποκοπής επιλέγεται με βάση την επιθυμητή αναλογία των πραγματικών και ψευδών θετικών, με χαμηλότερη αποκοπής αυξανόμενη ευαισθησία σε βάρος της ειδικότητας. Μετά την εφαρμογή του BWA ποιότητας χαρτογράφηση αποκοπής προσομοίωση σύνολα δεδομένων μας, παρατηρήσαμε όχι περισσότερο ψευδώς θετικά που σχετίζονται με σφάλματα ανάγνωσης χαρτογράφησης. Ωστόσο, παρατηρήσαμε το μέγεθος που σχετίζονται με ψευδώς θετικά αποτελέσματα που εμφανίστηκαν με την αύξηση της κάλυψης. Αυτά τα ψευδή θετικά ήταν μικρές διαγραφές που προέρχονται από υψηλότερο άκρο και οι επαναλήψεις που προέρχονται από το κάτω άκρο της κανονικής βιβλιοθήκη DNA κατανομή μεγέθους θραύσματος. Για να διορθωθεί σχετίζονται μέγεθος ενθέτου false positives, χρησιμοποιήσαμε ένα μέγεθος αποκοπής του 8 τυπικών αποκλίσεων και την εφάρμοσε στην ανάλυση μας. Αυτή η παράμετρος πρέπει να προσδιορίζεται για κάθε βιβλιοθήκη ξεχωριστά, ανάλογα με την επιθυμητή ευαισθησία: να βελτιωθεί το επίπεδο αποκοπής απόκλιση θα οδηγήσει σε αύξηση της ελάχιστης ανιχνεύσιμης διαγραφή και η επικάλυψη μεγέθους. Ανάλογα με τις ανάγκες της ανάλυσης, μπορεί να είναι ευεργετική χρησιμοποιώντας χαμηλότερη τυπική απόκλιση αποκοπές μαζί με μια εκτίμηση του αριθμού των δικαιολογητικών ανάγνωσης ζεύγη, όπως βαλβίδων διακοπής με υψηλότερο αριθμό που στηρίζουν διαβάσετε ζεύγη μπορούν να δείξουν ένα πραγματικό γεγονός. Ωστόσο, η προσέγγιση αυτή θα πρέπει να χρησιμοποιείται με προσοχή κατά την ανάλυση δειγμάτων όγκου όπου η απώλεια ή αύξηση των αριθμού αντιγράφων μπορεί να οδηγήσει σε λανθασμένα συμπεράσματα.

Α) Ανίχνευση βαλβίδων διακοπής ως συνάρτηση της κάλυψης, β) τον αριθμό των δικαιολογητικών έχει ως συνάρτηση της mappability.

η

προσομοιώσεις αλληλουχίας ΡΕ αποδείχθηκε ότι είναι ένα χρήσιμο εργαλείο για την ανάπτυξη της στρατηγικής φιλτράρισμα δεδομένων. Μετά τη βελτιστοποίηση των αρχικών παραμέτρους που περιγράφονται παραπάνω και απομάκρυνση όλων των ψευδώς θετικών κλήσεις από προσομοιωμένο σύνολα δεδομένων, SV κλήσεις στο πειραματικό σύνολο δεδομένων θα μπορούσε να αποδοθεί στο δείγμα και η ίδια πειραματική διαδικασία και όχι αντικείμενα ανάλυση. Προσομοιώσεις ήταν επίσης χρήσιμο ως ένα μέσο για την πρόβλεψη απαραίτητη κάλυψη για την ανίχνευση ορισμένων τύπων εκδηλώσεων. Σημαντικά, όταν αφορούν προσομοιώσεις με την πειραματική ανάλυση των δεδομένων, θα πρέπει να ληφθεί υπόψη ότι η αναμενόμενη συχνότητα του αναδιατάξεων, και ως εκ τούτου η απαραίτητη κάλυψη, κανονικά θα είναι 50% λόγω της διπλοειδή φύση του γονιδιώματος. Σε περίπτωση heteroclonal ή ακάθαρτα δείγματα (συνήθη περίπτωση όταν ασχολείται με δείγματα όγκων), η συχνότητα αναμένεται να είναι ακόμα χαμηλότερο.

Φιλτράρισμα δεδομένων

Ως πειραματικό σύνολο δεδομένων μας, επιλέξαμε ένα μη χαρακτηρισμένα θυμικού λεμφώματος που λαμβάνεται από ένα rag2

C /cp53

– /- ποντικών. Η θυμική λεμφώματα που προκύπτουν αυθόρμητα σε αυτό το μοντέλο ποντικού φιλοξενούν ένα μεγάλο αριθμό δομικών αναδιατάξεων όπως μεταθέσεις, εξαλείψεις και μεγάλες ενισχύσεις [22]. ζεύγη τέλος αλληλουχίας Illumina επιλέχτηκε με τη στρατηγική ζευγάρι σύντροφο, την οποία εγκατέλειψε στις αρχές της δεκαετίας πορεία αυτού του έργου οφείλεται σε δυσκολίες στην προετοιμασία βιβλιοθήκη DNA. Εμείς αλληλουχία δύο γονιδιωματικές βιβλιοθήκες, εκείνο που ελήφθη από τον ιστό στερεού όγκου και το άλλο από το ήπαρ του ίδιου ζώου (έλεγχος βλαστικής σειράς). Βρήκαμε τη βιβλιοθήκη ελέγχου να είναι απαραίτητη λόγω του μεγάλου αριθμού των βλαστικής σειράς βαλβίδων διακοπής που προέρχονται από υπολείμματα ενός φόντο στέλεχος 129 (το ποντίκι αρχικά δημιουργήθηκε ως ένα υβρίδιο 129SvEv /C57BL6). Η βιβλιοθήκη όγκου και ελέγχου αλληλουχήθηκαν για 17x και 9x φυσική κάλυψη, αντίστοιχα (Πίνακας 2, Σχ. 2).

Α) Tumor σύνολο δεδομένων, Β) του συνόλου δεδομένων ελέγχου. Του όγκου του συνόλου δεδομένων παρουσιάζει απόκλιση σε σχέση με τη διανομή της κάλυψης λόγω γενωμική αστάθεια. τον αριθμό των χρωμοσωμάτων αλλαγές είναι εμφανείς για CHR1, CHR2, CHR15 (~ 3 αντίγραφα), CHR4 και CHR14 (~ 4 αντίγραφα), CHR8 (-2,5 αντίγραφα).

Η

Χρησιμοποιήσαμε SVDetect (Εικ . 3Α) και breakdancer (Σχ. 3Β) για να καλέσετε την αρχική βαλβίδων διακοπής, καθώς αυτά είναι τα δύο πιο ευρέως χρησιμοποιούμενα μεγάλα προγράμματα ανίχνευσης των διαρθρωτικών παραλλαγή που ισχύουν για τα δεδομένα PE 50 bp διαβάσει. Γενικά, η ανάλυση με τη χρήση του Breakdancer παράγεται αρχικά περισσότερο ενδοχρωμοσωμική και λιγότερο interchromosomal SV κλήσεις σε σύγκριση με SVDetect, ίσως λόγω διαφορών στην στρατηγική ομαδοποίηση. Η ίδια παράμετροι ανάλυσης και φιλτραρίσματος διαδικασία εφαρμόστηκε σε δύο προγράμματα, δίνοντας παρόμοια αποτελέσματα στο τέλος.

γράφημα δείχνει συνολικό αριθμό των SV ζητά από SVDetect (Α) ή breakdancer (Β), όπως εφαρμόζονται διαδοχικά στάδια φιλτραρίσματος . ΟΧΙ FILT- Χωρίς φιλτράρισμα (εκτός από την αφαίρεση των τέλεια αντίγραφα PCR και διαβάζει με μηδενική ποιότητα χαρτογράφηση BWA), Μ ποι- Αφαίρεση διαβάζει με & lt? 23 BWA ποιότητας χαρτογράφησης, εγώ DUPL- Αφαίρεση διαβάζει στην κατηγορία των «ατελής εις διπλούν», Ελέγχου- συγκρίνοντας σύνολο δεδομένων όγκου στον έλεγχο, LOW MAP- Μετα-SV φιλτράρισμα ανίχνευση των κλήσεων επικαλυπτόμενες περιοχές χαμηλού mappability, SIMP εκπρο- Μετα-SV φιλτράρισμα ανίχνευση των κλήσεων επικαλυπτόμενων απλών επαναλήψεων, προσαρμοσμένου Προσαρμοσμένη φιλτράρισμα των υπόλοιπων κλήσεων με βάση τον τύπο αναδιάταξη (βλέπε κείμενο για λεπτομέρειες).

Η

σε αντίθεση με τις προσομοιώσεις, η ανάλυση των πειραματικών δεδομένων οδήγησε σε ένα μεγάλο αριθμό των ψευδώς θετικών κλήσεις μετά την εφαρμογή αρχικά καθιερωμένες παράμετροι ανάλυσης που περιγράφεται παραπάνω. Ορίζουμε αυτά τα ψευδώς θετικά και εκδηλώσεις που υποστηρίζονται από διαβάζει τη χαρτογράφηση σε επαναληπτική περιοχές του γονιδιώματος, καθώς και εκείνες που εκτείνονται σε περιοχές με ρετροστοιχείου δραστηριότητα. Ο αριθμός των ψευδώς θετικών ήταν ιδιαίτερα μεγάλη μεταξύ interchromosomal βαλβίδων διακοπής, εξηγείται από την υψηλότερη πιθανότητα μιας επαναλαμβανόμενης ανάγνωσης που ευθυγραμμισμένα σε ένα χρωμόσωμα διαφορετική από το ταίρι του. Για να βρείτε και να επικυρώνει πραγματικό παραλλαγές όγκου-ειδικά, ήταν απαραίτητο να αναλύσει την πηγή αυτών των κλήσεων και τη μείωσή τους σε ένα διαχειρίσιμο αριθμό. Εντοπίσαμε 3 κύριοι τύποι ψευδών θετικών κλήσεων, ανάλογα με την πηγή τους: 1) ψευδώς θετικά που σχετίζονται με την διακύμανση μεταξύ στελέχη ποντικού, 2) ψευδώς θετικά που προκύπτουν από σφάλματα ευθυγράμμισης, και 3) ψευδώς θετικά που σχετίζονται με την PCR διπλότυπα που προέρχονται από την παρασκευή του δείγματος σε συνδυασμό με σφάλματα προσδιορισμού αλληλουχίας. Έχουμε αναπτύξει διάφορα προ και διαδικασίες φιλτραρίσματος μετά την ανίχνευση, προκειμένου να εργαστούν γύρω από αυτές τις προκλήσεις.

Λάθος Θετικά Σχετικά με τα διαρθρωτικά Διακύμανση μεταξύ Εργαστήριο ποντίκι Στελέχη

Διαρθρωτικά διακύμανση μεταξύ χρησιμοποιούνται συνήθως εργαστηριακά στελέχη ποντικιού, παρόμοια με τις διαρθρωτικές διαφορές μεταξύ των μεμονωμένων ανθρώπων, έχει ήδη τεκμηριωθεί με μεγάλη λεπτομέρεια [23], [24], [25]. Οι περισσότεροι knock-in ποντίκια, συμπεριλαμβανομένου εκείνου που χρησιμοποιείται σε αυτή τη μελέτη, μπορούν να ταξινομηθούν ως υβριδικά στελέχη, ακόμη και εάν τα ζώα διασταυρώθηκαν πολλές φορές στο στέλεχος γονιδίωμα αναφοράς (C57BL /6J). Οι παρατηρούμενες βαλβίδων διακοπής μπορεί κυρίως να αποδοθεί στην βλαστικής σειράς δραστηριότητα ρετροστοιχείου, και εκδηλώνονται ως ενθέσεις του ΣΙΝΕ, γραμμή και στοιχεία LTR, καθώς και γονίδια που μεταγράφονται αντίστροφα-ιντρόνια (retrogenes). Όταν ένα πειραματικό σύνολο δεδομένων συγκρίνεται με το γονιδίωμα αναφοράς C57BL /6J, οι διάφοροι τύποι δομικών παραλλαγών που ονομάζεται. Συνηθέστερα, ρετροστοιχείου παρεμβολές υπάρχουν στην αναφορά, αλλά λείπει στο στέλεχος του δείγματος, θα κληθούν ως διαγραφές, ενώ αυτά που βρίσκονται στο στέλεχος του δείγματος, αλλά λείπει από την αναφορά, θα κληθούν ως ισορροπημένη μεταθέσεις. Ενθέσεις retrogenes μπορεί να αναγνωριστεί ως μια σειρά από παραλείψεις που περιλαμβάνουν εσώνια, συνοδεύεται από μια πρόσκληση μετατόπιση από το χρωμόσωμα προέλευσης για τον αποδέκτη χρωμόσωμα (Εικ. 4).

Α) ρετρομεταθετού εισαγωγή σε ένα διαφορετικό χρωμόσωμα οδηγεί σε μια ψεύτικη κλήση μετατόπιση, Β) ρετρομεταθετού εισαγωγής στο ίδιο χρωμόσωμα με το αρχικό που οδηγεί σε μια ψευδή κλήση διαγραφή, C) Αντιστροφή μεταγραφεί το γονίδιο ιντρόνια (retrogene) την εισαγωγή σε ένα διαφορετικό χρωμόσωμα οδηγεί σε ψευδείς μετάθεσης και διαγραφής κλήσεων.

για να φιλτράρετε βλαστικής σειράς βαλβίδων διακοπής που περιγράφεται παραπάνω, βρήκαμε ότι είναι αναγκαίο να ληφθεί ένα σύνολο δεδομένων ελέγχου με αλληλούχιση φυσιολογικό ιστό που προέρχονται από το ίδιο ζώο. Σε αυτή τη μελέτη, ένα σύνολο δεδομένων ελέγχου παρασκευάστηκε χρησιμοποιώντας ιστό ήπατος και σε σύγκριση με το σύνολο δεδομένων όγκου. Χρησιμοποιώντας αυτή τη στρατηγική, ήμασταν σε θέση να αφαιρέσει τις περισσότερες βλαστικής σειράς βαλβίδων διακοπής. Ωστόσο, ορισμένες βαλβίδων διακοπής απέτυχε να πρέπει να ανιχνεύεται ως βλαστικής σειράς, λόγω της έλλειψης επικάλυψης μεταξύ υποστηρίζουν ανάγνωσης ζεύγη. Ως εκ τούτου, βρήκαμε ότι είναι αναγκαίο να εξετάσει κάθε SV χειροκίνητα για δυνητικά χάσει επικάλυψη με τον έλεγχο. Ακόμη και μετά την εφαρμογή της διαδικασίας σύγκρισης, ένας αριθμός γεγονότων που προσδιορίζονται ως υψηλής ποιότητας υποψήφιοι επικυρώθηκαν ως βλαστικής σειράς (30% του ενδοχρωμοσωμική και 50% του interchromosomal SVS). Το αποτέλεσμα αυτό μπορεί να αποδοθεί στη μείωση της κάλυψης στο σύνολο δεδομένων ελέγχου μας, οδηγώντας σε μείωση της ευαισθησίας ανίχνευσης βλαστικής σειράς SV. Ανευπλοειδία του καρκινικού ιστού (επιπλέον αντίγραφα ορισμένων χρωμοσωμάτων ή απώλεια των άλλων) δημιουργεί τοπικές διαφορές όσον αφορά την κάλυψη μεταξύ του όγκου και του ελέγχου του συνόλου δεδομένων, η οποία αυξάνει την πολυπλοκότητα της ανάλυσης (Σχ. 2).

Λάθος Θετικά Προερχόμενες από BWA λάθη ευθυγράμμιση

για να αφαιρέσετε false positives που σχετίζονται με σφάλματα ευθυγράμμισης, ελέγξαμε την επίδραση της BWA ποιότητας χαρτογράφησης φιλτράρισμα βαθμολογίας με βάση τον αριθμό των κλήσεων που προκύπτει SV. Παρά το γεγονός ότι BWA συγγραφείς ορίζουν διαβάζει με 0-10 ποιότητα χαρτογράφηση ως «μη αξιόπιστα χαρτογραφηθεί» [26], βρήκαμε την καλύτερη σειρά αποκοπής για τη βαθμολογία ποιότητας της χαρτογράφησης στο πείραμά μας να είναι 0-22 (Εικ. 5). Για την εν μέρει σωστό για την ανεπιθύμητη αφαίρεση των υποψηφίων πραγματικό SV σε λιγότερο μοναδικές περιοχές του γονιδιώματος, καλεί με μεγάλο αριθμό υποστήριξη ανάγνωσης ζεύγη εξετάστηκαν με το χέρι. Ωστόσο, κανένα από τα εξετασθέντα αφαιρεθεί βαλβίδων διακοπής θα μπορούσε να οριστεί ως υποψήφιοι υψηλής ποιότητας, δεδομένου ότι όλοι οι εμπλεκόμενοι γονιδιωματικές περιοχές με χαμηλή mappability. Μετά την εφαρμογή αυτή διαβάσει το φίλτρο ποιότητας χαρτογράφησης πριν εφαρμοστεί οποιαδήποτε άλλη φιλτράρισμα, ο αριθμός των βαλβίδων διακοπής που ονομάζεται μειώθηκε στο 85% για ενδοχρωμοσωμική και 36-39% για interchromosomal εκδηλώσεις (Εικ. 3).

διαφωνούσαν διαβάζει με χαρτογράφηση οι ποιότητες πάνω από 22 που χρησιμοποιείται για την ανάλυση αυτή (κουτί).

η

για να μειωθεί περαιτέρω ο αριθμός των SV κλήσεις που προέρχονται από κακή ευθυγράμμιση των διαβάζει προέρχονται από επαναλαμβανόμενες περιοχές, ελέγξαμε τη στρατηγική της αφαίρεσης βαλβίδων διακοπής με επικάλυψη με το RepeatMasker [27] και η απλή επαναλήψεων κομμάτι του προγράμματος περιήγησης UCSC γονιδίωμα. Βρήκαμε ότι η στρατηγική RepeatMasker μειώνει τον αριθμό των ψευδώς θετικών κλήσεις σημαντικά, αλλά φιλτράρει το 12% των προηγουμένως επικυρωθεί ανακατατάξεις, συμπεριλαμβανομένων και ορισμένων με πιθανή βιολογική σημασία (π.χ.. PTEN διαγραφή). Είναι σημαντικό, διαβάζει προέρχονται από RepeatMasker σχολιασμένη περιοχές δεν είναι απαραίτητα δύσκολο να χαρτογραφηθεί με μοναδικό τρόπο, δεδομένου ότι αυτό το κομμάτι περιέχει πολλά αρχαία επαναλαμβανόμενα στοιχεία που έχουν αποκλίνει σημαντικά μέσω της εξέλιξης. στρατηγική φιλτράρισμα RepeatMasker τελικά χρησιμοποιηθούν μόνο για τον προσδιορισμό υψηλής υποψηφίους εμπιστοσύνης μεταξύ των interchromosomal εκδηλώσεις με χαμηλό αριθμό των δικαιολογητικών ανάγνωσης ζεύγη. Σε αντίθεση με την RepeatMasker, επικάλυψη με απλές επαναλήψεις τροχιά βρέθηκε να είναι επιτυχής σε φιλτράρισμα σφάλματος ευθυγράμμισης σχετίζονται μόνο false positives.

Ως άλλη στρατηγική για την αντιμετώπιση των επαναληπτικών στοιχείων που σχετίζονται false positives, ελέγξαμε την αποτελεσματικότητα της φιλτράρισμα βαλβίδων διακοπής κατά τις χαμηλές περιοχές mappability, η οποία υπολογίζεται με βάση τα δεδομένα mappability του προγράμματος περιήγησης UCSC γονιδίωμα (βλέπε Υλικά και Μέθοδοι). Η στρατηγική αυτή αποδείχθηκε πολύ επιτυχής, αφαιρώντας σημαντικό αριθμό των ψευδώς θετικών κλήσεις, ιδιαίτερα αποτελεσματική στην περίπτωση των interchromosomal βαλβίδων διακοπής (Εικ. 3).

Λάθος Θετικά Σχετικά με τα σφάλματα εις διπλούν Calling

η πορεία της ανάλυσής μας, παρατηρήσαμε ψευδώς θετικά ονομάζεται από μικρές ομάδες των 2 ή 3 ζευγάρια ανάγνωσης, τόσο με διαβάζει χαρτογράφηση στις θέσεις 0-2 bp μακριά από το ένα το άλλο (Εικ. 6). Όπως συζητήθηκε ήδη από τους άλλους στον τομέα [28], τα περισσότερα από αυτά τα «ατελή αντίγραφα» πιθανότατα προέρχεται από ένα θραύσμα DNA και αποκλίσεις, είτε κατά τη διάρκεια της ενίσχυσης PCR, ίσως λόγω πρότυπο σκέλος ολίσθηση, ή αλληλουχίας λάθη στην αρχή ή το τέλος του διαβάσει κατά τη διάρκεια της διαδικασίας προσδιορισμού αλληλουχίας. Αυτές οι καλόπιστοι διπλότυπα δεν μπορεί να αφαιρεθεί χρησιμοποιώντας τα υπάρχοντα εργαλεία όπως MarkDuplicates του Picard, δεδομένου ότι δεν έχουν ταυτόσημες θέσεις χαρτογράφησης. Ποσοστό ατελή αντίγραφα φαίνεται να συσχετίζεται με το ποσοστό των τέλεια αντίγραφα PCR: ειδικά σύνολα δεδομένων με υψηλή τέλεια διπλούν ποσοστό θα δείξει μεγαλύτερο ποσοστό ατελούς εις διπλούν (Μ Μιγιούσκοβιτς, δεν έχει ως αποτέλεσμα μέρος της παρούσας μελέτης)

Τρεις. διαβάστε ζευγάρια, πιθανότατα προέρχεται από ένα θραύσμα DNA, δείχνει 1-2 bp αντισταθμίστηκε σε γονιδιωματική συντεταγμένες.

η

Εμείς ορίζεται ατελή αντίγραφα ως ζεύγη με την ίδια θέση χαρτογράφηση των δύο διαβάζει με το δυνατό, να αντισταθμιστούν έως 2 bp. Η ανίχνευση αυτών των διπλών έγινε κατά ομαδοποίηση των ασύμφωνα ζευγάρια ανάγνωσης με SVDetect ή Breakdancer, χρησιμοποιώντας διαφορετικές στρατηγικές (βλέπε Υλικά και Μέθοδοι). Μετά την εφαρμογή αυτού του φίλτρου, ο αριθμός των ενδοχρωμοσωμική και interchromosomal βαλβίδων διακοπής μειώθηκε κατά 0,3 έως 1,7% και 3,9 έως 19,5%, αντίστοιχα (Σχήμα 3). Είναι σημαντικό, αυτοί οι αριθμοί μπορεί να υποεκτιμούν το συνολικό ατελή διπλούν ποσοστό δεδομένου ότι στην περίπτωση αυτή εντοπίστηκαν μετά την αφαίρεση χαμηλής ποιότητας χαρτογράφησης διαβάζει.

Η επικύρωση των Διαρθρωτικών Παραλλαγές

Δημιουργήσαμε τον τελικό κατάλογο των 61 υψηλής βαλβίδων διακοπής της εμπιστοσύνης (βλέπε Υλικά και Μέθοδοι) μετά τη χειροκίνητη εξέταση των 381 ενδοχρωμοσωμική και 130 interchromosomal βαλβίδων διακοπής ανιχνεύεται από SVDetect και 328 ενδοχρωμοσωμική και 64 interchromosomal βαλβίδων διακοπής ανιχνεύεται από breakdancer λαμβάνεται μετά την εφαρμογή της διαδικασίας φιλτραρίσματος μας. Η πλειοψηφία αυτών των κλήσεων, που ονομάζεται από τα δύο προγράμματα, βρέθηκαν να είναι είτε ένα αποτέλεσμα σφαλμάτων ευθυγράμμισης που σχετίζονται με επαναλήψεις (59%), ή προηγουμένως αγνώστων βλαστικής σειράς βαλβίδων διακοπής, όπως ρετροστοιχείου ή retrogene ενθέσεις (23%). Breakdancer ανιχνευθεί μόνο ένα υποσύνολο των υψηλών βαλβίδων διακοπής εμπιστοσύνης βρέθηκε από SVDetect (47 από 61), ακόμη και πριν από την εφαρμογή οποιασδήποτε φιλτραρίσματος, ίσως λόγω των διαφορών στον αλγόριθμο ομαδοποίησης.

Χρησιμοποιήσαμε PCR για τη δοκιμή 57 ενδοχρωμοσωμική και 4 interchromosomal βαλβίδων διακοπής υψηλή εμπιστοσύνη που διαπιστώθηκαν από το breakdancer και /ή SVDetect (Πίνακας S1). Από αυτό το σύνολο, μπορούμε επικυρωμένη 23 μεγάλες (1-539 kb) διαγραφές, αναστροφές 10, 5 επαναλήψεις και 2 μετατοπίσεων ως ογκο-ειδικό, και η εξειδίκευση των προϊόντων PCR επιβεβαιώθηκε με ανάλυση αλληλουχίας Sanger (Πίνακας 3). Έτσι, 40 από τα 61 υψηλής βαλβίδων διακοπής εμπιστοσύνη που προσδιορίζονται με τη μέθοδο μας είχαν επικυρωθεί ως ειδικά όγκου βαλβίδων διακοπής. Οι άλλες εκδηλώσεις 19 ενδοχρωμοσωμική και 2 interchromosomal ήταν PCR επικυρώνονται ως βλαστική βαλβίδων διακοπής. 16 από 21 από αυτά τα βαλβίδων διακοπής είχαν τουλάχιστον μία στήριξη διαβάσει ζεύγος στο αρχικό σύνολο δεδομένων ελέγχου και απέτυχε να ανιχνευθεί λόγω 2 υποστήριξη διαβάσει αποκοπής μας. Αυτά τα ψευδώς θετικά αποτελέσματα μπορεί να αποφευχθεί είτε με αλληλούχιση του συνόλου δεδομένων ελέγχου σε υψηλότερη κάλυψη, όταν είναι δυνατόν, ή την εξέταση του συνόλου δεδομένων ελέγχου με τη χρήση του αποκοπής ζεύγος 1 ανάγνωσης.

Η

Μεταξύ επικυρωθεί όγκου-ειδικά βαλβίδων διακοπής, βρήκαμε αρκετά διαγραφές ογκοκατασταλτικού γονιδίου, καθώς επίσης και ορισμένα αναμενόμενα αναδιατάξεις του γονιδίου του υποδοχέα κανονικό αντιγόνο (Πίνακας 3). Αξίζει να σημειωθεί ότι, δύο όγκων ειδικές μεταθέσεις, δύο αναστροφές και ένα επικυρωμένο ογκο-ειδική επικάλυψη δείχνουν σημάδια μιας σύνθετης αναδιάταξη [29].

Συμπεράσματα

Κατ ‘αρχάς, το έργο μας δείχνει ότι προσομοιώνει ζεύγη-end αλληλουχίας μπορεί να είναι ένας αποτελεσματικός τρόπος για την ανάπτυξη της στρατηγικής ανάλυσης, προβλέπουν την κάλυψη απαραίτητα για την ανίχνευση σημείων διακοπής DNA σε διαφορετικά περιβάλλοντα γονιδιωματική και για το διαχωρισμό των πηγών των ψευδώς θετικών κλήσεις σε δείγμα που αφορούν και εκείνων που οφείλονται σε αντικείμενα ανάλυσης.

Δεύτερη , έχουμε βρει ότι ένα σύνολο δεδομένων ελέγχου που λαμβάνεται από το ίδιο ζώο είναι απαραίτητο να μειωθεί ένα μεγάλο αριθμό βλαστικής σειράς βαλβίδων διακοπής που υπάρχουν μεταξύ των κοινώς χρησιμοποιούμενα εργαστηριακά στελέχη ποντικού, ακόμη και σε περιπτώσεις, όταν τα ζώα αναδιασταυρώθηκαν αρκετές φορές με το στέλεχος γονιδίωμα αναφοράς.

Τρίτον, έχουμε ορίσει δύο τύπους διπλές αναγνώσεις ψευδώς πρόβλεψη SV, που προκύπτουν από PCR υπερ-ενίσχυση κατά την προετοιμασία του δείγματος: τέλεια αντίγραφα, με ασορτί γονιδιωματική συντεταγμένες, και εκείνοι με 1-2 bp συντεταγμένη offset που δεν ανιχνεύονται χρησιμοποιώντας τα υπάρχοντα εργαλεία. Σας παρουσιάζουμε μια μέθοδο για να αφαιρέσετε βαλβίδων διακοπής που προκύπτουν από αυτές διαβάζει χρησιμοποιώντας είτε SVDetect ή breakdancer.

Τέταρτον, θεωρούμε ότι η άρση των διαβάζει με χαμηλής ποιότητας χαρτογράφηση BWA, καθώς και κλήσεις SV που επικαλύπτονται με γονιδιωματικές περιοχές με χαμηλή mappability, είναι ένας πολύ αποτελεσματικός τρόπος για να φιλτράρει μεγάλους αριθμούς μας false positives που οφείλονται σε σφάλματα ευθυγράμμισης.

Τέλος, χρησιμοποιώντας αυτή τη μέθοδο, θα επικυρωθεί ένα αρκετά μεγάλο αριθμό αλήθεια ογκο-ειδικών βαλβίδων διακοπής από ένα μάλλον μικρό σύνολο δεδομένων. Ξεκινώντας με ένα μεγάλο αριθμό υποψηφίων γεγονότα, ήμασταν σε θέση να απορρίψει γρήγορα πλειοψηφία των ψευδώς θετικών και να επικεντρωθεί σε ένα προσιτό αριθμό των υποψηφίων για χειροκίνητη ανάλυση (~ 5% του αρχικού αριθμού των κλήσεων από αυτό το σύνολο δεδομένων). Εμείς επικυρωμένης μεθόδου φιλτραρίσματος με δύο ευρέως χρησιμοποιούμενα προγράμματα ανίχνευσης SV, SVDetect και breakdancer, που δείχνει ότι είναι γενικής εφαρμογής, αντί να περιορίζεται σε ένα ενιαίο πρόγραμμα και τις πιθανές ελλείψεις της. Ο τελικός αριθμός των υποψήφιων γεγονότων, καθώς και ο αριθμός των ψευδών αρνητικών, είναι συνάρτηση της κάλυψης και η αυστηρότητα των παραμέτρων φιλτραρίσματος. Ανάλογα με τις ανάγκες του πειράματος, αυτές οι παράμετροι μπορεί να ρυθμιστεί σε ένα επιθυμητό επίπεδο ώστε να επιτευχθεί ένα αποδεκτό αριθμό των λανθασμένων θετικών έναντι λανθασμένων αρνητικών.

Η μέθοδος μας θα πρέπει να ισχύουν για τις μελλοντικές εργασίες σε πρότυπους οργανισμούς ως καθώς και σε ανθρώπινους όγκους. Στο κλινικό πλαίσιο, θα χρειαστούν υψηλότερη κάλυψη να μειωθεί ο αριθμός των απαρατήρητα βλαστικής σειράς βαλβίδων διακοπής, καθώς και για να βελτιωθεί η ανίχνευση σωματικών βαλβίδων διακοπής χαμηλής συχνότητας.

Υλικά και Μέθοδοι

Προσομοίωση Sequencing PE δεδομένα

σύνολα δεδομένων αλληλουχίας Εικονικές PE δημιουργήθηκαν με βάση ένα γονιδίωμα αναφοράς μεταλλαγμένο ποντίκι (mm9) που περιέχει 10 μεταθέσεις και 10 μεγάλες διαγραφές εισάγονται χρησιμοποιώντας τα εργαλεία EMBOSS (https://emboss.sourceforge.net). αρχεία μορφής Illumina fastq γράφτηκαν χρησιμοποιώντας πρόγραμμα PE.pl μας (https://sourceforge.net/projects/svdetection) που επιλέγει τυχαίες θέσεις στο γονιδίωμα παρέχονται από το χρήστη, κανονικοποιημένη για διαφορετικά μήκη χρωμόσωμα. παράμετροι καθορίζονται από το χρήστη περιλαμβάνουν τον αριθμό των ζευγών διαβάσει, διαβάστε το μήκος, το μέσο μέγεθος ενθέματος και την τυπική απόκλιση.

Απόκτηση Πειραματικά Δεδομένα

Thymoma και το ήπαρ (έλεγχος) ιστού συλλέχθηκαν από rag2

c /cp53

– /- ποντικό [22], ένα υβριδικό στέλεχος 129SvEv /C57BL6, και γονιδιωματικό ϋΝΑ καθαρίστηκε χρησιμοποιώντας Blood & amp? Cell Culture DNA Maxi Kit (Qiagen, # 13362). Paired-άκρο βιβλιοθήκες δημιουργήθηκαν από 1 μα ξεκινώντας γονιδιακό υλικό και από τις δύο ιστούς χρησιμοποιώντας Δείγμα TruSeq DNA v2 Prep Kit (Illumina, # FC-121-2001) σύμφωνα με τις συστάσεις του κατασκευαστή. Βέλτιστη PCR ενίσχυση του προσαρμογέα-προσδεμένο DNA προσδιορίστηκε χρησιμοποιώντας ένα Σύστημα FlashGel DNA (Lonza, # 57026). Βιβλιοθήκες αναλύθηκαν για κατανομή μεγέθους χρησιμοποιώντας Agilent 2100 Bioanalyzer (Agilent Technologies, # 5067000000-4626000000 εκατομμύρια) και η συγκέντρωση του DNA προσδιορίστηκε χρησιμοποιώντας qubit dsDNA ΕΣ Assay Kit (Life Technologies, # Q32851). Τα δείγματα αναλύθηκαν κατά την αλληλουχία σε Illumina HiSeq 2000 χρησιμοποιώντας Kit Cluster TruSeq PE v3 (Illumina, # ΡΕ-401 με 3001) και TruSeq SBS Kit v3 (Illumina, # FC-401-3002), σύμφωνα με τις συστάσεις του κατασκευαστή. Δύο λωρίδες χρησιμοποιήθηκαν για την αλληλουχία του όγκου και μία λωρίδα για τη βιβλιοθήκη DNA ελέγχου (SRA αριθμός ένταξης: SRA055958).

PE Διαβάστε Ευθυγράμμιση και φιλτράρισμα Ποιότητας

Τα αρχεία Fastq παρήχθησαν χρησιμοποιώντας Casava 1.8 ( Illumina) και διαβάζει ευθυγραμμίστηκαν χρησιμοποιώντας BWA [26]. αρχεία εξόδου ήταν χειραγωγείται από Samtools όπως απαιτείται [30]. Τέλεια αντίγραφα PCR αφαιρέθηκαν χρησιμοποιώντας το εργαλείο MarkDuplicates του Picard (https://sourceforge.net/apps/mediawiki/picard). BWA-καθορισμένο σύμφωνη ζεύγη ανάγνωσης και να διαβάσετε τα ζεύγη με τα αποτελέσματα της ποιότητας χαρτογράφηση χαμηλή BWA απομακρύνθηκαν χρησιμοποιώντας το δικό μας λογισμικό (https://sourceforge.net/projects/svdetection), όπως απαιτείται.

Κλήση Διαρθρωτικών Παραλλαγές και αφαίρεση Ατελής Αντίγραφα

SVDetect [20] ή breakdancer [21] χρησιμοποιήθηκαν για να καλέσετε ενδοχρωμοσωμική και interchromosomal ανακατατάξεις από ασύμφωνα, ποιότητας προ-φιλτράρεται διαβάσει ζεύγη. Το μέσο μέγεθος ενθέματος και τυπική απόκλιση που χρησιμοποιούνται στην παρούσα ανάλυση λήφθηκαν από το εργαλείο InsertSizeMetrics του Picard (https://sourceforge.net/apps/mediawiki/picard). SVDetect και breakdancer είχαν ρυθμιστεί για να ανιχνεύσει αναδιατάξεις με 2 ή περισσότερα δικαιολογητικά ανάγνωσης ζεύγη χρησιμοποιώντας 8 φορές την τυπική απόκλιση ως κατώφλι για τις δύο διαγραφές και αντιγραφές. SVDetect λειτουργία ενσωματωμένη «συγκρίνουν» χρησιμοποιήθηκε για τη σύγκριση των συνόλων δεδομένων του όγκου και ελέγχου. Κατά τη σύγκριση των κλήσεων, η επιλογή για τη σύγκριση μόνο τον ίδιο τύπο SV ήταν απενεργοποιημένο. Για την ανίχνευση SV με breakdancer, όγκου στην κανονική σύγκριση έγινε με τη χρήση BEDTools [31].

Για να αφαιρέσετε τα διπλότυπα PCR με 1-2 bp offset σε συντεταγμένες ( «ατελή αντίγραφα»), που χειραγωγείται το αρχείο εξόδου που δημιουργήθηκε από η SVDetect «συνδέει» λειτουργία, χρησιμοποιώντας το δικό μας λογισμικό (https://sourceforge.net/projects/svdetection). Αυτό το αρχείο παραθέτει συστάδες των ζευγαριών ανάγνωσης που υποστηρίζουν την ίδια αναδιάταξη και περιέχει τις συντεταγμένες των επιμέρους στήριξης διαβάζει. Τα ζεύγη όπου τόσο διαβάζει τοποθετημένο 0, τα ζεύγη 1 ή 2 βάσης μακριά από το άλλο, στον ίδιο προσανατολισμό, απομακρύνθηκαν ως ατελή διπλότυπα. Στην ανάλυση SV breakdancer-based, αλλάξαμε το ελάχιστο SV αγκύρωσης ρύθμιση περιοχής σε 3, προκειμένου να αποφευχθεί βαλβίδων διακοπής που ονομάζεται από συστάδες ατελή αντίγραφα PCR. Εξετάσαμε, επίσης, διαβάζει την υποστήριξη κλήσεις SV στα αρχεία breakdancer παράγονται κρεβάτι και χρησιμοποιείται το δικό μας λογισμικό για να αφαιρέσετε οποιαδήποτε βαλβίδων διακοπής που προκύπτουν από ατελή αντίγραφα (https://sourceforge.net/projects/svdetection).

Ορισμός υψηλή εμπιστοσύνη SV οι υποψήφιοι

διαρθρωτικά παραλλαγές που ονομάζεται από SVDetect είχαν επιπλέον φιλτράρονται με βάση την επικάλυψη με χαμηλές περιοχές mappability, απλών επαναλήψεων και τα δεδομένα RepeatMasker εξάγεται από τον πίνακα περιήγησης UCSC [32]. Επικάλυψη μεταξύ των περιοχών αυτών και τους συνδέσμους SVDetect αξιολογήθηκε χρησιμοποιώντας εργαλεία Galaxy [33], [34], [35]. Χαμηλή περιοχές mappability συγκεντρώθηκαν ως γειτονικά διαστήματα 50 bp με Δούκα ΚΩΔΙΚΟΠΟΙΗΣΗ μοναδικότητα βαθμολογίες λιγότερο από 0,5 (η ακολουθία 50 bp εμφανίζεται περισσότερες από 2 φορές στο γονιδίωμα). Βαλβίδων διακοπής με συνδέσμους επικαλυπτόμενες περιοχές αυτές αφαιρέθηκαν, με την αποκοπή σε 85% και 50% επικάλυψη για ενδοχρωμοσωμική και interchromosomal εκδηλώσεις, αντίστοιχα. Για επικάλυψη με απλές περιοχές επανάληψης, η αποκοπή ήταν 50% ή μεγαλύτερη. RepeatMasker επικάλυψη χρησιμοποιήθηκε ως ένα φίλτρο μόνο για interchromosomal συμβάντα που υποστηρίζονται από 2 ή 3 ζευγάρια ανάγνωσης, με την αποκοπή οριστεί σε 80%. Για ενδοχρωμοσωμική γεγονότα, η πρόσθετη έθιμο φιλτράρισμα εφαρμόστηκε για να αφαιρέσετε βαλβίδων διακοπής καλείται από ζεύγη ανάγνωσης που προέρχονται από θραύσματα DNA που αποκλίνουν από το αναμενόμενο εύρος μεγέθους ένθετο βιβλιοθήκης που δεν απομακρύνθηκαν από την τυπική απόκλιση αποκοπής μας. Να λογοδοτήσει γι ‘αυτό, το μέγεθος διαγραφή αποκοπής ορίστηκε στα 600 bp και η επικάλυψη με 300 bp.

όγκου-ειδικά βαλβίδων διακοπής καλείται από SVDetect και breakdancer τελικά εξετάστηκαν με το χέρι για να δημιουργήσει τον κατάλογο των υψηλών υποψηφίων εμπιστοσύνης. Βαλβίδων διακοπής που προέρχονται από λάθη ευθυγράμμισης (που σχετίζονται με επαναλαμβανόμενες περιοχές του γονιδιώματος), απέτυχε όγκου ελέγχου φιλτράρισμα σύγκρισης, καθώς και βλαστικής σειράς βαλβίδων διακοπής (ρετροστοιχείου και retrogene παρεμβολές) αφαιρέθηκαν από τη λίστα ή χαρακτηρίζονται ως χαμηλής υποψήφιοι εμπιστοσύνη.

Επικύρωση

You must be logged into post a comment.