PLoS One: Human Cancer Long μη-κωδικοποίησης RNA Transcriptomes


Αφηρημένο

Μόλις πιστεύεται ότι είναι ένα μέρος της «σκοτεινής ύλης» του γονιδιώματος, μακρύ μη-κωδικοποίησης RNAs (lncRNAs) αναδύονται ως αναπόσπαστο λειτουργικό συστατικό του μεταγραφικό θηλαστικών. LncRNAs αποτελούν μια νέα τάξη mRNA που μοιάζει με μεταγραφές οι οποίες, παρά τη μη γνωστό δυναμικό που κωδικοποιεί την πρωτεΐνη, επιδεικνύουν ένα ευρύ φάσμα δομικών και λειτουργικών ρόλων στην κυτταρική βιολογία. Ωστόσο, το μέγεθος της συνεισφοράς της έκφρασης lncRNA σε φυσιολογικούς ανθρώπινους ιστούς και καρκίνοι δεν έχει διερευνηθεί σε ένα ολοκληρωμένο τρόπο. Σε αυτή τη μελέτη, καταρτίζονται 272 ανθρώπινα σειριακή ανάλυση έκφρασης γονιδίου (SAGE) βιβλιοθήκες για να οριοθετηθούν τα πρότυπα της μεταγραφής lncRNA σε ένα ευρύ φάσμα φυσιολογικών ανθρώπινων ιστών και καρκίνους. Χρησιμοποιώντας μια νέα lncRNA αγωγού ανακάλυψη θα αναλυθούν πάνω από 24 εκατομμύρια ετικέτες SAGE και να αναφέρουν προφίλ έκφρασης lncRNA σε ένα πάνελ 26 διαφορετικών κανονικών ανθρώπινων ιστών και 19 ανθρώπινων καρκίνων. Τα ευρήματά μας δείχνουν εκτεταμένη, ιστο-ειδική έκφραση lncRNA σε φυσιολογικούς ιστούς και ιδιαίτερα ανώμαλη έκφραση lncRNA σε ανθρώπινους καρκίνους. Εδώ, σας παρουσιάζουμε ένα πρώτο άτλαντα γενιάς για lncRNA προφίλ στον καρκίνο

Παράθεση:. Gibb EA, Βούτσιτς ΕΑ, Enfield KSS, Stewart GL, Lonergan KM, Kennett JY, et al. (2011) Human Cancer Long μη-κωδικοποίησης RNA Transcriptomes. PLoS ONE 6 (10): e25915. doi: 10.1371 /journal.pone.0025915

Συντάκτης: Eric J. Bernhard, Εθνικό Ινστιτούτο Καρκίνου, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 1 του Αυγούστου 2011? Αποδεκτές: 13 Σεπτέμβρη του 2011? Δημοσιεύθηκε: 3η Οκτωβρίου 2011

Copyright: © 2011 Gibb et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από επιχορηγήσεις από το καναδικό Ινστιτούτο Έρευνας Υγείας (CIHR) [MOP 86731, MOP 77.903 έως WLL, MOP 13690 για να CJB]? Εθνικά Ινστιτούτα Υγείας [ΝΙΗ 2R01 CA103830 – 6Α1]? Υπουργείο Άμυνας [CDMRP W81XWH-10-1-0634]? CIHR και Michael Smith Ίδρυμα Ερευνών Υγείας (MSFHR) μεταδιδακτορικών υποτροφιών [να E.A.G.]? και CIHR Frederick Banting και Charles Best Καναδά Μεταπτυχιακών Υποτροφιών [να E.A.V.]. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Γονιδιώματος αστάθεια και μεταλλάξεις είναι το σήμα κατατεθέν του καρκίνου [1]. Γενετικές και επιγενετικές μεταβολές οδηγούν σε ανώμαλη έκφραση των γονιδίων που κωδικοποιούν πρωτεΐνες και πολλές κατηγορίες μη-κωδικοποίησης RNAs (ncRNAs), συμπεριλαμβανομένων των microRNAs (miRNAs). MiRNAs έχουν αποδειχθεί να είναι σημαντικοί παράγοντες στην ανθρώπινη καρκινογένεση, παρά περιλαμβάνει μόνο ένα μικρό κλάσμα του ncRNAs [2].

Μόλις πιστεύεται ότι είναι η «σκοτεινή ύλη» του γονιδιώματος, ncRNAs έχουν αναδειχθεί ως αναπόσπαστο στοιχείο της ο μεταγραφικό θηλαστικών [3], [4], [5]. Αυτά τα μόρια αινιγματική ορίζεται από την έλλειψη αλληλουχίας που κωδικοποιεί την πρωτεΐνη, αλλά μπορεί να παίξει και τις δύο δομικές και λειτουργικούς ρόλους στο κύτταρο [6], [7]. NcRNAs μπορούν έχουν ομαδοποιηθεί σε δύο κύριες κατηγορίες, το μικρό ncRNAs, τα οποία περιλαμβάνουν miRNAs και άλλες μη-κωδικοποίησης μεταγραφές μικρότερο από 200 νουκλεοτίδια (nt), και τα πιο πρόσφατα περιγράφηκε lncRNAs, τα οποία κυμαίνονται από 200 nt σε & gt? 100 κιλοβάσεις (kb ) [8].

LncRNAs μπορεί να είναι διαγονιδιακή, εσωνίων, αντιπληροφοριακό ή επικάλυψη με γονίδια που κωδικοποιούν πρωτεΐνες ή άλλα ncRNAs [9], [10], [11], [12]. Το γνωστό ρεπερτόριο των λειτουργιών lncRNA αναπτύσσεται με ταχείς ρυθμούς – με αποδεδειγμένη ρόλους ως μεσολαβητές του mRNA αποσύνθεσης [13], οι διαρθρωτικές ικριώματα για την πυρηνική υποδομών [14], [15], όπως γονίδια υποδοχής για miRNAs [16], [17], και ως ρυθμιστές της χρωματίνης αναδιαμόρφωσης [18], [19], [20], [21] – ακόμα κι αν οι λειτουργικές ταυτότητες των πολλών lncRNAs έχουν ακόμη να αποκαλυφθεί [6], [7], [22]. Πρόσφατα, ανθρώπινων καρκίνων έχουν περιγραφεί να έχουν αλλαγμένη έκφραση των δορυφορικών επαναλήψεων [23], που μεταγράφεται εξαιρετικά διατηρημένες περιοχές (Τ-UCRs) [24], και αντινοηματικά μεταγραφήματα [25]. Πέρα από τις αλλαγές της έκφρασης, συσσωρεύοντας στοιχεία δείχνουν ανώμαλη έκφραση του lncRNAs μπορούν να παίξουν σημαντικό λειτουργικό ρόλο στον καρκίνο βιολογία [26], [27], [28]. Η καλά μελετηθεί ΗΟΧ αντιπληροφοριακό διαγονιδιακή RNA (

Hotair

), για παράδειγμα, εκφράζεται έντονα σε καρκίνους του μαστού και μεταστάσεις καρκίνου του μαστού και παίζει ένα ρόλο στην επαναστόχευση σύμπλοκα αναδιαμόρφωσης χρωματίνης [29]. Παρομοίως, η υψηλή έκφραση του πυρηνικού κηλίδων που σχετίζεται lncRNA μετάσταση σχετιζόμενη πνεύμονα αδενοκαρκίνωμα μεταγραφής 1 (

MALAT1

) διαμορφώνει εναλλακτικό μάτισμα και έχει συσχετισθεί με μετάσταση και κακή έκβαση σε ασθενείς με καρκίνο του πνεύμονα [30], [31] . Ενώ αυτά τα παραδείγματα είναι ενδιαφέρουσα, η έκταση της συμβολής της διαφορικής έκφρασης lncRNA στον καρκίνο του ανθρώπου είναι προς το παρόν άγνωστη.

Με μια συντηρητική εκτίμηση 23.000 lncRNAs στο ανθρώπινο γονιδίωμα, αυτές οι μεταγραφές, εφάμιλλα των ~ 20.000 γονίδια που κωδικοποιούν πρωτεΐνες [5], [11], [32], [33]. Κατά τη διάρκεια των δύο τελευταίων δεκαετιών, μικροσυστοιχιών προφίλ έχει δημιουργήσει μια πληθώρα πληροφοριών σχετικά με τα πρότυπα γονιδιακής έκφρασης που κωδικοποιεί την πρωτεΐνη σε ανθρώπινους καρκίνους. Ωστόσο, καθώς οι lncRNA ειδικούς ανιχνευτές υποεκπροσωπούνται στις εμπορικές μικροσυστοιχίες χρησιμοποιούνται στον καρκίνο μεταγραφικό προφίλ, τα στοιχεία αυτά δεν ισχύουν για ncRNAs. Παγκόσμια αλληλούχιση των πληθυσμών RNA είναι μια νέα προσέγγιση που χρησιμοποιείται στο προφίλ επίπεδα έκφρασης RNA που θα συλλάβει την έκταση της έκφρασης lncRNA. Πρόσφατα, προφίλ έκφρασης ncRNA γονιδίωμα-ευρεία προσδιορίστηκαν σε 11 δείγματα που αντιπροσωπεύουν διαφορετικούς τύπους ανθρώπινων ιστών [34].

Μια μέθοδος βασισμένη σε αλληλουχία για την απαρίθμηση της αφθονίας του πολυαδενυλιωμένου μεταγραφές είναι SAGE [35]. Όπως οι ίδιοι πολλές lncRNAs πολυαδενυλιωμένα, τα επίπεδα μεταγραφής lncRNA μπορεί να συναχθεί με απευθείας απαρίθμηση των αντίστοιχων ετικετών αλληλουχίας χρησιμοποιώντας την τεχνολογία SAGE. Στην πραγματικότητα, δύο αντίθετης φοράς lncRNAs ανακαλύφθηκαν χρησιμοποιώντας SAGE βασίζεται σε μέθοδο [25]. Από την εφεύρεση της τεχνολογίας SAGE στα μέσα της δεκαετίας του 1990, πολλές βιβλιοθήκες SAGE που αντιπροσωπεύουν μια ποικιλία ανθρώπινων και ποντικού, κανονικών και κακοηθών ιστών και κυτταρικών γραμμών έχουν καταστεί διαθέσιμες στο κοινό [36]. Από τις 755 ανθρώπινες βιβλιοθήκες SAGE στην Omnibus βάση δεδομένων γονιδιακής έκφρασης (GEO), ~276 περιλαμβάνει SAGE βιβλιοθήκες που προέρχονται από ανθρώπινους καρκίνους ή δυσπλασίες [37].

Σε αυτή τη μελέτη, θα καταρτίζονται 272 ανθρώπινες βιβλιοθήκες SAGE να οριοθετηθούν lncRNA μοτίβα μεταγραφής σε ένα ευρύ φάσμα ανθρώπινων ιστών και καρκίνων. Χρησιμοποιώντας μια προσαρμοσμένη lncRNA αγωγού ανακάλυψη, μπορούμε αναλύεται πάνω από 24 εκατομμύρια ετικέτες αλληλουχίας SAGE να συμπεράνουμε (1) τα συγκεκριμένα μοτίβα έκφρασης lncRNA σε 26 ανθρώπινους ιστούς και ανακάλυψε εκφράζεται παντού καθώς και των ιστών συγκεκριμένες lncRNAs, και (2) τα παρεκκλίνουσα πρότυπα έκφρασης lncRNAs σε 19 καρκίνους του ανθρώπου.

Αποτελέσματα

Συναρμολόγηση ανθρώπινη βιβλιοθήκες SAGE των φυσιολογικών και καρκινικών ιστών

Ένα σύνολο από 1.824 βιβλιοθήκες SAGE (εν συντομία SAGE, μακρύ SAGE και SAGE-seq format) της ανθρώπινης και μη-ανθρώπινης προέλευσης είναι δημοσίως διαθέσιμες μέσω του GEO. Για να εξερευνήσετε την έκφραση lncRNA στο ευρύτερο φάσμα των τύπων ανθρώπινων ιστών και τύπων καρκίνου, που κατεβάσαμε 360 GEO accessioned ανθρώπινη βιβλιοθήκες σύντομο SAGE αποτελείται από βιβλιοθήκες επιμέλεια του έργου του καρκίνου Γονιδιώματος Ανατομία (324 βιβλιοθήκες) και τον πνευμονικό ιστό και σύνολα δεδομένων του καρκίνου (36 βιβλιοθήκες) ( Πίνακας S1). Μεμονωμένες βιβλιοθήκες διηθούνται για το βάθος ακολουθία, διατηρώντας μόνο αυτές τις βιβλιοθήκες με & gt? 50.000 πρώτες ετικέτες, για να παρέχει 272 βιβλιοθήκες SAGE για ανάλυση με τη χρήση του αγωγού lncRNA ανακάλυψή μας (Πίνακας S2). Τα 272 SAGE βιβλιοθηκών που αποτελούνται από ένα σύνολο 24.436.076 ετικέτες πρώτων αλληλουχία με ένα μέσο αριθμό πρώτων ετικέτα του 90.212 ανά βιβλιοθήκη. Συλλογικά, οι βιβλιοθήκες εκτάθηκε 26 κανονικούς τύπους ανθρώπινου ιστού, συμπεριλαμβανομένων των 19 ανθρώπινους τύπους καρκίνου, και 9 τύπους ιστών που προέρχονται από βιβλιοθήκες κυτταρική γραμμή (Σχήμα 1, Πίνακας S3).

(CL) δείχνει μία βιβλιοθήκη SAGE που δημιουργήθηκε από ένα μείγμα ανθρώπινων κυτταρικών σειρών.

Η

Long μη-κωδικοποίησης

αγωγού ανακάλυψη RNA

για να δημιουργήσετε προφίλ έκφρασης lncRNA, έχουμε αναπτύξει έναν αγωγό ανακάλυψη lncRNA να χαρτογραφήσει tag-to-lncRNA αγώνες (Σχήμα 2). Μια μήτρα έκφραση ετικέτα SAGE κατασκευάστηκε από όλες τις μοναδικές ετικέτες (n = 716.330) που εντοπίζονται στο σύνολο δεδομένων των 272 βιβλιοθήκες. Unigene χαρτογραφηθεί και unmapped ετικέτες SAGE (n = 269.785 και η = 446545, αντίστοιχα) διαχωρίστηκαν σε διακριτά μήτρες έκφρασης που στη συνέχεια διηθείται για να διατηρήσει μόνο αυτές τις ετικέτες με τουλάχιστον 2 πρώτες μετρήσεις ετικέτα σε 3 ή περισσότερες βιβλιοθήκες SAGE. Χρησιμοποιώντας SAGE Genie να εκχωρήσετε γονίδιο αναγνωριστικά στην Unigene ταυτότητες, 263 από τους 61.054 φιλτράρεται ετικέτες με τα αντίστοιχα Unigene IDs χαρτογραφείται σε γνωστά lncRNAs, και 15.773 ετικέτες, είτε δεν διέθεταν τα ονόματα γονίδιο ή είχε διφορούμενη επισημειώσεις (π.χ. μεταγραφεί τόπους, cDNA, υποθετικά γονίδια). Με βάση την απουσία επιβεβαίωσε σύνδεσης με γνωστά γονίδια, αυτοί οι αγώνες 15773 tag-to-Unigene ID θεωρήθηκαν ως ετικέτες lncRNA υποψήφιος

Οι αριθμοί δείχνουν προγράμματα ή μέτρα για φιλτράρισμα ως εξής:. (1) φιλτραρίσματος για να διατηρήσει μόνο εκείνες βιβλιοθήκες με ένα ελάχιστο των 50.000 μετράει πρώτων ετικέτα, (2) τον εντοπισμό μοναδική ετικέτες SAGE και την κατασκευή της μήτρας έκφραση ετικέτα SAGE, (3) ετικέτες χαρτογράφηση SAGE με αναγνωριστικά Unigene χρήση αρχείων χαρτογράφηση SAGE Genie, (4) καταλόγους φιλτραρίσματος για να διατηρήσει μόνο ετικέτες με ≥ 2 πρώτες μετρήσεις σε ≥3 από 272 βιβλιοθήκες, (5) τον προσδιορισμό της ταυτότητας του γονιδίου χρησιμοποιώντας SAGE Genie, (6) διαχωρίζοντας Unigene ετικέτες χαρτογράφησης για lncRNAs και διφορούμενη μεταγραφές, (7) συγκέντρωση διφορούμενη ετικέτες και unmapped ετικέτες, (8) ετικέτες αλληλουχίας χαρτογράφηση στον κατάλογο αναφοράς του 9891 lncRNAs χρησιμοποιώντας SeqMap, ένα πρόγραμμα χαρτογράφησης tag-to-γονιδίου, (υπόλοιπο ετικέτες μπορεί να αντιστοιχίζεται σε σχολιαζομένων lncRNAs ή αντίθετης φοράς μεταγραφές δεν περιλαμβάνονται στον κατάλογο αναφοράς μας) (9) ετικέτα φιλτραρίσματος αγώνες για την αίσθηση σκέλος, (10) συγκέντρωση μπροστά ετικέτες χαρτογράφηση και ετικέτες καθορίζεται από Unigene, και (11), επιβεβαιώνοντας tag-to-lncRNA αγώνες και αθροίζοντας μετράει ετικέτα για lncRNAs με αγώνες πολλαπλές ετικέτα. Ένας πλήρης κατάλογος των lncRNAs παρέχεται ως Πίνακας S5 και tag-to-lncRNA αγώνες παρέχονται ως Πίνακας S6.

Η

Οι 15.773 Unigene ετικέτες με διφορούμενη γονίδιο αναγνωριστικά ενώθηκαν με τους 17.816 unmapped, φιλτράρεται ετικέτες για συνολικά 33.589 SAGE ετικέτες με την δυνατότητα να δημιουργήσουν tag-to-lncRNA αγώνες. Χρησιμοποιώντας SeqMap, θα χαρτογραφηθεί 7.040 από τις 33.589 ετικέτες σε ακολουθίες lncRNA από τη λίστα lncRNA αναφοράς (Πίνακας S4). Το ποσοστό των tag-to-lncRNA αγώνες είναι συνεπής με το γεγονός ότι ο κατάλογος αναφορά μας 9891 lncRNAs αντιπροσωπεύει μόνο ένα μέρος των εκτιμώμενων 23.000 lncRNAs στο γονιδίωμα [33]. Οι υπόλοιπες ετικέτες που δεν χάρτη για να lncRNAs από κατάλογο αναφοράς μας μπορεί να αντιπροσωπεύει αντίθετης φοράς μεταγραφές σε γονίδια που κωδικοποιούν πρωτεΐνες ή άλλα ncRNAs που διηθούνται.

Από την ετικέτα 7040 lncRNA αγώνες, 3831 χαρτογραφηθεί στο εμπρός προσανατολισμό, ενώ το 3209 χαρτογραφηθεί προς την αντίθετη κατεύθυνση. Σε SAGE, ετικέτες που ταιριάζουν μεταγραφή στον εμπρόσθιο προσανατολισμό είναι πιθανόν προέρχονται από την εν λόγω μεταγραφή, ενώ οι ετικέτες που να ταιριάζουν με την αντίστροφη κατεύθυνση, δεν είναι. Αυτό ισχύει ανεξάρτητα από το αν το γονίδιο κανονικά μεταγράφεται από το συν ή μείον κλώνο DNA. Σε αυτή τη μελέτη, μας ενδιαφέρει τα προφίλ έκφρασης ενός επιμέλεια σειράς lncRNAs, παρά τα νέα ανακάλυψη γονιδίων. Όπως αντίστροφη αγώνες ετικέτα δεν επιβεβαιώνουν την έκφραση των lncRNAs που περιγράφονται στο παρόν, αυτές οι ετικέτες αποκλείστηκαν από την περαιτέρω ανάλυση.

Οι 3.831 ετικέτες πρόσφατα χαρτογραφηθεί σε lncRNAs συνδυάστηκαν με τις 263 ετικέτες που προσδιορίζονται από Unigene χαρτογράφηση για ένα σύνολο 4094 ετικέτες μοναδικά χαρτογράφηση για να lncRNAs. Όπου πολλές ετικέτες αντιστοιχίζεται σε μια ξεχωριστή lncRNA, οι ετικέτες είχαν καταρρεύσει αθροίζοντας τις μετρήσεις ετικέτα για να συλλάβει όλες τις παραλλαγές μεταγραφής και ισομορφές. Το τελικό αποτέλεσμα ήταν μια μήτρα έκφρασης lncRNA που αποτελείται από 2.649 διακριτές lncRNAs (Πίνακες S5 και S6). Οι lncRNAs με την υψηλότερη έκφραση ήταν ανιχνεύσιμα στην πλειοψηφία (& gt? 90%) των 272 βιβλιοθήκες (Πίνακας 1). Αυτά περιλαμβάνονται χαρακτηρίζεται παραδείγματα, όπως η πυρηνική paraspeckle μεταγραφή συναρμολόγησης 1 (

NEAT1

) και διακοπή της ανάπτυξης ειδικών 5 (

GAS5

).

Η

Long μη-κωδικοποίησης RNA προφίλ έκφρασης σε φυσιολογικούς ανθρώπινους ιστούς

Από τις 272 βιβλιοθήκες SAGE, 72 εκπροσωπούμενη φυσιολογικούς ανθρώπινους ιστούς. Η έκφραση του lncRNAs ανιχνεύθηκε σε όλους τους τύπους ιστών, αν και ο αριθμός των μοναδικών lncRNAs ανιχνεύεται ποικίλη σημαντικά (Σχήμα 3Α). Κατά μέσο όρο, υπήρχαν 145 διακριτές lncRNAs με μέση ετικέτες ανά εκατομμύριο (TPM) 20 ανιχνεύονται σε κάθε ιστό. Ιστοί όπως λεμφαδένας και τη χοληδόχο κύστη έδειξε τον υψηλότερο αριθμό διακριτών lncRNAs, ενώ τα χαμηλότερα αριθμούς διακριτών lncRNAs βρέθηκαν στο μυ και το ήπαρ.

(Α) Αριθμός διακριτών lncRNAs εκφράζεται σε φυσιολογικούς ανθρώπινους ιστούς, λευκά αιμοσφαίρια και τα εμβρυϊκά βλαστικά κύτταρα με ελάχιστη μέση TPM των 20. Οι τιμές στις παρενθέσεις δείχνουν τον αριθμό των SAGE βιβλιοθηκών για κάθε ιστό. (Β) Παραδείγματα lncRNAs ανιχνεύονται αποκλειστικά σε ένα και μόνο φυσιολογικό ανθρώπινο ιστό ή σε εμβρυϊκά βλαστικά κύτταρα (ΟΚΕ) με ένα ελάχιστο επίπεδο έκφρασης των 10 TPM. Για ιστούς με δύο ή περισσότερες βιβλιοθήκες, οι τιμές TPM εξήχθη ο μέσος όρος. Οι LncRNAs χωρίς ονόματα σημασμένο με ένα Ensembl ID.

Η

επόμενο επικεντρώθηκε σε αυτές τις βιβλιοθήκες για να καθορίσει αν προφίλ έκφρασης lncRNA ιστο-ειδική μπορούσε να παραχθεί (Πίνακας S7). Η Εικόνα 4Α δείχνει τα κορυφαία 20 πιο υψηλή έκφραση lncRNAs ανιχνεύονται στον πίνακα των φυσιολογικών ιστών. Ξεχωριστά lncRNAs ανιχνεύονται σε υψηλά επίπεδα έκφρασης σε φυσιολογικούς ιστούς περιλαμβάνονται εκείνα που χαρακτηρίζονται στη βιβλιογραφία όπως

NEAT1

,

GAS5

και X-αδρανής-ειδική μεταγραφή (

XIST

). Ωστόσο, τουλάχιστον το ήμισυ των εντόνως εκφρασμένων lncRNAs είναι νέα και επί του παρόντος μη χαρακτηρισμένο. Για να επιβεβαιώσετε τα προφίλ έκφρασης lncRNA, θα ερωτηθούν τα μοτίβα έκφρασης από τα πιο ιδιαίτερα εξέφρασε lncRNAs χρησιμοποιώντας δεδομένα RNASeq από το έργο Illumina Ανθρωπίνων Σωματικός Χάρτης 2.0. Τα δεδομένα αυτά προστέθηκε πρόσφατα Ensembl απελευθέρωση 62 και παρουσιάζεται ως προαιρετικό κομμάτι. Της πιο υψηλής έκφρασης lncRNAs μας, η πλειοψηφία ήταν ευρέως εκφράζονται σε δείγματα ιστού από το σύνολο δεδομένων Illumina, σύμφωνα με τα ευρήματά μας (Πίνακας S8, Σχήματα S1 και S2). Παράλληλα, η έκφραση lncRNA βρέθηκε επίσης να είναι εξαιρετικά μεταβλητή, με κάθε ανθρώπινο ιστό που έχει ένα μοναδικό μοτίβο έκφρασης lncRNA (Σχήμα 4Β). Είναι ενδιαφέρον, ένας αριθμός lncRNAs εκφράστηκαν σε έναν ιστό-αποκλειστικό τρόπο (Εικόνα 3Β).

(Α) LncRNAs με την υψηλότερη συνολική έκφραση (Β) LncRNAs με την υψηλότερη διακύμανση με ένα συντελεστή μεταβολής (CV) δοκιμή. Θερμικούς χάρτες δείχνουν τη σχετική ένταση (κανονικοποιημένη TPM) κάθε lncRNA όλη δεκαεπτά ανθρώπινους ιστούς, τα λευκά κύτταρα του αίματος και ανθρώπινων εμβρυϊκών βλαστικών κυττάρων. Σε περίπτωση που περισσότερες από μία βιβλιοθήκη SAGE ήταν διαθέσιμα, οι τιμές TPM κατά μέσο όρο. Για την θερμικός χάρτης, το ανώτατο όριο ορίστηκε σε 300 TPM. Οι LncRNAs χωρίς τα ονόματα σημασμένο με ένα Ensembl ID.

Η

Long μη-κωδικοποίησης προφίλ έκφρασης RNA σε ανθρώπινους καρκίνους

Η ανώμαλη έκφραση του γονιδίου που κωδικοποιεί την πρωτεΐνη περιγράφεται καλά στον καρκίνο. Ωστόσο, παρεκκλίνουσα έκφραση του ncRNAs, συμπεριλαμβανομένων miRNAs και lncRNAs, μόλις πρόσφατα σχετίζεται με την ασθένεια αυτή [2], [26], [27], [38]. Για να οριοθετηθούν προφίλ έκφρασης lncRNA που σχετίζονται με καρκίνους του ανθρώπου, δημιουργήσαμε μια μήτρα έκφρασης του ανθρώπινου καρκίνου βασίζεται σε 167 βιβλιοθήκες καρκίνο SAGE που περιλαμβάνονται στη δέσμη στοιχείων μας (Πίνακας S9). Για το σύνολο δεδομένων καρκίνο του πνεύμονα, μεταπλασία, δυσπλασία και φλεγμονώδεις ιστοί αποκλείστηκαν από την ανάλυση, όπως αυτά αντιπροσωπεύουν προκαρκινικών σταδίων [39], [40]. Το σχήμα 5Α δείχνει τα κορυφαία 20 πιο υψηλή έκφραση lncRNAs σε όλα τα προφίλ των καρκίνων. Όπως και οι φυσιολογικούς ιστούς, η έκφραση lncRNA στον ανθρώπινο καρκίνο βρέθηκε επίσης να είναι εξαιρετικά μεταβλητή (Σχήμα 5Β).

(Α) LncRNAs με την υψηλότερη συνολική έκφραση (Β) LncRNAs με την υψηλότερη διακύμανση από ένα συντελεστή μεταβολής (CV) της δοκιμής. Θερμικούς χάρτες δείχνουν τη σχετική ένταση (κανονικοποιημένη TPM) κάθε lncRNA όλη δεκαεπτά ανθρώπινων καρκίνων και ανθρώπινων εμβρυϊκών βλαστικών κυττάρων. Σε περίπτωση που περισσότερες από μία βιβλιοθήκη SAGE ήταν διαθέσιμα, οι τιμές TPM κατά μέσο όρο. Για την θερμικός χάρτης, το ανώτατο όριο ορίστηκε σε 300 TPM. Οι LncRNAs χωρίς ονόματα σημασμένο με ένα Ensembl ID.

Η

ανθρώπινων καρκίνων αποδεικνύουν μεταβληθεί σημαντικά πρότυπα έκφρασης lncRNA

Για να προσδιοριστεί η έκταση της διαφορικής έκφρασης lncRNA στον καρκίνο του ανθρώπου, δημιουργήσαμε τρεις μήτρες έκφρασης για κάθε μαστού, του εγκεφάλου και καρκίνο του πνεύμονα η οποία περιελάμβανε τουλάχιστον πέντε κανονικά και πέντε βιβλιοθήκες του καρκίνου SAGE (Πίνακας S10). Οι μήτρες έκφραση του μαστού, του εγκεφάλου και των πνευμόνων lncRNA ήταν ανεξάρτητα ταξινομημένο για σημαντικές και εκφράζονται διαφορικά lncRNAs (τιμή-ρ & lt? 0,05, ≥2 φορές αλλαγή έκφρασης που βασίζονται σε μη-παραμετρικό τεστ μετάθεση [41]). Σε κάθε τύπο του καρκίνου, βρήκαμε τουλάχιστον 200 lncRNAs να έχουν σημαντικές διαφορική έκφραση με βάση αυτά τα κριτήρια (Σχήμα 6Α). Περιέργως, υπήρχε επικάλυψη μεταξύ των lncRNAs που εκφράζονται διαφορικά σε κάθε ιστό (Σχήμα 6Β), συμπεριλαμβανομένων των 8 lncRNAs που εκφράζονται διαφορικά σε τρεις καρκίνους (Πίνακας 2). Οι δέκα πιο πάνω και τα κάτω-ρυθμίζονται lncRNAs για κάθε καρκίνο που βρέθηκαν στον πίνακα S11.

(Α) Αριθμός lncRNAs δείχνουν σημαντικές αλλαγές έκφρασης. Ο αριθμός των lncRNAs προσδιορίστηκε να έχει σημαντική (ρ-τιμή BH & lt? 0,05) διαφορική έκφραση 2-πλάσια ή μεγαλύτερη αναφερθεί. Στερεά μπάρες δείχνουν ρυθμίζεται προς τα πάνω γονίδια, ενώ το μπαρ με σημάδια καταπακτή δείχνουν μειωτικά γονίδια (Β) Venn διάγραμμα του διαφορικά εκφρασμένων lncRNAs σε ανθρώπινα καρκινώματα.

Η

διανομής Η χρωμοσωμική μακράς μη-κωδικοποίησης RNAs

Κατασκευάσαμε μια πλοκή διανομής για να προσδιοριστεί η χρωμοσωμική κατανομή των 9.891 γονιδίων lncRNA στη λίστα αναφορά lncRNA μας (Πίνακας S3). Οι lncRNAs κατανεμημένα σε όλο το γονιδίωμα και είναι παρόντα σε κάθε χρωμόσωμα (Σχήμα 7). γονιδίων και miRNAs που κωδικοποιεί την πρωτεΐνη φαίνεται να μοιράζονται μια παρόμοια κατανομή των χρωμοσωμάτων (Spearman συσχέτιση p & gt? 0.05, Σχήμα S3A). Ωστόσο, η κατανομή χρωμόσωμα του lncRNAs δεν συσχετίζονται είτε με γονίδια ή miRNAs που κωδικοποιεί την πρωτεΐνη (Spearman συσχέτιση ρ & lt? 0,05, Σχήματα S3b, S3C)

γονίδιο που κωδικοποιεί την πρωτεΐνη (n = 20.655), microRNA (n. = 1.746) και καιρό μη-κωδικοποίησης RNA (n = 9.891) συντεταγμένες είχαν κατεβάσει από Ensembl v62 χρησιμοποιώντας Biomart.

η

Συζήτηση

τα τελευταία χρόνια, η έννοια της λειτουργικής γονιδίωμα έχει έχουν ξαναγραφεί να περιλαμβάνει ένα πλήθος από ανακαλύφθηκαν πρόσφατα κατηγοριών ncRNA μεταγραφές [42], [43], [44], [45]. Παρά το γεγονός ότι έχει από καιρό αναγνωριστεί η λειτουργική σημασία της μακράς μη-κωδικοποίησης RNAs [46], [47], η αφθονία και η κλίμακα των αλλαγών έκφρασης lncRNA στον καρκίνο είναι μόλις αρχίζουν να έρχονται στο φως. Για το λόγο αυτό, χαρτογραφώντας το μεταγραφικό τοπίο της lncRNAs σε όλη την ανθρώπινη τύπους ιστού και του καρκίνου είναι ένα βασικό βήμα για την κατανόηση lncRNA λειτουργική σημασία στον καρκίνο.

Εδώ, σας παρουσιάζουμε το πρώτο multi-ιστού, cross-καρκίνου του προφίλ έκφρασης lncRNA μελέτη. Μεγάλης κλίμακας έκφραση προφίλ σύνολα δεδομένων, όπως φασκόμηλο, αποτελούν πολύτιμη πηγή για τη διερεύνηση του προτύπου έκφρασης του πολυαδενυλιωμένου lncRNAs. Ενώ αυτή η προσέγγιση αποκλείει την σκιαγράφηση των μη πολυαδενυλιωμένου lncRNAs, παρ ‘όλα αυτά διευκολύνει την ταυτόχρονη προφίλ χιλιάδων πολυαδενυλιωμένου lncRNAs σε ένα ευρύ φάσμα ανθρώπινων ιστών και καρκίνων. Χρησιμοποιώντας 272 βιβλιοθήκες SAGE, που εκπροσωπεί 26 μη-κακοήθεις ανθρώπινους ιστούς, 19 ανθρώπινους τύπους καρκίνου και 9 κυτταρικές σειρές καρκίνου, έχουμε καταρτίσει ένα πρώτο άτλαντα γενιά του προφίλ έκφρασης lncRNA cross-καρκίνου ως πηγή για αυτήν την ταχέως αναπτυσσόμενη περιοχή της έρευνας για τον καρκίνο. Οι τρέχουσες εκτιμήσεις για τον αριθμό των lncRNAs κωδικοποιούνται στο ανθρώπινο γονιδίωμα ποικίλλουν ευρέως, που κυμαίνονται από ~7,000 προς 23.000 ή περισσότερα [7]. Οι εκτιμήσεις αυτές ανταγωνιστεί την αφθονία των εκτιμώμενων 20.000 γονίδια που κωδικοποιούν πρωτεΐνες. Η ανάλυσή μας έδειξε ότι οι lncRNAs διανέμονται σε όλες τις 22 αυτοσωμικά και τα χρωμοσώματα του φύλου, αλλά το πρότυπο κατανομής δεν συσχετίζονται είτε με γονίδια που κωδικοποιούν πρωτεΐνες ή miRNAs (Σχήμα 7, Σχήμα S3).

Από την εξέταση των 72 SAGE βιβλιοθήκες φυσιολογικούς ανθρώπινους ιστούς αποκάλυψε έκφραση lncRNA στον εγκέφαλο, του μαστού, του οισοφάγου, της χοληδόχου κύστης, την καρδιά, το ήπαρ, πνεύμονα, λεμφαδένα, μύες, το περιτόναιο, πλακούντα, προστάτη, αμφιβληστροειδή, του νωτιαίου μυελού, του στομάχου, του θυρεοειδούς, αγγειακό ιστό, εμβρυϊκά βλαστικά κύτταρα και λευκά κύτταρα του αίματος. Βρίσκουμε εκτενή και ιδιαίτερα διαφορική πρότυπα έκφρασης lncRNA σε κανονικούς ανθρώπινους ιστούς (Σχήματα 3 και 4), που πιστοποιεί ένα προηγούμενο έκθεση του ιστού-ειδικά πρότυπα ncRNA [34]. Για παράδειγμα, η lncRNA NCRNA00116 ήταν ιδιαίτερα εκφράστηκε στις συσταλτικές ιστούς, δηλαδή καρδιά (TPM = 349) και μυϊκής (TPM = 399). LncRNAs ENSG00000230658 και ENSG00000235621 έδειξαν πολύ υψηλή έκφραση (TPM = 888) σε πλακούντα και του οισοφάγου (TPM = 820), αντίστοιχα, αλλά χαμηλά ή μη ανιχνεύσιμα έκφραση σε άλλους ιστούς, που μπορεί να δείχνουν ένα ρόλο ιστού-ειδικό για αυτά τα μετάγραφα. Ο εγκέφαλος που σχετίζονται και υποθετικές ογκοκατασταλτικό lncRNA μητέρα εξέφρασε 3 (

MEG3

) [48], εμφανίζεται η υψηλότερη έκφραση στον εγκέφαλο στο σύνολο δεδομένων μας (TPM = 677), αλλά έδειξε έκφραση χαμηλού επιπέδου σε άλλους τύπους ιστών ( Σχήμα 4). Συλλογικά, τα δεδομένα αυτά υποδεικνύουν μερικές lncRNAs μπορεί να λειτουργήσει σε έναν ιστό-ειδικό τρόπο.

Μόνο ~ 1% των lncRNAs είχαν εκφράζεται παντού σε όλους τους ιστούς που εξετάστηκαν. Αυτά συνεχώς εξέφρασε lncRNAs θυμίζουν τα μοτίβα έκφρασης «νοικοκυριό» γονίδια που κωδικοποιούν πρωτεΐνες [49]. Οι έντεκα lncRNAs στον Πίνακα 1 εκφράστηκαν σε τουλάχιστον 90% των 272 SAGE βιβλιοθηκών στο σύνολο δεδομένων μας, εμπλέκοντας ότι αυτές οι μεταγραφές μπορούν να συμμετέχουν σε κοινές βιολογικές διαδικασίες. Ωστόσο, το επίπεδο απόλυτης έκφρασης ποικίλουν για κάθε ιστό, μερικές φορές με εκατοντάδες TPM (Σχήμα 4). Αυτό υποδηλώνει ορισμένες lncRNAs μπορεί να απαιτούνται σε διαφορετικά κυτταρικά επίπεδα σε διαφορετικούς ιστούς ή υπό διαφορετικές συνθήκες, όπως και πολλοί ιδιοσυστατικά εκφραζόμενα γονίδια που κωδικοποιούν πρωτεΐνες [50], [51], [52]. Η έννοια της lncRNAs λειτουργούν ως ρυθμιστές εκφράζουν συντακτικά έχει προηγουμένως προταθεί. Για παράδειγμα, η lncRNA

XIST

είναι κρίσιμη για τις γυναίκες ανάπτυξη λόγω λειτουργικό ρόλο της στην απενεργοποίηση Χ-χρωμοσώματος [47], [53]. Να συμπίπτει με μια σειρά από τα πιο ιδιαίτερα και συχνά εκφράζονται lncRNAs στο σύνολο δεδομένων μας έχουν πριν από ενώσεις με βασικές βιολογικές διεργασίες, συμπεριλαμβανομένων των

NEAT1

, ένα δομικό ικρίωμα για paraspeckle σχηματισμό [14], [54],

MALAT1

που ρυθμίζει εναλλακτικό μάτισμα [31] και τα μικρά γονίδιο υποδοχής πυρηνισκικός RNA 6 (

SNHG6

), το οποίο φιλοξενεί μια snoRNA, που λειτουργούν στην τροποποίηση RNA [55]. Αυτά τα ευρήματα υποδηλώνουν ότι lncRNAs μπορεί να είναι κρίσιμη για την κανονική συντήρηση και λειτουργία των ιστών.

Σε αυτή την ανάλυση τύπου cross-καρκίνου, βρήκαμε ότι lncRNAs παρεκκλίνοντα εκφράζονται σε ένα συγκεκριμένο καρκίνο μπορεί επίσης να μεταβληθεί σε άλλους καρκίνους. Για παράδειγμα, ενώ

MEG3

εκφράζεται έντονα σε φυσιολογικούς ιστούς εγκεφάλου, αυτό lncRNA μειώθηκε έντονα σε σύνολα δεδομένων καρκίνο του εγκεφάλου μας, και εντυπωσιακά έτσι σε χοληδόχο κύστη, οι καρκίνοι του αμφιβληστροειδούς και του προστάτη, σύμφωνα με τον προτεινόμενο ρόλο καταστολέα όγκων για

MEG3

[48], [56], [57]. Σε ένα άλλο παράδειγμα, miR155 γονίδιο υποδοχής (

miR155HG

), ένα lncRNA επεξεργασία στο miRNA

miR-155

, ήταν ιδιαίτερα υπερεκφράζεται σε Β-κυτταρικό λέμφωμα σε συμφωνία με προηγούμενες αναφορές [16], αλλά επίσης ήταν επίσης ρυθμίζεται αυξητικά σε οισοφάγου και τη χοληδόχο κύστη καρκίνων.

Long μη-κωδικοποίησης RNAs εμπλέκονται επίσης στην ρύθμιση της εμβρυογένεσης [58], [59], [60]. Εμβρύου lncRNAs επανενεργοποιηθεί σε καρκίνους μπορεί να αντιπροσωπεύει κρίσιμη ρυθμιστές της πλειοδυναμίας ή κυτταρικής ανάπτυξης. Για παράδειγμα, ο καρκίνος urothelial lncRNA σχετίζεται 1 (

UCA1

) απέδειξε ρόλους τόσο εμβρυϊκή ανάπτυξη και εμπλέκεται στον καρκίνο της ουροδόχου κύστης, υποστηρίζει την ιδέα αυτή [61]. Σε σύνολα δεδομένων μας βρήκαμε αρκετές lncRNAs με χαμηλή έκφραση σε φυσιολογικούς ιστούς, αλλά με υψηλή έκφραση τόσο εμβρυϊκά βλαστικά κύτταρα και τον καρκίνο (Πίνακας S12). Αν και αυτές οι επανενεργοποιηθεί εμβρύου lncRNAs εκπροσωπούνται ως επί το πλείστον μη χαρακτηρισμένα παραδείγματα,

Η19

, ένα καλά μελετημένο lncRNA με τις ενώσεις τόσο την ανάπτυξη των θηλαστικών και του καρκίνου [53], επίσης ανιχνευθεί σε σύνολο δεδομένων μας. Είναι ενδιαφέρον ότι,

NEAT1

, το οποίο είναι συντακτικά και εκφράζεται έντονα σε κανονικούς ιστούς [34], [62], με την εξαίρεση των εμβρυϊκών βλαστικών κυττάρων, ήταν μειωτικά σε πνεύμονα, ήπαρ, του οισοφάγου και των καρκίνων του αμφιβληστροειδούς (ρετινοβλάστωμα).

από γονιδιωματικής ενισχύσεις και τις διαγραφές αποτελούν βασικούς μηχανισμούς του γονιδίου απορρύθμιση στον καρκίνο, μελετήσαμε τις αλλαγές στην έκφραση lncRNA σε περιοχές του γονιδιώματος μεταβάλλεται συχνά στο στήθος, τον εγκέφαλο και τον καρκίνο του πνεύμονα. Σύγκριση της σημαντικά (ρ & lt? 0,05) απορυθμισμένη lncRNAs κοινό μεταξύ του εγκεφάλου, του μαστού και του καρκίνου του πνεύμονα ιστών απεκάλυψε οκτώ lncRNAs είχαν ρυθμίζονται διαφορικά (≥2 φορές) σε σύγκριση με το φυσιολογικό ιστό. Περιέργως, τρία από αυτά τα lncRNAs – ENSG00000226380, ENSG00000230937 και ENSG00000253288 – βρίσκονταν σε 7q32.3, 1q32.2, και 8q24.23, αντίστοιχα, σε περιοχές εντελώς άνευ γονιδίων που κωδικοποιεί την πρωτεΐνη. Όπως τα γονίδια που κωδικοποιούν πρωτεΐνες και miRNAs, είναι πιθανό ότι η έκφραση απόκλιση lncRNA οδηγείται από παρόμοιους μηχανισμούς διαταραχής, συμπεριλαμβανομένου αντιγράφου αριθμός κέρδους /απώλειας ή παρεκκλίνουσα προτύπων μεθυλίωσης. Πράγματι, η ενίσχυση υψηλού επιπέδου lncRNA περιέχουν γενετικούς τόπους όπως cytoband 19p12 έχει αναφερθεί στον καρκίνο του μαστού [63], ενώ η ενίσχυση υψηλού επιπέδου 12p13.2 (το οποίο περιέχει μια σειρά από lncRNA loci) έχει αναφερθεί στον καρκίνο του μαστού, γλοιοβλάστωμα, αστροκύτωμα , και καρκίνο πλακωδών κυττάρων του πνεύμονα [64], [65], [66], [67]. Ομοίως, παρεκκλίνουσα έκφραση ενός αριθμού lncRNAs έχει συνδεθεί με τροποποιηθεί προτύπων μεθυλίωσης [68], [69]. Ωστόσο, ο μηχανισμός (ες) οδήγησης ανώμαλη έκφραση lncRNA παραμένει ως επί το πλείστον άγνωστη.

Ενώ lncRNAs τεκμηριωθεί για σχεδόν τρεις δεκαετίες, το μέγεθος και την πολυμορφία της έκφρασης lncRNA μόλις πρόσφατα εκτιμηθεί. Εκτιμάται ότι lncRNAs του αριθμού ανθρώπινου γονιδιώματος σε δεκάδες χιλιάδες, αποτελεσματικά διπλασιάζοντας τον αριθμό των δυνητικών στόχων γονιδίου σε δίκτυα γονιδιακή έκφραση του καρκίνου. Μεγάλης κλίμακας, cross-ιστού και του καρκίνου μελέτες είναι ζωτικής σημασίας για την κατανόηση της ρύθμισης της έκφρασης lncRNA και πώς αυτές οι νέες μεταγραφές ενσωματωθούν με την τρέχουσα κατανόησή μας για το μεταγραφικό θηλαστικών. Επιπλέον, μια βαθύτερη κατανόηση της έκφρασης lncRNA όχι μόνο θα διευρύνει τον αριθμό των πιθανών γονιδίων του καρκίνου στόχου, αλλά επίσης να διευκολύνει την ανάπτυξη νέων αντικαρκινικών θεραπειών, όπως η ρύθμιση των γονιδίων που προκαλείται από αντιπαράλληλα RNA [70] ή που στοχεύουν αλληλεπιδράσεις lncRNA-πρωτεΐνη [28 ].

Υλικά και Μέθοδοι

SAGE βιβλιοθήκες

Αυτή η μελέτη χρησιμοποιεί διαθέσιμη στο κοινό βιβλιοθήκες SAGE για την ανάλυση δεδομένων. Ένα σύνολο 360 SAGE βιβλιοθήκες, συμπεριλαμβανομένων 324 από το Cancer Genome Ανατομία του έργου (CGAP) συλλογή της βιβλιοθήκης SAGE (GSE15309), 19 πνευμόνων βρογχικό βιβλιοθήκες επιθηλίου (GSE3707), 13 με καρκίνο του πνεύμονα βιβλιοθήκες (GSE7898) και 4 ποτέ καπνιστής βρογχικό βιβλιοθήκες επιθήλιο (GSE5473 ), είχαν κατεβάσει από GEO (Πίνακας S1). Βιβλιοθήκες κατασκευάζονται από μη ανθρώπινα δείγματα, καθώς και μακράς SAGE και SAGE-seq βιβλιοθήκες δεν χρησιμοποιήθηκαν σε αυτή τη μελέτη. Για να διευκολυνθεί η άμεση σύγκριση των βιβλιοθηκών SAGE διηθούνται ώστε να διατηρούνται μόνο αυτές τις βιβλιοθήκες με & gt? 50.000 πρώτες ετικέτα μετράει με αποτέλεσμα 272 βιβλιοθήκες κατάλληλες για ανάλυση (Πίνακας S2)

Long κατάλογο αναφοράς μη-κωδικοποίησης RNA

Ο αγωγός ανακάλυψη lncRNA βασίζεται σε κατάλογο αναφοράς της ανθρώπινης lncRNAs επιμέλεια από την ηλεκτρονική βάση δεδομένων γονιδιωματικής Ensembl απελευθέρωση 62, χτισμένη στη Γονιδίωμα κοινοπραξία αναφορά απελευθερώσει GRCh37 [71]. Ο κατάλογος αναφοράς lncRNA συντάχθηκε από 1.239 Ensembl (v62) αναγνωριστικά που χαρακτηρίζονται ως «lincRNAs» (long διαγονιδιακές μη-κωδικοποίησης RNAs, μια υποκατηγορία των lncRNAs) και 8652 Ensembl αναγνωριστικά (v62) που ορίζονται ως «επεξεργασία μεταγραφές» για ένα σύνολο 9.891 lncRNAs (Πίνακας S4). Όλα τα lncRNAs που χρησιμοποιούνται για την αναζήτηση των βιβλιοθηκών SAGE ήταν Ensembl επιμέλεια μεταγραφές χωρίς προβλεπόμενο ανοικτό πλαίσιο ανάγνωσης. Οι αλληλουχίες όλων των μεταγραφές lncRNA ανακτήθηκαν από Ensembl (v62) χρησιμοποιώντας το σύστημα διαχείρισης δεδομένων Biomart.

SAGE ετικέτα-to-γονιδιακή χαρτογράφηση

Προσαρμοσμένη Perl scripts χρησιμοποιήθηκαν για να δημιουργήσετε μια μήτρα έκφρασης της οι μοναδικές ετικέτες SAGE μήκος των 272 βιβλιοθήκες (Perl scripts: getuniquetags.pl και makeTable_April20.pl). Οι ετικέτες SAGE χαρτογραφήθηκαν με αναγνωριστικά Unigene χρησιμοποιώντας έθιμο Perl scripts και ένα αρχείο χαρτογράφησης σύντομο SAGE (αρχείο αντιστοίχισης: Hs_short) κατεβάσει από SAGE Genie (https://cgap.nci.nih.gov/SAGE), για να δημιουργήσετε μια μήτρα Unigene ID χαρτογραφηθεί ετικέτες και μια μήτρα unmapped ετικέτες (σενάριο Perl: extractUnmappedTags_Unigene). Οι δύο μήτρες έκφραση unmapped ετικέτες και Unigene χαρτογραφηθεί ετικέτες έγιναν ανεξάρτητα φιλτράρεται για να διατηρήσει μόνο τις ετικέτες με τις πρώτες μετρήσεις ετικέτα του 2 ή περισσότερο, που εμφανίζονται σε τουλάχιστον 3 βιβλιοθήκες SAGE.

Για την Unigene χαρτογραφηθεί ετικέτες, γονίδιο αναγνωριστικά ήταν ανατεθεί σε αναγνωριστικά Unigene χρησιμοποιώντας SAGE Genie. Από αυτό το σύνολο δεδομένων, ετικέτες ταιριάζουν γνωστό ή υποψήφιο lncRNAs εξήχθησαν με το χέρι. Υποψήφια lncRNAs είναι Unigene αναγνωριστικά με το όνομα δεν γονίδιο ή που ταιριάζουν μία ή περισσότερες από τις ακόλουθες περιγραφείς: ‘μη κωδικεύουσες »,« μη-πρωτεΐνη »,« cDNA »,« μεταγράφεται locus »,« κλώνος IMAGE »,« CHR (#) ORF (#) »,« υποθετική »,« οικογένεια με ομοιότητα αλληλουχίας »,« FLJ (#) », ή« KIAA (#) ». Οι υποψήφιες lncRNA ετικέτες συγχωνεύθηκαν με τους unmapped ετικέτες και να χρησιμοποιηθεί ως ένα ενιαίο σύνολο δεδομένων από την οποία να εντοπίσει ακολουθία ταιριάζει στον κατάλογο αναφοράς lncRNA.

Το SeqMap πρόγραμμα χαρτογράφησης tag-to-γονίδιο χρησιμοποιείται για να προσδιορίσει τέλεια (0 αναντιστοιχίες) ετικέτα ταιριάζει με τις ακολουθίες μεταγραφής από τη λίστα lncRNA αναφοράς. Ετικέτες χαρτογράφηση για να lncRNAs διηθούνται να διατηρήσουν αυτές που αντιστοιχούν στην προς τα εμπρός ( «λογική») κλώνος, ενώ αντίστροφη αγώνες ετικέτα δεν επιβεβαιώνουν την έκφραση των υποψηφίων lncRNAs και δεν αναλύθηκαν περαιτέρω. Τα εμπρός ετικέτες σκέλος που αντιστοιχίζονται σε lncRNAs στη συνέχεια σε συνδυασμό με τις ετικέτες Unigene που αντιστοιχίζονται σε lncRNAs να δημιουργήσει μια μήτρα έκφρασης της SAGE ετικέτες χαρτογράφησης για lncRNAs. Αυτή η μήτρα διαβάζεται στη λίστα αναφορά lncRNA να επιβεβαιώσει την ακριβή tag-to-lncRNA αγώνες.

Δεδομένα προ-επεξεργασίας

Σε περιπτώσεις όπου πολλές ετικέτες χαρτογραφηθεί στην ίδια lncRNA, οι ετικέτες συμπιέστηκαν αθροίζοντας την ετικέτα μετράει για να συλλάβει όλες τις παραλλαγές lncRNA απομαγνητοφώνηση και ισομορφές (σενάριο Perl: sumRows.pl). SAGE ετικέτες χαρτογράφηση σε περισσότερες από μία lncRNA απορρίφθηκαν. Πρώτες μετρήσεις ετικέτα για κάθε βιβλιοθήκη SAGE ομαλοποιήθηκαν να TPM για να διευκολύνουν την κατάλληλη σύγκριση μεταξύ των βιβλιοθηκών. Πρόσθετες μήτρες έκφρασης περιλαμβάνονται μόνο SAGE βιβλιοθήκες που παρουσιάζουν ενδιαφέρον για μια συγκεκριμένη ανάλυση, ενώ την εξάλειψη τυχόν στήλες με ανεπιθύμητα βιβλιοθήκες SAGE. Αυτοί οι υποπίνακες διηθούνται για την απομάκρυνση lncRNAs με απαρατήρητα έκφρασης. Όταν ένας ιστός ή καρκίνος εκπροσωπείται από περισσότερους από έναν βιβλιοθήκη SAGE, η κανονικοποιημένη TPM τέθηκαν στον μέσο όρο.

You must be logged into post a comment.