PLoS One: Μια μέθοδος Υπολογιστική για Πρόβλεψη Τερματικά Πρωτεΐνες και Αίτηση Αναγνώρισης της γαστρικός καρκίνος Μαρκαδόροι στα ούρα

Νοέμβριος 8th, 2017 elhealth του καρκίνου άρθρα

Αφηρημένο

Μια νέα υπολογιστική μέθοδος για την πρόβλεψη των πρωτεϊνών εκκρίνονται στα ούρα παρουσιάζεται. Η μέθοδος βασίζεται στον προσδιορισμό ενός καταλόγου των διακριτικών χαρακτηριστικών μεταξύ των πρωτεϊνών που βρίσκονται στα ούρα υγιών ανθρώπων και των πρωτεϊνών θεωρείται ότι δεν είναι απέκκρισης ούρων. Αυτά τα χαρακτηριστικά χρησιμοποιούνται για να εκπαιδεύσει ένα ταξινομητή να διακρίνει τις δύο κατηγορίες πρωτεϊνών. Όταν χρησιμοποιείται σε συνδυασμό με τις πληροφορίες από τις οποίες οι πρωτεΐνες εκφράζονται διαφορικά σε νοσούντες ιστούς ενός συγκεκριμένου τύπου

έναντι

ιστούς ελέγχου, αυτή η μέθοδος μπορεί να χρησιμοποιηθεί για να προβλέψει δυναμικό δείκτες ούρων για την ασθένεια. Εδώ αναφέρουμε τη λεπτομερή αλγόριθμος της μεθόδου αυτής και μια εφαρμογή για προσδιορισμό των δεικτών ούρων για καρκίνο του στομάχου. Η απόδοση του εκπαιδευμένου ταξινομητή σε 163 πρωτεΐνες πειραματικά επικυρωθεί χρησιμοποιώντας συστοιχίες αντισωμάτων, επιτυγχάνοντας & gt? 80% αληθώς θετικό ρυθμό. Με την εφαρμογή της ταξινομητή για διαφορικά εκφραζόμενων γονιδίων σε γαστρικό καρκίνο

vs φυσιολογικό γαστρικό

ιστούς, διαπιστώθηκε ότι τα ενδοθηλιακά λιπάσης (EL) ουσιαστικά καταστέλλεται στα δείγματα ούρων από τους 21 ασθενείς με γαστρικό καρκίνο

έναντι

21 υγιή άτομα. Συνολικά, έχουμε αποδείξει ότι προγνωστικό μας για απέκκρισης πρωτεϊνών στα ούρα είναι πολύ αποτελεσματική και θα μπορούσε ενδεχομένως να χρησιμεύσει ως ένα ισχυρό εργαλείο στις αναζητήσεις για βιοδείκτες ασθένειας στα ούρα σε γενικές γραμμές

Παράθεση:. Χονγκ CS, Cui J, Ni Ζ, Su Υ, Puett D, Li F, et al. (2011) Μια μέθοδος Υπολογιστική για Πρόβλεψη Τερματικά Πρωτεΐνες και Αίτηση Αναγνώρισης της γαστρικός καρκίνος Μαρκαδόροι στα ούρα. PLoS ONE 6 (2): e16875. doi: 10.1371 /journal.pone.0016875

Συντάκτης: Vladimir Brusic, Dana-Farber Cancer Institute, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 22 του Σεπτεμβρίου του 2010? Αποδεκτές: 31 Δεκεμβρίου 2010? Δημοσιεύθηκε: 18η Φεβρουαρίου 2011

Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της δήλωσης Creative Commons Public Domain που ορίζει ότι, μόλις τοποθετηθεί στο δημόσιο τομέα, το έργο αυτό μπορεί να ελεύθερα αναπαραχθεί, να διανεμηθεί, μεταδοθεί, τροποποιηθεί, χτισμένο πάνω, ή ειδάλλως να χρησιμοποιηθεί από οποιονδήποτε για οποιονδήποτε νόμιμο σκοπό

Χρηματοδότηση:. η μελέτη αυτή χρηματοδοτήθηκε εν μέρει από το Εθνικό Ίδρυμα Επιστημών (CCF-0621700, DBI0542119004, 1R01GM075331), το Πανεπιστήμιο Jilin, η Πανεπιστήμιο της Γεωργίας, η Γεωργία τον Καρκίνο του Συνασπισμού, η Γεωργία Research Alliance και το Εθνικό Ινστιτούτο Υγείας (1R01GM075331, DK69711). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Η ραγδαία εξέλιξη των

μική

τεχνικών τα τελευταία χρόνια έχει κάνει δυνατή την αναζήτηση για βιοδείκτες για συγκεκριμένες ασθένειες του ανθρώπου με συστηματικό και ολοκληρωμένο τρόπο, ο οποίος είναι ουσιαστικά η βελτίωση της ικανότητάς μας για την ανίχνευση ασθενειών σε πρώιμα στάδια. Οι περισσότερες από τις προηγούμενες μελέτες βιοδεικτών έχουν επικεντρωθεί στους δείκτες του ορού [1], κυρίως λόγω της γνωστής πλούτο ορού στο περιέχουν σήματα για διάφορες φυσιολογικές και παθοφυσιολογικές συνθήκες.

Σε σύγκριση με τους δείκτες του ορού, οι υπάρχουσες ουροποιητικού δείκτες είναι ως επί το πλείστον που σχετίζονται με ουροποιητικού συστήματος ή στενά συνδεδεμένες ασθένειες. Μόνο εντός των τελευταίων ετών έχει βελτιωθεί πρωτεομική αναλύσεις των δειγμάτων ούρων αποκάλυψε ότι, όπως ορούς, ούρα είναι επίσης μια πλούσια πηγή πληροφοριών για την ανίχνευση ανθρώπινων ασθενειών όπως η -εμβολιασμένου με-

έναντι

-host νόσου και στεφανιαίας νόσου [2], [3], [4]. Σημειώστε ότι τα ούρα σχηματίζεται με διήθηση του αίματος μέσω των νεφρών? ως εκ τούτου, ορισμένες πρωτεΐνες στο αίμα μπορεί να περάσει μέσα από τα φίλτρα και να απεκκρίνεται στα ούρα. Ως αποτέλεσμα, οι πρωτεΐνες των ούρων όχι μόνο αντικατοπτρίζει τις συνθήκες του νεφρού και του ουρογεννητικού συστήματος, αλλά και των άλλων οργάνων που μπορεί να είναι απομακρυσμένο από τους νεφρούς, καθώς τουλάχιστον το 30% των πρωτεϊνών ούρων δεν είναι αρχικά από την ουρογεννητική οδό [5], [6]. Η πληθώρα των πληροφοριών στα ούρα αυτό μια ελκυστική πηγή για τη διαλογή βιοδείκτη αφού καθιστά, σε σύγκριση με τον ορό, η σύνθεση των ούρων είναι σχετικά απλή, και η συλλογή των ούρων είναι ευκολότερη και μη επεμβατική [7], [8].

Marker αναγνώρισης στα ούρα θα μπορούσε δυνητικά να γίνει μέσω συγκριτικής πρωτεομική ανάλυση των δειγμάτων ούρων ασθενών με συγκεκριμένες ομάδες και ελέγχου Νόσων. Η πρόκληση σε τέτοιες αναζητήσεις για ουρική δείκτες σε ένα τυφλό τρόπο είναι διττός. (Α) Τα ούρα θα μπορούσε να έχει ένα μεγάλο αριθμό πρωτεϊνών /πεπτιδίων (σε αντίθεση με την προηγούμενη κατανόηση [8]) με σχετικά χαμηλή αφθονία. (Β) Η δυναμική περιοχή στην αφθονία των πρωτεϊνών αυτών θα μπορούσε να εκτείνονται μερικές τάξεις μεγέθους, ευρύτερη από την περιοχή που καλύπτεται συνήθως από ένα φασματογράφο μάζας [9]. Για τους λόγους αυτούς, συγκριτικές αναλύσεις, ιδιαίτερα (ημι) ποσοτικές αναλύσεις, των πρωτεομικών δεδομένων των δειγμάτων ούρων μπορεί να είναι πολύ δύσκολο. Αυτό μπορεί να είναι ένας βασικός λόγος για τον οποίο δεν υπάρχουν αξιόπιστες δείκτες ούρων για τη διάγνωση του καρκίνου.

Η μελέτη μας επικεντρώνεται στην ανάπτυξη μιας υπολογιστικής μεθόδου για την ακριβή πρόβλεψη των πρωτεϊνών που είναι απέκκρισης στα ούρα (βλέπε Εικόνα 1 για το περίγραμμα της προσέγγισης ). Αυτές οι πρωτεΐνες πρέπει να έχουν ειδικές ιδιότητες που τους επιτρέπουν να εκκριθεί από τα κύτταρα και στη συνέχεια να φιλτράρεται έξω μέσω της μεμβράνης σπείραμα στα νεφρά. Μια πρόσφατη πρωτεομική μελέτη εντόπισε περισσότερα από 1.500 πρωτεΐνες /πεπτίδια που απεκκρίνονται στα ούρα μέσω υγιών μεμβρανών σπειραματικής [8]. Χρησιμοποιώντας αυτό το σύνολο των πρωτεϊνών και πρωτεϊνών θεωρείται ότι δεν είναι απέκκρισης ούρων, έχουμε εντοπίσει μια λίστα με διακριτικά χαρακτηριστικά μεταξύ αυτών των δύο κατηγοριών των πρωτεϊνών και εκπαίδευσαν έναν φορέα στήριξης μηχανήματος (SVM) με βάση ταξινομητή για να προβλέψει εάν μια δεδομένη πρωτεΐνη μπορεί να αποβάλλεται με τα ούρα . Η μέθοδος πρόβλεψης πειραματικά επικυρωθεί με τη χρήση συστοιχιών αντισωμάτων σε συνδυασμό με κηλίδες Western, και τα αποτελέσματα είναι εξαιρετικά ενθαρρυντικά.

Αυτή ταξινομητής έχει εφαρμοστεί για να προβλέψει τις πρωτεΐνες που θα μπορούσαν να απεκκρίνεται στα ούρα με βάση τις προσδιοριζόμενες διαφορικά εκφρασμένα γονίδια σε καρκίνο του στομάχου

έναντι

αναφοράς γαστρικό ιστούς? και ένας αριθμός πιθανών δεικτών ούρων για καρκίνο του στομάχου έχουν εντοπιστεί. Μια βασική συμβολή σε αυτό το έργο είναι ότι παρέχει ένα νέο και αποτελεσματικό τρόπο για να καθοδηγήσει πρωτεομική μελέτες των ούρων προτείνοντας πρωτεΐνες υποψήφιος δείκτη, ως εκ τούτου, επιτρέποντας στοχευμένες αναζητήσεις δείκτη χρησιμοποιώντας τεχνικές μεσολάβηση αντισωμάτων όπως κηλίδες Western και η Elisa, η οποία είναι ουσιαστικά πιο εφικτή από μεγάλης κλίμακας συγκριτική πρωτεομική ανάλυση των δειγμάτων ούρων χωρίς στόχους με την οποία να εργαστούν. Ενώ αυτό το πρόγραμμα πρόβλεψης έχει εφαρμοστεί σε γαστρικό καρκίνο δεδομένα σε αυτή την μελέτη, δεν γαστρικό καρκίνο ειδικές πληροφορίες χρησιμοποιήθηκε σε αυτό το πρόγραμμα? ως εκ τούτου, μπορεί να χρησιμοποιηθεί για αναζητήσεις δείκτης ούρων για άλλες ασθένειες

Μέθοδοι

Αυτή η μελέτη αποτελείται από τρία κύρια συστατικά:. (i) κατασκευή ενός ταξινομητή για την πρόβλεψη της απέκκρισης πρωτεϊνών στα ούρα? (Ii) αξιολόγηση της απόδοσης του ταξινομητή εφαρμόζοντάς την σε ένα σύνολο πρωτεϊνών για τις οποίες είναι γνωστό το απεκκριτικό κατάσταση των πρωτεϊνών? και (iii) την εφαρμογή των επικυρωμένων ταξινομητή σε δεδομένα γονιδιακής έκφρασης του γαστρικού καρκίνου να αποδείξει την αποτελεσματικότητά της στην επίλυση του προβλήματος ταυτοποίηση δείκτη ούρων.

Η έρευνα αυτή εγκρίθηκε από το Διοικητικό Συμβούλιο αναθεώρηση Θεσμικών στο Πανεπιστήμιο της Γεωργίας, Αθήνα, Γεωργία, ΗΠΑ (Γραφείο του Αντιπροέδρου για την Έρευνα DHHS Διασφάλισης αρ. FWA00003901, Αριθμός έργου 2009-10705-1) και από το Διοικητικό συμβούλιο Institutional Review κινεζική επιβλέπει τα ανθρώπινα υποκείμενα σε Jilin University College of Medicine, Τσανγκτσούν, Κίνα. Ένα έντυπο συγκατάθεσης, η οποία εγκρίθηκε από το IRB στο Πανεπιστήμιο της Γεωργίας και της Κίνας IRB, συλλέχθηκαν από κάθε άτομο. Όλα τα θέματα που γνωρίζουν ότι τα δεδομένα από την έρευνα μπορεί να χρησιμοποιηθεί για έγγραφα ή δημοσιεύσεις όπως αναφέρεται στο έντυπο συγκατάθεσης.

α. Ένας αλγόριθμος για την πρόβλεψη απεκκριτικό πρωτεΐνες

Η γενική κατανόηση της πρωτεΐνης έκκρισης από τους ιστούς στους ούρα είναι ότι ορισμένες πρωτεΐνες που εκκρίνονται ή διαρρεύσει από κύτταρα στην κυκλοφορία του αίματος, και στη συνέχεια, ένα μέρος αυτών των πρωτεϊνών, μαζί με κάποιες φυσικές πρωτεΐνες σε αίμα, μπορεί να απεκκρίνεται στα ούρα. Οι στόχοι μας είναι πρώτα να εντοπιστούν διακριτικά χαρακτηριστικά των εν λόγω απέκκρισης πρωτεϊνών στα ούρα και στη συνέχεια να χτίσει ένα ταξινομητή με βάση αυτά τα χαρακτηριστικά για να προβλέψει ποιες πρωτεΐνες στα κύτταρα μπορεί να αποβάλλεται με τα ούρα. Για το καλύτερο της γνώσης μας, δεν υπήρξε οποιοδήποτε δημοσιευμένο έργο με στόχο να λύσει αυτό το πρόβλημα. Η σημασία που έχει μια τέτοια ικανότητα είναι ότι παρέχει μια αποτελεσματική σύνδεση στη σύνδεση

μική

αναλύσεις των ιστών στην αναζήτηση δείκτη στα ούρα, παρέχοντας υποψήφιος δείκτες στα ούρα που μπορούν να μελετηθούν χρησιμοποιώντας προσεγγίσεις που βασίζονται σε αντισώματα.

Το πρώτο βήμα στην ανάπτυξη μιας τέτοιας πρόβλεψης ικανότητα, δηλαδή, ένα ταξινομητή, είναι να έχουμε ένα σύνολο δεδομένων εκπαίδευσης που περιέχουν πρωτεΐνες που μπορούν και ότι δεν μπορεί να αποβάλλεται με τα ούρα, με βάση το οποίο θα μπορούσε, ενδεχομένως, να προσδιοριστεί μια σειρά από ιδιαίτερα χαρακτηριστικά. Ευτυχώς, βρήκαμε ένα μεγάλο πρωτεομική δεδομένων δειγμάτων ούρων από υγιείς ανθρώπους σε μια πρόσφατα δημοσιευμένη μελέτη [8], το οποίο περιέχει περισσότερες από 1.500 μοναδικές πρωτεΐνες των οποίων 1.313 έχουν ταυτότητες ένταξη SwissProt. Έχουμε χρησιμοποιήσει αυτές τις 1.313 πρωτεΐνες και τα θετικά στοιχεία της κατάρτισης για το να-να-εκπαιδευμένο ταξινομητή. Η ακόλουθη διαδικασία χρησιμοποιήθηκε στη συνέχεια για να δημιουργήσει μια αρνητική σύνολο εκπαίδευσης: αυθαίρετα επιλέξτε τουλάχιστον μία πρωτεΐνη από κάθε οικογένεια Pfam που δεν περιέχει οποιαδήποτε θετική δεδομένα εκπαίδευσης, και ο αριθμός των επιλεγμένων πρωτεϊνών από κάθε οικογένεια είναι ανάλογη με το μέγεθος της οικογένειας [ ,,,0],10], [11]. Ως αποτέλεσμα, επιλέχθηκαν και χρησιμοποιήθηκαν ως αρνητικός σύνολο εκπαίδευσης 2.627 πρωτεΐνες.

Εξετάσαμε 18 φυσικοχημικά χαρακτηριστικά υπολογίζονται από ακολουθίες πρωτεϊνών, οι οποίες είναι ενδεχομένως χρήσιμες για το πρόβλημα ταξινόμησης με βάση τη γενική κατανόηση των ουρική έκκριση των πρωτεϊνών . Οι λεπτομέρειες των 18 χαρακτηριστικά και τα προγράμματα ηλεκτρονικών υπολογιστών που χρησιμοποιούνται για τον υπολογισμό τους παρατίθενται στον Πίνακα S1. Μερικά από αυτά τα χαρακτηριστικά που αντιπροσωπεύεται από πολλαπλές τιμές χαρακτηριστικό, π.χ., η σύνθεση αμινοξέων σε αλληλουχία πρωτεΐνης αντιπροσωπεύεται από 20 αξίες χαρακτηριστικό? συνολικά τα 18 χαρακτηριστικά αντιπροσωπεύονται χρησιμοποιώντας 243 τιμές χαρακτηριστικό. Στη συνέχεια εντοπίστηκαν ένα υποσύνολο των χαρακτηριστικών τιμών από το 243, το οποίο μπορεί να διακρίνει μεταξύ του θετικού και τα στοιχεία για τους αρνητικούς κατάρτισης, χρησιμοποιώντας ένα ταξινομητή SVM-based. Η RBF πυρήνα χρησιμοποιήθηκε στην εκπαίδευση SVM μας, λαμβάνοντας υπόψη την ικανότητά του να χειριστεί μη γραμμικές ιδιότητες [12], [13].

Για να διαπιστωθεί ποια από τα αρχικά θεωρούνται χαρακτηριστικά είναι πραγματικά χρήσιμο, το εργαλείο επιλογής χαρακτηριστικό που παρέχεται σε LIBSVM [12] χρησιμοποιήθηκε για να επιλέξετε τις πιο απαιτητικό χαρακτηριστικά μεταξύ των 243. Άλλα εργαλεία επιλογής χαρακτηριστικό θα μπορούσε ενδεχομένως να χρησιμοποιηθεί, αλλά έχουμε μεγάλη εμπειρία στη χρήση αυτού του εργαλείου και διαπίστωσε ότι είναι επαρκή. Κωδικοί που χρησιμοποιούνται σε αυτό είναι διαθέσιμα στο κοινό από την ιστοσελίδα LIBSVM (https://www.csie.ntu.edu.tw/~cjlin/libsvm/)? Έχουμε επίσης το σχετικό πρόγραμμα προσβάσιμο σε https://seulgi.myweb.uga.edu/files. Ένα F-score [12], η οποία ορίζεται ως εξής, χρησιμοποιείται για τη μέτρηση της απαιτητικό δύναμη της κάθε αξίας χαρακτηριστικό για το πρόβλημα ταξινόμησης μας,

όπου αναφέρεται στις τιμές χαρακτηριστικό κατάρτισης (k = 1, …, m) ?

+ και

– είναι ο αριθμός των πρωτεϊνών στο θετικό (+) και αρνητικό (-) το σύνολο δεδομένων εκπαίδευσης, αντίστοιχα? , Είναι οι μέσοι όροι των

ου αξία χαρακτηριστικό σε όλη σύνολο δεδομένων εκπαίδευσης, το θετικό σύνολο δεδομένων και το αρνητικό σύνολο δεδομένων, αντίστοιχα? και και το

ου χαρακτηριστικό του

ου πρωτεΐνη στα θετικά και αρνητικά δεδομένα εκπαίδευσης, αντίστοιχα. Σε γενικές γραμμές, όσο μεγαλύτερο είναι ένα F-βαθμολογία, η πιο διακριτική το αντίστοιχο χαρακτηριστικό είναι. Στην επιλογή μας, όλα τα χαρακτηριστικά με τα F-βαθμολογίες πάνω από ένα προ-επιλεγμένο κατώφλι διατηρήθηκαν και χρησιμοποιούνται στην κατάρτιση του τελικού ταξινομητή. Για να βρείτε ένα βέλτιστο όριο F-σκορ, θεωρήσαμε μια λίστα των πιθανών όρια και στη συνέχεια να επιλέξει το καλύτερο με βάση τα αποτελέσματα της κατάρτισης.

Η εκπαίδευση των SVM-based ταξινομητή μας γίνεται χρησιμοποιώντας μια τυποποιημένη διαδικασία που προβλέπεται στο LIBSVM [12] για να βρείτε τις τιμές των δύο παραμέτρων

και γ που δίνουν τη βέλτιστη ταξινόμηση στα δεδομένα εκπαίδευσης, όπου

ελέγχει το trade-off μεταξύ των σφαλμάτων εκπαίδευσης και τα περιθώρια ταξινόμησης, και γ καθορίζει το πλάτος του πυρήνα που χρησιμοποιείται [12]. διαδικασία κατάρτισης μας συνοψίζεται ως εξής [12]:

Αποκτήστε το F-βαθμολογία για κάθε τιμή χαρακτηριστικό?

Για κάθε ένα από τα προεπιλεγμένα όρια, κάνετε τα εξής

Αφαιρέστε την τιμές χαρακτηριστικό με F-score κάτω από το όριο?

Τυχαία χωρίσει τα δεδομένα της κατάρτισης σε ένα υπο-κατάρτισης και ένα υπο-επικύρωση σύνολα με ίσου μεγέθους?

εκπαιδεύσει ένα SVM με ένα RBF πυρήνα σχετικά με την υπο-κατάρτισης που να ψάξετε βέλτιστες τιμές των

και γ, και στη συνέχεια εφαρμόστε το με τα δεδομένα υπο-επικύρωσης και υπολογίστε το σφάλμα ταξινόμησης?

Επαναλάβετε τα βήματα (i) – (iii) πέντε φορές και υπολογίστε το μέσο σφάλμα επικύρωσης?

Επιλέξτε το όριο που δίνει το χαμηλότερο μέσο σφάλμα επικύρωσης, και να κρατήσει τα χαρακτηριστικά με F-βαθμολογία πάνω από το επιλεγμένο όριο? και

Επανεκπαίδευση ένα SVM με βάση τα επιλεγμένα χαρακτηριστικά ως το τελικό ταξινομητή.

b. Σύνολα δεδομένων που χρησιμοποιούνται για την αξιολόγηση της απόδοσης του ταξινομητή

Ένα ανεξάρτητο σύνολο δεδομένων χρησιμοποιήθηκε για την αξιολόγηση της απόδοσης του εκπαιδευμένου ταξινομητή για την οποία είναι γνωστό το απεκκριτικό κατάσταση της κάθε πρωτεΐνης. Η θετική υποσύνολο αυτού του συνόλου δεδομένων έχει 460 ανθρώπινες πρωτεΐνες που βρέθηκαν στα ούρα υγιών ατόμων από τρεις μελέτες ουροποιητικού πρωτεομική [14], [15], [16], και η αρνητική υποσύνολο περιέχει 2.148 πρωτεΐνες που επιλέγονται χρησιμοποιώντας την ίδια διαδικασία που περιγράφηκε προηγουμένως αλλά το κάνει δεν συμπίπτουν με το αρνητικό σύνολο χρησιμοποιείται για την εκπαίδευση

τα ακόλουθα μέτρα χρησιμοποιήθηκαν για την αξιολόγηση οι ακρίβειες ταξινόμησης:. η ευαισθησία, η ειδικότητα, η ακρίβεια, συντελεστής συσχέτισης του Ματθαίου, και η AUC [17]. Ο Πίνακας 1 συνοψίζει τις ακρίβειες ταξινόμησης του εκπαιδευμένου ταξινομητή για την τόσο κατάρτιση και τα σύνολα δεδομένων δοκιμής [17]. Από τις ακρίβειες ταξινόμησης για τα δύο σύνολα δεδομένων, πιστεύουμε ότι εκπαιδευμένο ταξινομητή μας κατέλαβε τα βασικά διακριτά χαρακτηριστικά των απέκκρισης πρωτεϊνών στα ούρα.

Επιπλέον, ταξινομητή μας δοκιμάστηκε σε ένα ξεχωριστό σύνολο δεδομένων, ένα υποσύνολο των 274 πρωτεϊνών πάνω σε προ-κατασκευασμένο συστοιχία αντισωμάτων πρωτεΐνης (ο G-σειρά array RayBio Ανθρώπινα 4000 (RayBiotech, Inc., Norcross, GA)). Από τις πρωτεΐνες 274, 111 είναι γνωστό ότι είναι απεκκριτικό και συμπεριλήφθηκαν στην εκπαίδευση μας ή ανεξάρτητους σύνολο δεδομένων δοκιμής. Εφαρμόσαμε τον ταξινομητή για τις υπόλοιπες 163 πρωτεΐνες για τις οποίες η απέκκρισης κατάσταση ήταν άγνωστη (βλέπε Αποτελέσματα και Πίνακας S2). Αυτή η δέσμη πρωτεΐνης παρέχει το σχετικό επίπεδο έκφρασης για κάθε πρωτεΐνη στη συστοιχία όταν δοκιμάζεται σε ένα (ούρα) δείγμα, η οποία μετράται σε όρους έντασης σήματος, ποσοτικοποιούνται από την πυκνομετρία. Το υπόβαθρο της συστοιχίας χρησιμοποιήθηκε ως έλεγχος για τον προσδιορισμό της πραγματικής παρουσίας μιας πρωτεΐνης σύμφωνα με την (ούρα) του δείγματος. Η ένταση του σήματος για μια πρωτεΐνη θεωρήθηκε ως μια πραγματική σήμα, εάν ήταν τουλάχιστον 5 φορές μεγαλύτερη από εκείνη του ελέγχου, όπως προτείνεται από τη σύσταση του κατασκευαστή. Εμείς επικεντρώθηκε πειραματική επιβεβαίωση μας την επιβεβαίωση των θετικών προβλέψεων μόνο διότι είναι σχεδόν αδύνατο να αποδειχθεί μια πρωτεΐνη δεν είναι παρούσα σε ένα δείγμα ούρων λόγω των περιορισμών στην ευαισθησία ανίχνευσης της τρέχουσας τεχνολογίας όταν η πρωτεΐνη είναι πολύ χαμηλή συγκέντρωση στο δείγμα.

c. Ούρα συλλογή /παρασκευάσματος

Τα δείγματα ούρων από ασθενείς με καρκίνο του στομάχου και των υγιών μαρτύρων δείγμα συλλέχθηκαν στην Ιατρική Σχολή του Πανεπιστημίου Jilin, Changchun, Κίνα. ασθενείς με γαστρικό καρκίνο, από την οποία τα δείγματα συλλέχθηκαν από, είναι όλοι οι ασθενείς προχωρημένο στάδιο (βλέπε πίνακα S3 για την ενημέρωση των ασθενών). Αυτά τα δείγματα αμέσως λυοφιλοποιήθηκαν και φυλάχθηκαν στους -80 ° C μέχρι την περαιτέρω χρήση μετά από χειρουργική αφαίρεση τους από τους ασθενείς. Αυτά στη συνέχεια ανασυσταθεί και φυγοκεντρήθηκε (3000

για 25 λεπτά στους 4 ° C) για την απομάκρυνση των κυτταρικών συστατικών. Τα υπερκείμενα συλλέχθηκαν και υποβλήθηκαν σε διαπίδυση σε 4 ° C έναντι Millipore υπέρ καθαρό νερό (τρεις αλλαγές ρυθμιστικού ακολουθούμενο από μια ολονύκτια διαπίδυση) χρησιμοποιώντας Slide-Α-Lyzer αιμοκάθαρσης Κασέτες (Thermo Fisher Scientific, Rockford, IL). Οι συγκεντρώσεις πρωτεΐνης μετρήθηκαν χρησιμοποιώντας την πρωτεΐνη Bio-Rad Δοκιμασία (Bio-Rad, Hercules, CA) με αλβουμίνη βόειου ορού σαν πρότυπο.

d. Ταυτοποίηση των γονιδίων που εκφράζονται διαφορικά σε καρκίνο του στομάχου και του ελέγχου των ιστών

Ένα σύνολο των 80 γαστρικών καρκινικών ιστών και των παρακείμενων noncancerous ιστούς τους από 80 ασθενείς συλλέχθηκαν στην Ιατρική Σχολή του Πανεπιστημίου Jilin. πειράματα μικροσυστοιχιών διεξήχθησαν σε αυτούς τους ιστούς με τη χρήση του Affymetrix GeneChip Ανθρωπίνων εξόνιο 1.0 ST Array, το οποίο καλύπτει 17.800 ανθρώπινα γονίδια. Ο αλγόριθμος PLIER [18] χρησιμοποιήθηκε για να συνοψίσει τα σήματα αισθητήρα σε γονιδιακή έκφραση-επίπεδο. Για κάθε γονίδιο, εξετάσαμε την κατανομή της έκφρασης πολλαπλής μεταβολής μεταξύ των ζευγαρωμένων καρκίνου και ελέγχου των ιστών σε όλες τις 80 ζεύγη των ιστών. Ας

exp,

είναι ο αριθμός των ζευγών των ιστών των οποίων φορές αλλαγή είναι τουλάχιστον 2. Ένα γονίδιο θεωρείται ως

διαφορικά εκφρασμένων

αν το

-τιμή της παρατηρούμενης

exp

είναι μικρότερη από 0,05. Χρησιμοποιώντας αυτό το κριτήριο, συνολικά 715 γονίδια βρέθηκαν να εκφράζονται διαφορικά σε καρκίνο του στομάχου σε όλα τα ανθρώπινα γονίδια, και τα ονόματα των 715 γονιδίων, μαζί με τη σχετική

exp

και

οι p-τιμές

, δίνονται στον πίνακα S4. Μια λεπτομερής μελέτη των δεδομένων των μικροσυστοιχιών έχει αναφερθεί αλλού [19].

e. Τη λειτουργία και τον εμπλουτισμό της οδού αναλύει

Οι DAVID Βιοπληροφορική Πόρων και web server KOBAS [20], [21] χρησιμοποιείται για να κάνει λειτουργική και τον εμπλουτισμό της οδού ανάλυση, αντιστοίχως, για το σύνολο των προβλεπόμενων πρωτεϊνών στα ούρα-απεκκριτικό, χρησιμοποιώντας το σύνολο των ανθρώπινων πρωτεϊνών ως φόντο. Αναφερόμαστε τους αναγνώστες στο [20], [21] για λεπτομέρειες σχετικά με τις μεθόδους για την ανάλυση λειτουργική και οδός εμπλουτισμού. Χρησιμοποιώντας DAVID Βιοπληροφορική Πόρων, ο εμπλουτισμός βαθμολογία για μια καθορισμένη ομάδα πρωτεϊνών καθορίζεται από το σκορ ΕΑΣΕ [20], [22]. KOBAS είναι ένα συμπληρωματικό εργαλείο για DAVID, καθώς επεκτείνεται το σχολιασμό γονίδιο χρησιμοποιώντας KEGG Orthology (ΚΟ) όρους. Ο web server KOBAS, μαζί με το σύστημα KO βασίζεται σε σχολιασμό [21], [23], χρησιμοποιήθηκε για να βρείτε στατιστικά εμπλουτισμένο και υποεκπροσωπούνται μονοπάτια μεταξύ των προβλεπόμενων στα ούρα που εκκρίνονται πρωτεϊνών. KOBAS παίρνει σε ένα σύνολο πρωτεϊνικών αλληλουχιών και τους σχολιάζει χρησιμοποιώντας τους όρους KO. Οι σχολιασμένη όροι ΚΟ στη συνέχεια συγκρίνεται με όλες τις ανθρώπινες πρωτεΐνες, όπως το σύνολο υπόβαθρο για την αξιολόγηση εάν είναι εμπλουτισμένο ή υποεκπροσωπούνται.

f. Western blots

πρωτεΐνες ούρων από κάθε δείγμα (σύνολο 2 μg) συνδυάστηκαν με βαφή 3x δείγμα. Κάθε σωλήνας έβρασε για 5 λεπτά και φορτώθηκαν σε πηκτώματα SDS-PAGE, μαζί με 10 μλ πρότυπα και να τρέξει για 1 ώρα στους 200 βολτ. Η μεμβράνη ενεργοποιήθηκε με 100% μεθανόλη, μετά από μεταφορά από το πήκτωμα στη μεμβράνη (100 volts για 1 ώρα). Μόλις ολοκληρωθεί η μεταφορά ήταν πλήρης, η μεμβράνη αφέθηκε να ξηρανθεί, επαναδιαβραχούν σε 100% μεθανόλη και πλύθηκε 2Χ επί 5 λεπτά το καθένα με αλατόνερο ρυθμισμένο με Tris (TBS). Η μεμβράνη ακολούθως επωάζεται σε διάλυμα μπλοκαρίσματος γάλα 3% για 2 ώρες σε θερμοκρασία δωματίου. Στη συνέχεια η μεμβράνη επωάστηκε στο πρώτο διάλυμα αντισώματος (1:200 αραιώσεις σε 1.5% μπλοκάρισμα γάλα) για 1 ώρα σε θερμοκρασία δωματίου, και το μη δεσμευμένο αντίσωμα αφαιρέθηκε με πλύση της μεμβράνης 3Χ με Tween-20 διάλυμα TBS (TBST) για 10 min το καθένα. Στη συνέχεια, η μεμβράνη επωάστηκε σε αραίωση 1:10,000 του δευτερογενούς αντισώματος σε διάλυμα μπλοκαρίσματος γάλα 1,5% για 1 ώρα σε θερμοκρασία δωματίου. Η μεμβράνη πλύθηκε 3Χ με TBST και 2Χ με TBS (10 λεπτά η κάθε μία). Τέλος, η μεμβράνη καλύπτεται εντελώς με ίση ποσότητα του ενισχυτή και διαλύματος υπεροξειδίου από ένα κιτ Pierce Western Blotting για 5 λεπτά και εκτέθηκαν σε φιλμ. Κάθε πείραμα επαναλήφθηκε πολλές φορές για να διασφαλιστεί αναπαραγωγιμότητα [24]. Οι εντάσεις σήματος προσδιορίστηκαν χρησιμοποιώντας το λογισμικό ImageJ [25]. Για κάθε μεμβράνη, η κενή λωρίδα χρησιμοποιήθηκε για την κανονικοποίηση των εντάσεων των σημάτων κατά μήκος των μεμβρανών. Η απόδοση εξετάστηκε χρησιμοποιώντας ROC και την πλοκή μουστακιού-box.

Αποτελέσματα και Συζήτηση

α. πεπτίδιο σήματος και δευτεροβάθμια δομές είναι τα βασικά χαρακτηριστικά των ούρων που εκκρίνονται οι πρωτεΐνες

Ο αρχικός κατάλογος των χαρακτηριστικών επιλέχθηκε προσεκτικά ώστε να συμπεριλάβει αυτό που πιστεύεται ότι είναι χαρακτηριστικά πρωτεϊνών που σχετίζονται με την ουρική έκκριση βασίζεται σε βιβλιογραφική έρευνα και την τρέχουσα κατανόηση της ουρικής πρωτεΐνες. Για παράδειγμα, το αρνητικά φορτισμένο σπειραματικής τοίχο στο νεφρό θα επιτρέψει την διήθηση του μόνο θετικά ή ουδέτερα φορτισμένων πρωτεϊνών. Ετσι, το φορτίο μιας πρωτεΐνης είναι ένα από τα χαρακτηριστικά που επιλέγονται. Λαμβάνοντας τις διαθέσιμες πληροφορίες υπόψη, ο συνολικός αριθμός των αξιών χαρακτηριστικό που συλλέγονται αρχικά ήταν 243, που αντιπροσωπεύουν βασικές ιδιότητες ακολουθία, μοτίβα, φυσικοχημικές ιδιότητες, και δομικές ιδιότητες (Πίνακας S1). Κατά τον προσδιορισμό των χαρακτηριστικών που είναι αποτελεσματικά σε διακρίσεις απέκκρισης πρωτεϊνών στα ούρα από τους μη-απέκκρισης αυτά, μια απλή και αποτελεσματική μέθοδος για την εξάλειψη χαρακτηριστικά που δείχνουν μικρή ή καθόλου απαιτητικό ισχύος για το πρόβλημα ταξινόμησης μας απασχολούνται? 74 τιμές λειτουργία επιλέχθηκαν με χρήση της διαδικασίας που περιγράφεται στο τμήμα Α του Μεθόδων (Πίνακας S5). Αυτές οι τιμές χαρακτηριστικό χρησιμοποιήθηκαν για να εκπαιδεύσουν τον τελικό ταξινομητή.

Ανάμεσα στα επιλεγμένα χαρακτηριστικά, η μία πιο διακριτική ήταν η παρουσία των πεπτιδίων σήματος. Είναι κατανοητό ότι οι πρωτεΐνες που εκκρίνονται μέσω του ER έχουν πεπτίδια-σηματοδότες και διακινούνται με τον προορισμό τους, σύμφωνα με τις ειδικές πεπτίδια σήματος? ως εκ τούτου, δεν αποτελεί έκπληξη, οι περισσότεροι απεκκρίνεται πρωτεΐνες έχουν αυτό το χαρακτηριστικό. Ένα άλλο σημαντικό χαρακτηριστικό ήταν η δευτερεύουσα δομή τύπου? Ειδικότερα, το ποσοστό των α-ελίκων σε μια αλληλουχία πρωτεΐνης κατετάγη ως η τιμή χαρακτηριστικό αριθμό 2 μεταξύ των επιλεγμένων 74 (Πίνακας S5). Όπως ήταν αναμενόμενο, η χρέωση μιας πρωτεΐνης ήταν μεταξύ των κορυφαίων κατάταξης χαρακτηριστικά για αποβάλλεται πρωτεΐνες. Αυτό είναι σύμφωνο με τη γενική αντίληψη ότι η χρέωση είναι ένας παράγοντας στον καθορισμό ποιες πρωτεΐνες μπορεί να φιλτραριστεί μέσω της σπειραματικής μεμβράνης [26] όπως οι πρωτεΐνες στο εσωτερικό σπειραματικής μεμβρανών και σχισμές ποδοκυττάρων είναι αρνητικά φορτισμένα, και ως εκ τούτου αρνητικά φορτισμένες πρωτεΐνες θα έχουν χαμηλές πιθανότητες να φιλτράρετε μέσω τα νεφρά. Πράγματι, οι τιμές χαρακτηριστικό των θετικών αμινοξέων και φορτίο ήταν μεταξύ των κορυφαίων κατάταξης τιμές χαρακτηριστικό.

Είναι ενδιαφέρον, ωστόσο, το μοριακό βάρος, το οποίο κατατάσσεται σε 232 από 243, δεν είχε συμπεριληφθεί στις τελικές τιμές 74 χαρακτηριστικό. Αυτό θα μπορούσε να εξηγηθεί από τα ακόλουθα. Πρωτεΐνες που υπάρχουν στον ορό μπορεί να έχει ήδη υποστεί μια διάσπαση ή έχουν υποβαθμιστεί εν μέρει, και συνεπώς δεν μπορεί να είναι σε ακέραια ή πλήρη μορφή τους κατά την είσοδό τους νεφρούς. Έχει, πράγματι, αποδείχθηκε ότι η πλειονότητα των πρωτεϊνών που βρίσκονται στα ούρα αποδομούνται εκτεταμένα [27]. Ενώ μια άθικτη πρωτεΐνη μπορεί να μην είναι σε θέση να φιλτράρουν μέσα από το σπείραμα λόγω μέγεθος ή το σχήμα του, ένα πεπτίδιο που προέρχονται από πρωτεΐνες μπορεί εύκολα να περάσει μέσα από τις σχισμές ποδοκυττάρων. Ως αποτέλεσμα, το μοριακό βάρος της ανέπαφης πρωτεΐνης είναι ένα μη-παράγοντα στην πρόβλεψη εάν η πρωτεΐνη είναι απέκκρισης των ούρων.

Θα πρέπει να σημειωθεί ότι τα ούρα απεκκριτικό πρωτεΐνες και εκκρίνονται πρωτεΐνες έχουν ορισμένα κοινά χαρακτηριστικά με μερικά από τα στοιχεία που χρησιμοποιούνται για την ταυτοποίηση πρωτεϊνών αίματος εκκρίνονται σε προηγούμενη μελέτη μας [10] επελέγησαν στην πρόβλεψη ουρικής πρωτεΐνης σε αυτή τη μελέτη. Για παράδειγμα, χαρακτηριστικά όπως η προσβασιμότητα διαλύτη, πολικότητα, και πεπτίδια σήμα συμπεριλήφθηκαν σε δύο ταξινομητές. Ωστόσο, υπάρχει μια σαφής διαφορά μεταξύ των χαρακτηριστικών που χρησιμοποιούνται στις δύο ταξινομητές. Ενώ χαρακτηριστικά, όπως βήτα-κλώνους περιεχόμενο, χαρακτηριστικά που σχετίζονται με βήτα-βαρέλι διαμεμβρανική πρωτεΐνη και αναλογία πρωτεΐνης, tATP μοτίβο, διαμεμβρανική περιοχή, το μέγεθος της πρωτεΐνης, και του μακρύτερου διαταραγμένη περιοχή ήταν μεταξύ των κορυφαίων χαρακτηριστικά για την πρόβλεψη του αίματος-εκκριτικών πρωτεϊνών [10 ], είχαν δεν περιλαμβάνονται στις τελικές λειτουργίες για την πρόβλεψη του ουροποιητικού πρωτεΐνη. Επιπλέον, τα χαρακτηριστικά που σχετίζονται με θετικό φορτίο, όπως η σύνθεση των θετικά φορτισμένων αμινοξέων, ήταν εμφανές στην πρόβλεψη των πρωτεϊνών στα ούρα, αλλά δεν έχει επιλεγεί στην πρόβλεψη έκκριση αίματος. Ομοίως, η άλφα-έλικα, το περιεχόμενο και η σπείρα-περιεκτικότητα σε πρωτεΐνες ήταν μεταξύ των κορυφαίων χαρακτηριστικών για την πρόβλεψη των πρωτεϊνών στα ούρα, αλλά δεν επελέγησαν για την πρόβλεψη πρωτεΐνη του αίματος-εκκριτικά. Είναι ενδιαφέρον να σημειωθεί ότι σε αντίθεση με το εύρημα ότι οι β-κλώνοι είναι ένα κοινό δευτερεύον τύπος δομής μεταξύ των πρωτεϊνών εκκρίσεως του αίματος, πρωτεϊνών ούρων έχουν την τάση να έχουν υψηλότερα άλφα-έλικα και το περιεχόμενο του πηνίου, γεγονός που δείχνει ότι οι πρωτεΐνες των ούρων διαθέτουν ιδιότητες που δεν είναι κοινή από πρωτεΐνες εκκριτική αίματος σε γενικές γραμμές.

b. Απόδοση του ταξινομητή

Για να προσδιοριστεί η ακρίβεια του τελικού ταξινομητή, θα δοκιμαστεί σε μια ανεξάρτητη σειρά δοκιμών, το οποίο αποτελείται από 460 απέκκρισης πρωτεϊνών πειραματικά επικυρωμένη ούρα και 2.148 απέκκρισης πρωτεϊνών μη ούρα. ταξινομητή μας έχει ευαισθησία της πρόβλεψης και η ειδικότητα αυτή ανεξάρτητη σειρά δοκιμών σε 0,78 και 0,92, αντίστοιχα (Πίνακας 1).

Στη συνέχεια έτρεξε το ταξινομητή για το 163 από τις 274 πρωτεΐνες που καθορίζεται με την προ-made αντισώματος array (βλέπε Μέθοδοι), για την οποία η απέκκρισης κατάσταση ήταν άγνωστη. Από τις πρωτεΐνες 163, 112 πρωτεΐνες αναμένεται να είναι απεκκριτικό ούρων από τον ταξινομητή μας. Για να αξιολογηθεί η απόδοση αυτής της πρόβλεψης, πειράματα αντισωμάτων σειρά που βασίζεται διεξήχθησαν στις 14 δείγματα ούρων, επτά από υγιή άτομα και επτά από τους ασθενείς με γαστρικό καρκίνο. Από τους 112 προβλεπόμενων πρωτεϊνών ούρων απεκκριτικό, 92 βρέθηκαν σε τουλάχιστον ένα από τα δείγματα ούρων (Πίνακας S6), δίνοντας ένα θετικό ρυθμό πρόβλεψη των 0,81, το οποίο είναι σύμφωνο με το επίπεδο απόδοσης για το πρώτο σετ δοκιμής.

θα πρέπει να σημειωθεί ότι ένας περιορισμός αυτής της ταξινομητής είναι ότι ορισμένες πρωτεΐνες μπορεί να έχουν υποβαθμιστεί μερικώς πριν απεκκρίνεται στα ούρα ή στα ούρα, γεγονός που καθιστά δύσκολο για τον ταξινομητή μας να ανιχνεύσουμε σχηματίζεται έτσι πεπτιδίων όπως είχε εκπαιδευτεί σε ολόκληρο ανέπαφες πρωτεΐνες. Το θέμα αυτό θα αντιμετωπιστεί στο μέλλον μέσω απορρέουν τιμές λειτουργία με βάση τις πραγματικές πρωτεΐνες /πεπτίδια που προσδιορίζονται στο προηγούμενο ουροποιητικού πρωτεομική μελέτες και όχι αντίστοιχες πρωτεΐνες πλήρους μήκους τους, όπως γίνεται σε αυτή τη μελέτη. Ενώ υπάρχει σαφώς περιθώριο για περαιτέρω βελτίωση, τα αποτελέσματα πρόβλεψη της τρέχουσας ταξινομητή είναι ιδιαίτερα ενθαρρυντικά.

c. Εφαρμογή του ταξινομητή σε γαστρικό καρκίνο

δεδομένα

προηγούμενη μελέτη μας επί 160 σύνολα δεδομένων γονιδιακής έκφρασης μικροσυστοιχιών του γαστρικού καρκίνου έχει εντοπίσει 715 διαφορικά εκφραζόμενων γονιδίων με τουλάχιστον 2-φορές αλλαγές στο γαστρικό καρκίνο

έναντι

δείγματα ιστών ελέγχου [19]. Αν και θα ήταν προτιμότερο να έχουμε πρωτεομικών δεδομένων των δειγμάτων ιστού, έχουμε μόνο δεδομένα γονιδιακής έκφρασης διαθέσιμη σε αυτή τη μελέτη. Ως εκ τούτου, τα δεδομένα γονιδιακής έκφρασης χρησιμοποιούνται ως προσέγγιση με την έκφραση της πρωτεΐνης σε αυτή τη μεθοδολογία προσανατολισμένη μελέτη. ταξινομητής μας εφαρμόστηκε σε αυτές τις 715 πρωτεΐνες, και προέβλεψε ότι 201 από τις πρωτεΐνες 715 είναι απέκκρισης ούρων. Πίνακας S7 παρέχει τις αναλυτικές πληροφορίες των πρωτεϊνών 201. Δεδομένου ότι δεν είναι ρεαλιστικό να ελέγξει όλες τις πρωτεΐνες 201 σε αυτή τη μελέτη για να καθοριστεί εάν είναι απέκκρισης ούρων ή όχι, κάναμε αναλύσεις για να περιορίσετε αυτή τη λίστα. Συγκεκριμένα, έχουμε πραγματοποιήσει τις ακόλουθες αναλύσεις: (i) λειτουργική και οδός εμπλουτισμό αναλύσεις για να αποκτήσουν μια καλύτερη κατανόηση των τύπων των πρωτεϊνών που υπάρχουν στα ούρα, (ii) βιβλιογραφική έρευνα σχετικά με πρωτεΐνες των ούρων για να συγκεντρώσει πληροφορίες σχετικά με δημοσιεύεται πρωτεΐνες του ουροποιητικού δείκτη, ( iii) την εξέταση των δεδομένων γονιδιακής έκφρασης για να απομακρυνθεί γονίδια που δεν είναι ουσιαστικά εκφράζονται διαφορικά μεταξύ καρκίνου και του ιστού του ελέγχου δειγμάτων? και (iv) Western blots επί των πρωτεϊνών που επιλέγεται από μια περιοριστεί λίστα των πρωτεϊνών 201. Αυτή η διαδικασία έδειξε ένα υψηλό ποσοστό επιτυχίας και οδήγησε σε μια ενδιαφέρουσα ανακάλυψη πιθανών βιοδεικτών για καρκίνο του στομάχου.

Για την (i), έχουμε πραγματοποιήσει λειτουργική και τον εμπλουτισμό της οδού αναλύσεις για όλες τις 201 πρωτεΐνες χρησιμοποιώντας τον DAVID [20 ] και KOBAS [21] servers, αντίστοιχα. Βρήκαμε ότι τα εμπλουτισμένα λειτουργικές ομάδες την εξωκυτταρική μήτρα (ECM), προσκόλληση κυττάρου και την ανάπτυξη, την κυτταρική κινητικότητα, απόκριση άμυνα, αγγειογένεση, τα οποία είναι όλα γνωστό ότι εμπλέκεται στην ανάπτυξη ή στην άμυνα του καρκίνου (Σχήμα S1A). Οι πιο εμπλουτισμένο οδοί ήταν η αλληλεπίδραση ECM-υποδοχέα και ανόργανα οδών μεταφοράς ιόντων και του μεταβολισμού (Σχήμα S1B)

Το επόμενο κριτήριο που χρησιμοποιείται για να μειώσει τον κατάλογο των 201 πρωτεϊνών για τα βήματα (ii) – (iii):.

οι πρωτεΐνες δεν έχουν αναφερθεί να σχετίζεται με οποιοδήποτε καρκίνο βασίζεται σε εκτεταμένες μας

βιβλιογραφική έρευνα, η οποία οδηγεί σε 71 πρωτεΐνες. Ο κατάλογος μειώθηκε περαιτέρω με βάση ένα προ-επιλεγμένο αποκοπής στη διαφορική έκφραση και λειτουργική σχολιασμοί (πιθανώς σχετίζονται με γαστρικό καρκίνο παρά ανοσολογικές αποκρίσεις).

d. Ενδοθηλιακής λιπάσης μειώνεται σημαντικά στα δείγματα ούρων του γαστρικού καρκίνου ασθενών

Εμείς επιλέξαμε έξι πρωτεϊνών (MUC13, COL10A1, AZGP1, LipF, ΜΜΡ3, και EL) για την πειραματική επικύρωση από τα παραπάνω περιοριστεί λίστα. Για να γίνει αυτό, έχουμε συλλέξει δείγματα ούρων από 21 ασθενείς με γαστρικό καρκίνο και 21 υγιή άτομα. Από τις έξι επιλεγμένες πρωτεΐνες, πέντε πρωτεΐνες, MUC13, COL10A1, LIPG, AZGP1, και EL ανιχνεύθηκαν με Western κηλίδες σε τουλάχιστον ένα δείγμα ούρων. Από το πέντε, MUC13, COL10A1, και EL ανιχνεύθηκαν ακόμη και σε πολύ χαμηλή ποσότητα του συνόλου των πρωτεϊνών ούρων (1-2 μg). ΜΜΡ3 δεν βρέθηκε στα δείγματα που εξετάσαμε, η οποία μπορεί να οφείλεται στην χαμηλή συγκέντρωση του ΜΜΡ3 στα ούρα ή ψευδή πρόβλεψη από τον ταξινομητή μας.

Είναι ιδιαίτερα ενδιαφέρον να σημειωθεί ότι ήμασταν σε θέση να ανιχνεύσει συνεπείς διαφορές στην αφθονία EL (που κωδικοποιείται από

LIPG

) μεταξύ των δύο συνόλων 21 δείγματα ούρων. Οι κηλίδες Western για EL παρουσίασαν σημαντική μείωση σε αφθονία του σε δείγματα ούρων από τους ασθενείς με γαστρικό καρκίνο 21 σε σύγκριση με τα δείγματα ελέγχου. Όπως φαίνεται στο Σχήμα 2Α, η πλειονότητα των δειγμάτων ελέγχου έδειξε την παρουσία EL, ενώ τα περισσότερα από τα δείγματα γαστρικού καρκίνου του είχαν σχετικά χαμηλές ποσότητες EL. Αυτό το μοτίβο παρατηρήθηκε επανειλημμένα

Α:. Western blots για EL σχετικά με τον έλεγχο και την γαστρική δείγματα καρκίνου. Τα δείγματα ελέγχου (συμβολίζεται με το κόκκινο επένδυση κουτί): Λωρίδες 1-7, 11-17, 21-27. δείγματα καρκίνου: Λωρίδες 8-14, 18-24, 28-34. Β: Αντίστοιχες οικόπεδο μουστακιού-box για τις εντάσεις του σήματος. καμπύλη Γ ROC του ΕΛ Western blot. Κόκκινη γραμμή: καμία διάκριση? . Μπλε γραμμή: ROC από ΕΛ

Το μοριακό βάρος αυτής της πρωτεΐνης έχει προσδιοριστεί να είναι 68 kDa [28]? Έτσι, ένα ομο-διμερές αναμένεται να είναι 134 kDa. https://csbl.bmb.uga.edu/~juancui/Publications/GC2009/Additional_material.pdf.

doi:10.1371/journal.pone.0016875.s005

(XLS)

Table

Χρόνιες ασθένειες

PLoS One: Μια μέθοδος Υπολογιστική για Πρόβλεψη Τερματικά Πρωτεΐνες και Αίτηση Αναγνώρισης της γαστρικός καρκίνος Μαρκαδόροι στα ούρα