Solving the Structural Modeling Problems for Tandem Repeat Proteins

Hirsh Martinez, Layla

Over the last decade, numerous studies have demonstrated fundamental importance of tandem repeat proteins (TRP) in many biological processes (Andrade, Perez-Iratxeta, and Ponting 2001). Repeat proteins are a widespread class of non-globular proteins carrying heterogeneous functions involved in several diseases. One of the most frequent problems in the study of biology is the functional characterization of a protein. This problem is usually solved by analyzing the three-dimensional (3D) structure. The experimental determination of the 3D structure is time consuming and technically difficult. For this reason structure prediction by homology modeling offers a fast alternative to experimental approaches. However homology modeling is not feasible for tandem repeat proteins because it is difficult to infer homology due to a high degree of sequence degeneration. In this thesis, I focused on algorithms oriented toward repeat unit prediction, and characterization. I developed an innovative approach, Repeat Protein Unit Predictor (ReUPred), for fast automatic prediction of repeat units and repeat classification, exploiting a Structure Repeat Unit Library (SRUL) derived from RepeatsDB, the core database of TRP. ReUPred is based on the Victor C++ library, an open source platform dedicated to protein structure manipulation. To prove the accuracy of the predictor, we ran it against all the entries in the PDB database and the resulting predictions allowed us to improve and increase RepeatsDB annotation twenty times. During my PhD I have integrated ReUPred prediction into the new version of RepeatsDB (release 2.0) that now features information on start and end positions for the repeat regions and units for all entries. The updated web interface includes a new search engine for complex queries and a fully re-designed entry page for a better overview of structural data. To further improve RepeatsDB quality we decided to provide a finer classification at the subclass level based on the structural conformation of the repeated units. We hypothesized that inside these ensembles it is possible to find subgroups of proteins sharing the same unit type. To prove it, we performed a detailed structural analysis. We created a network where nodes are the units and arcs represent structural similarity. The network can be partitioned in 7 different clusters. For each cluster, it was possible to create a Hidden Markov Model similar to those representing Pfam domains. This analysis is an unpublished work but it already helped to improve ReUPred accuracy and RepeatsDB annotation. To summarize, this work is a partial answer to the problems of TRP modeling and might be helpful during future investigations such as drug design and disease studies.

Nell’ultima decade, numerosi studi hanno dimostrato il ruolo fondamentale svolto dalle proteine ripetute (TRP, tandem repeat proteins) in molti processi biologici (Andrade, Perez-Iratxeta, and Ponting 2001). Quella delle TRP è un’ampia classe di proteine non globulari, caratterizzate da una notevole eterogeneità di funzione e dall’essere coinvolte nella eziogenesi di numerose patologie. Una delle maggiori difficoltà che si incontrano nella moderna biologia è la caratterizzazione funzionale di proteine. Nella pratica standard, questo problema è affrontato analizzandone la struttura cristallografica (3D). Tuttavia, la determinazione della struttura tridimensionale è un processo molto lento e spesso inficiato da difficoltà tecniche. Per questa ragione, le tecniche computazionali di modellazione per omologia spesso offrono una alternativa praticabile all’approccio sperimentale. Tali tecniche però non sono di ausilio nello studio delle TRP. Ciò è dovuto all’impossibilità di poter inferire informazione evolutiva a causa di una ridotta conservazione di sequenza dell’unità ripetuta, a sua volta derivata da un elevato grado di degenerazione della sequenza primaria. In questo elaborato di tesi, mi sono focalizzata sullo sviluppo di un algoritmo orientato alla predizione di unità ripetute in proteine e alla loro caratterizzazione. Qui presento ReUPred (Repeat Protein Unit Predictor), un algoritmo innovativo per la predizione e caratterizzazione di unità proteiche ripetute basato sulla “libreria di unità strutturali ripetute” (SRUL, Structure Repeat Unit Library) direttamente derivata da RepeatsDB, la risorsa di riferimento per lo studio delle TRP. Architetturalmente, ReUPred è basato sulla libreria VICTOR C++, una piattaforma a sorgente aperto per la manipolazione di strutture proteiche. L’accuratezza del predittore è stata validata analizzando la banca dati PDB e le predizione ottenutene sono state successivamente utilizzate per estendere di venti volte il numero di proteine, correttamente annotate, contenute in RepeatDB. Durante lo svolgimento del mio dottorato ho integrato ReUPpred nella nuova versione di RepeatDB (release 2.0), che grazie a questo lavoro, ora integra informazioni dettagliate sulla posizione di inizio e fine per ogni unità ripetuta contenuta nel catalogo. L’interfaccia utente della banca dati è stata aggiornata implementando un nuovo motore di ricerca che permette ora ricerche semantiche complesse. Inoltre, lo stile grafico delle singole schede è stato ridisegnato per una migliore visualizzazione dei dati strutturali. Al fine di migliorare ulteriormente la qualità dei dati contenuti in RepeatDB è stata fornita una classificazione più dettagliata delle unità strutturali ripetute, fino al livello di sottoclasse. Abbiamo ipotizzato che all’interno di questa raccolta di dati fosse possibile identificare sottogruppi di proteine condividenti la stessa unità strutturale di base. Una dettagliata analisi strutturale è stata condotta al fine di validare questa ipotesi. E’ stata generata una rete in cui le singole unità ripetute vengono visualizzate come nodi interconnessi da archi che rappresentano la similarità strutturale. Ne è emerso che l’intero insieme può essere descritto da sette diversi raggruppamenti. Inspirati dalla rappresentazione dei domini proteici usata nella banca dati Pfam, per ognuno dei raggruppamenti è stato derivato un modello di Markov nascosto (Hidden Markov Model). Questa analisi, al momento in via di completamento, ha già permesso di migliorare l’accuratezza di ReUPred ed il livello di annotazione di RepeatsDB. In sintesi, questo lavoro fornisce una robusta base teorica per il futuro sviluppo di nuove tecniche per la predizione di struttura di TRP e può essere di grande aiuto per la comprensione dei meccanismi alla base di patologie umane e per lo sviluppo di nuovi approcci terapeutici.

Solving the Structural Modeling Problems for Tandem Repeat Proteins / Hirsh Martinez, Layla. - (2017 Jul 17).