Vai ai contenuti. | Spostati sulla navigazione | Spostati sulla ricerca | Vai al menu | Contatti | Accessibilità

| Crea un account

Albieri, Vanna (2010) A comparison of procedures for structural learning of biological networks. [Tesi di dottorato]

Full text disponibile come:

[img]
Anteprima
Documento PDF
6Mb

Abstract (inglese)

Over the past years, microarray technologies have produced a tremendous amount of gene expression data. The availability of these data has motivated researchers to assess genes function and to gain a deeper understanding of the cellular processes, using network theory as tool for the analysis. An elegant framework for modeling and inferring network structures in biological systems is provided by graphical models. They allow the stochastic description of network associations and dependence structures in complex highly structured data. However, typically gene expression data set includes a large number of variables but only few samples making standard graphical model theories inapplicable. The issues presented by genetic data have led to further extend the theory of graphical models to allow their applications in this area. The main aim of this thesis is the comparison of recent procedures, which estimate sparse concentration matrices and learn the structure of biological networks, through the use of both simulated and real data. The compared procedures are: G-Lasso algorithm (Friedman et al., 2008), Shrinkage estimator with empirical Bayes approach for model selection (Schafer and Strimmer, 2005a, 2005b), PC-algorithm (Kalisch and Buhlmann, 2007). When n > p, we consider also the simple frequentist approach based on MLE and t-test for model selection (see Lauritzen, 1996). Regarding the simulated data, for having a realistic simulation of the biological structures, the data have the peculiarity to reproduce few gene regulatory network structures of interest and they are generated by exploiting some properties of the Cholesky decomposition of a matrix. Concerning the real data, we consider the analysis of one of the best characterized system: Escherichia coli. A large part of its transcriptional regulatory network is known, hence it can be used as a gold-standard to assess the performance of different procedures in the comparative study.

Abstract (italiano)

Negli ultimi anni, le tecnologie dei microarray hanno prodotto una grande quantità di dati provenienti da processi di espressione genica. La disponibilità di questi dati ha permesso ai ricercatori di poter approfondire lo studio della funzione dei diversi geni e poter acquisire una più profonda conoscenza sui processi cellulari, utilizzando come strumento di ricerca la teoria dei network. I modelli grafici risultano essere un utile strumento per la modellazione e l'analisi delle strutture dei networks derivanti da dati biologici. Infatti, questi modelli consentono di rappresentare in modo stocastico le associazioni e le strutture di dipendenza tra gli elementi di data set con struttura complessa. Tuttavia, i dati derivanti da profili di espressione genica si presentano con un elevato numero di variabili ma solo poche osservazioni rendendo, perciò, la teoria classica dei modelli grafici inapplicabile. I problemi legati all'utilizzo di dati genetici hanno portato ad estendere la teoria dei modelli grafici per consentire l'impiego di questi modelli anche in questo campo di applicazione. Lo scopo principale di questa tesi è quello di confrontare, attraverso l'utilizzo di dati simulati e reali, recenti procedure sviluppate con lo scopo di stimare matrici di concentazione sparse e ricostruire i networks biologici. Le procedure considerate per il confronto sono: l'algoritmo G-Lasso (Friedman et al., 2008), lo stimatore Shrinkage associato con l'approccio Bayes empirico per la selezione del modello (Schafer and Strimmer, 2005a, 2005b), l'algoritmo PC (Kalisch and Buhlmann, 2007). Quando n > p, consideriamo anche un semplice approccio frequentista basato sullo stimatore ML e l'utilizzo del test t per la selezione del modello (si veda Lauritzen, 1996). Per quanto riguarda i dati simulati, per avere strutture biologiche simili a quelle reali, i dati hanno la peculiarità di riprodurre alcune strutture dei network di regolazione genica e sono ottenuti sfruttando alcune proprieta’ della decomposizione di Cholesky di una matrice. Per il confronto con dati reali, sono stati utilizzati dati derivanti da uno dei sistemi maggiormente studiati: Escherichia coli. Infatti, grand parte del network di regolazione genica di questo battere è noto, quindi può essere utilizzato come riferimento per valutare il rendimento delle diverse procedure poste a confronto.

Statistiche Download - Aggiungi a RefWorks
Tipo di EPrint:Tesi di dottorato
Relatore:Roverato, Alberto
Correlatore:Didelez, Vanessa
Dottorato (corsi e scuole):Ciclo 22 > Scuole per il 22simo ciclo > SCIENZE STATISTICHE
Data di deposito della tesi:NON SPECIFICATO
Anno di Pubblicazione:01 Febbraio 2010
Parole chiave (italiano / inglese):graphical models, comparative study, biological networks
Settori scientifico-disciplinari MIUR:Area 13 - Scienze economiche e statistiche > SECS-S/02 Statistica per la ricerca sperimentale e tecnologica
Struttura di riferimento:Dipartimenti > Dipartimento di Scienze Statistiche
Codice ID:2571
Depositato il:28 Ott 2010 14:32
Simple Metadata
Full Metadata
EndNote Format

Download statistics

Solo per lo Staff dell Archivio: Modifica questo record