Over the past years, microarray technologies have produced a tremendous amount of gene expression data. The availability of these data has motivated researchers to assess genes function and to gain a deeper understanding of the cellular processes, using network theory as tool for the analysis. An elegant framework for modeling and inferring network structures in biological systems is provided by graphical models. They allow the stochastic description of network associations and dependence structures in complex highly structured data. However, typically gene expression data set includes a large number of variables but only few samples making standard graphical model theories inapplicable. The issues presented by genetic data have led to further extend the theory of graphical models to allow their applications in this area. The main aim of this thesis is the comparison of recent procedures, which estimate sparse concentration matrices and learn the structure of biological networks, through the use of both simulated and real data. The compared procedures are: G-Lasso algorithm (Friedman et al., 2008), Shrinkage estimator with empirical Bayes approach for model selection (Schafer and Strimmer, 2005a, 2005b), PC-algorithm (Kalisch and Buhlmann, 2007). When n > p, we consider also the simple frequentist approach based on MLE and t-test for model selection (see Lauritzen, 1996). Regarding the simulated data, for having a realistic simulation of the biological structures, the data have the peculiarity to reproduce few gene regulatory network structures of interest and they are generated by exploiting some properties of the Cholesky decomposition of a matrix. Concerning the real data, we consider the analysis of one of the best characterized system: Escherichia coli. A large part of its transcriptional regulatory network is known, hence it can be used as a gold-standard to assess the performance of different procedures in the comparative study.

Negli ultimi anni, le tecnologie dei microarray hanno prodotto una grande quantità di dati provenienti da processi di espressione genica. La disponibilità di questi dati ha permesso ai ricercatori di poter approfondire lo studio della funzione dei diversi geni e poter acquisire una più profonda conoscenza sui processi cellulari, utilizzando come strumento di ricerca la teoria dei network. I modelli grafici risultano essere un utile strumento per la modellazione e l'analisi delle strutture dei networks derivanti da dati biologici. Infatti, questi modelli consentono di rappresentare in modo stocastico le associazioni e le strutture di dipendenza tra gli elementi di data set con struttura complessa. Tuttavia, i dati derivanti da profili di espressione genica si presentano con un elevato numero di variabili ma solo poche osservazioni rendendo, perciò, la teoria classica dei modelli grafici inapplicabile. I problemi legati all'utilizzo di dati genetici hanno portato ad estendere la teoria dei modelli grafici per consentire l'impiego di questi modelli anche in questo campo di applicazione. Lo scopo principale di questa tesi è quello di confrontare, attraverso l'utilizzo di dati simulati e reali, recenti procedure sviluppate con lo scopo di stimare matrici di concentazione sparse e ricostruire i networks biologici. Le procedure considerate per il confronto sono: l'algoritmo G-Lasso (Friedman et al., 2008), lo stimatore Shrinkage associato con l'approccio Bayes empirico per la selezione del modello (Schafer and Strimmer, 2005a, 2005b), l'algoritmo PC (Kalisch and Buhlmann, 2007). Quando n > p, consideriamo anche un semplice approccio frequentista basato sullo stimatore ML e l'utilizzo del test t per la selezione del modello (si veda Lauritzen, 1996). Per quanto riguarda i dati simulati, per avere strutture biologiche simili a quelle reali, i dati hanno la peculiarità di riprodurre alcune strutture dei network di regolazione genica e sono ottenuti sfruttando alcune proprieta’ della decomposizione di Cholesky di una matrice. Per il confronto con dati reali, sono stati utilizzati dati derivanti da uno dei sistemi maggiormente studiati: Escherichia coli. Infatti, grand parte del network di regolazione genica di questo battere è noto, quindi può essere utilizzato come riferimento per valutare il rendimento delle diverse procedure poste a confronto.

A comparison of procedures for structural learning of biological networks / Albieri, Vanna. - (2010 Feb 01).

A comparison of procedures for structural learning of biological networks

Albieri, Vanna
2010

Abstract

Negli ultimi anni, le tecnologie dei microarray hanno prodotto una grande quantità di dati provenienti da processi di espressione genica. La disponibilità di questi dati ha permesso ai ricercatori di poter approfondire lo studio della funzione dei diversi geni e poter acquisire una più profonda conoscenza sui processi cellulari, utilizzando come strumento di ricerca la teoria dei network. I modelli grafici risultano essere un utile strumento per la modellazione e l'analisi delle strutture dei networks derivanti da dati biologici. Infatti, questi modelli consentono di rappresentare in modo stocastico le associazioni e le strutture di dipendenza tra gli elementi di data set con struttura complessa. Tuttavia, i dati derivanti da profili di espressione genica si presentano con un elevato numero di variabili ma solo poche osservazioni rendendo, perciò, la teoria classica dei modelli grafici inapplicabile. I problemi legati all'utilizzo di dati genetici hanno portato ad estendere la teoria dei modelli grafici per consentire l'impiego di questi modelli anche in questo campo di applicazione. Lo scopo principale di questa tesi è quello di confrontare, attraverso l'utilizzo di dati simulati e reali, recenti procedure sviluppate con lo scopo di stimare matrici di concentazione sparse e ricostruire i networks biologici. Le procedure considerate per il confronto sono: l'algoritmo G-Lasso (Friedman et al., 2008), lo stimatore Shrinkage associato con l'approccio Bayes empirico per la selezione del modello (Schafer and Strimmer, 2005a, 2005b), l'algoritmo PC (Kalisch and Buhlmann, 2007). Quando n > p, consideriamo anche un semplice approccio frequentista basato sullo stimatore ML e l'utilizzo del test t per la selezione del modello (si veda Lauritzen, 1996). Per quanto riguarda i dati simulati, per avere strutture biologiche simili a quelle reali, i dati hanno la peculiarità di riprodurre alcune strutture dei network di regolazione genica e sono ottenuti sfruttando alcune proprieta’ della decomposizione di Cholesky di una matrice. Per il confronto con dati reali, sono stati utilizzati dati derivanti da uno dei sistemi maggiormente studiati: Escherichia coli. Infatti, grand parte del network di regolazione genica di questo battere è noto, quindi può essere utilizzato come riferimento per valutare il rendimento delle diverse procedure poste a confronto.
1-feb-2010
Over the past years, microarray technologies have produced a tremendous amount of gene expression data. The availability of these data has motivated researchers to assess genes function and to gain a deeper understanding of the cellular processes, using network theory as tool for the analysis. An elegant framework for modeling and inferring network structures in biological systems is provided by graphical models. They allow the stochastic description of network associations and dependence structures in complex highly structured data. However, typically gene expression data set includes a large number of variables but only few samples making standard graphical model theories inapplicable. The issues presented by genetic data have led to further extend the theory of graphical models to allow their applications in this area. The main aim of this thesis is the comparison of recent procedures, which estimate sparse concentration matrices and learn the structure of biological networks, through the use of both simulated and real data. The compared procedures are: G-Lasso algorithm (Friedman et al., 2008), Shrinkage estimator with empirical Bayes approach for model selection (Schafer and Strimmer, 2005a, 2005b), PC-algorithm (Kalisch and Buhlmann, 2007). When n > p, we consider also the simple frequentist approach based on MLE and t-test for model selection (see Lauritzen, 1996). Regarding the simulated data, for having a realistic simulation of the biological structures, the data have the peculiarity to reproduce few gene regulatory network structures of interest and they are generated by exploiting some properties of the Cholesky decomposition of a matrix. Concerning the real data, we consider the analysis of one of the best characterized system: Escherichia coli. A large part of its transcriptional regulatory network is known, hence it can be used as a gold-standard to assess the performance of different procedures in the comparative study.
graphical models, comparative study, biological networks
A comparison of procedures for structural learning of biological networks / Albieri, Vanna. - (2010 Feb 01).
File in questo prodotto:
File Dimensione Formato  
Tutto.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 6.59 MB
Formato Adobe PDF
6.59 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3427334
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact