Vai ai contenuti. | Spostati sulla navigazione | Spostati sulla ricerca | Vai al menu | Contatti | Accessibilità

| Crea un account

de Vito, Roberta (2016) Multi-study factor models for high-dimensional biological data. [Tesi di dottorato]

Full text disponibile come:

[img]
Anteprima
Documento PDF (Tesi di dottorato) - Versione accettata
5Mb

Abstract (inglese)

High-throughput assays are transforming the study of biology, and are generating a rich, complex and diverse collection of high-dimensional data sets.
Building systematic knowledge from this data is a cumulative process, which requires analyses that integrate multiple sources, studies, and technologies.
The increased availability of ensembles of studies on related clinical populations, assaying technologies, and genomic features poses two categories of very important multi-study statistical components:
1) common factors shared across multiple studies; 2) study-specific factors.
To capture these two different quantities, in this thesis we propose a novel class of factor analysis models, both under a frequentist and Bayesian approach.
In the frequentist approach an ECM algorithm is provided to obtain the maximum likelihood estimates. Moreover, we propose a Bayesian approach to apply the method to settings with more variables than subjects. In modeling dependencies among many variables, a sparse structure underlying the associations among genes is assumed.
Both methods allow to perform joint analysis of multiple high-throughput studies.
The results are helpful for combining multiple studies, identifying reproducible biology across studies and interesting study-specific components, and removing idiosyncratic variation that lacks cross-study reproducibility.

Abstract (italiano)

Le analisi scientifiche su un alto numero di campioni (high-throughput assays) stanno trasformando gli studi biologici. In particolare gli high-throughput assays generano una ricca, complessa e varia collezione di dati a più dimensioni.
Estrarre informazioni significative in maniera sistematica da questo tipo di dati richiede un processo progressivo che si basa sull’analisi simultanea di risorse, studi e tecnologie differenti.
La crescente disponibilità di numerosi studi clinici su rilevanti gruppi, popolazioni e diversi studi genetici genera due categorie: la prima, una categoria relativa ai fattori condivisi da tutti gli studi ed una seconda, relativa a fattori specifici di ogni studio.
Per catturare queste due differenti categorie abbiamo proposto, nell'ambito di tale tesi, una nuova classe di modellizzazione di analisi fattoriale che abbiamo sviluppato in un approccio sia frequentista che Bayesiano.
Nell'approccio frequentista, è stato proposto un algoritmo ECM per la stima di massima verosimiglianza dei parametri. Inoltre, in questa tesi, si è proposto un approccio Bayesiano per adattare questo modello ad un contesto di più variabili che soggetti, p>n. Nel modellizzare la dipendenza tra variabili, si è assunta una struttura sparsa per sottolineare le associazioni tra i geni.
Entrambi i metodi hanno consentito di modellizzare i diversi studi. Inoltre, i risultati hanno permesso di poter identificare un segnale biologico riproducibile e comune in tutti gli studi, nonché ad eliminare quella parte di varianza che oscura questo segnale.

Statistiche Download - Aggiungi a RefWorks
Tipo di EPrint:Tesi di dottorato
Relatore:Bellio , Ruggero
Correlatore:Parmigiani, Giovanni - Trippa, Lorenzo
Dottorato (corsi e scuole):Ciclo 28 > Scuole 28 > SCIENZE STATISTICHE
Data di deposito della tesi:29 Gennaio 2016
Anno di Pubblicazione:29 Gennaio 2016
Parole chiave (italiano / inglese):Microarray data, Factor analysis, EM algorithm, Gibbs sampling, sparsity
Settori scientifico-disciplinari MIUR:Area 13 - Scienze economiche e statistiche > SECS-S/01 Statistica
Struttura di riferimento:Dipartimenti > Dipartimento di Scienze Statistiche
Codice ID:9344
Depositato il:18 Ott 2016 12:27
Simple Metadata
Full Metadata
EndNote Format

Download statistics

Solo per lo Staff dell Archivio: Modifica questo record