Go to the content. | Move to the navigation | Go to the site search | Go to the menu | Contacts | Accessibility

| Create Account

Targon, Robin (2015) A novel method for the production of long DNA sequences from short reads. [Ph.D. thesis]

Full text disponibile come:

[img]
Preview
PDF Document
5Mb

Abstract (english)

Next Generation Sequencing (NGS) has deeply changed our way to study genome biology: in the last ten years an astonishing amount of evidence ranging from the transcriptome variability to the association patterns of specific proteins with DNA or RNA sequences were produced with this technology, thus opening the way to amazing discoveries and perspectives.
Unfortunately, the short length of the sequencing reads produced by second generation sequencers is limiting the potential of this technology. In particular some very interesting studies have been hampered by the short read length. High-quality long reads would permit much better approaches to full-length transcripts analysis, alternative splicing, RNA editing, de novo whole genome assembly, genomic structural variations and haplotype characterization.
The study that I conducted for my doctorate focused on the possibility to produce high-quality long reads using NGS technology. The first motivation behind the development of this project was to investigate full-length transcripts and in particular to verify the hypothesis whether the pattern of alternative splicing could be associated to transcription start sites. A further motivation was the application of this technology to de novo whole genome assembly.
Since at the instrumental level the limits of the read length is not amendable, I addressed my efforts towards the development of a method to reconstruct the sequence of long DNA or RNA molecules by precise local assembly of short reads produced by second generation sequencers.
The idea that I wanted to exploit is based on “molecular barcoding”. Typically, barcodes are short DNA sequence tags that are included in the adaptors and used for the preparation of NGS libraries. Barcodes make possible the association of each read to its corresponding library, allowing the analysis of multiple samples in the same sequencing run. In my project I used barcodes for a very different purpose. In fact, my objective was to label individual DNA or RNA molecules with univocal barcodes, to enable the identification of all the reads generated from the subfragments of each original molecule. For this purpose I used random barcodes, considering that reads with the same barcode would come from the same original DNA/RNA molecule. Therefore, in comparison to standard barcoding techniques, my approach has two main differences: firstly it is a single molecule barcoding, secondly the barcodes are made by random sequences.
A considerable part of my work was dedicated to the development of reliable genetic engineering strategies to obtain mate-pair libraries constituted on one side by the barcoded end and on the other side by a random region of the original DNA or RNA molecule. Every step of the protocol was carefully optimized in order to make the method simple and at the same time robust.
Several trials were performed to test the method. Although in these trials we limited the analysis to a low coverage, we found that mate pair reads sharing the same barcode were mostly mapping in clustered genomic positions, as expected. Our results, albeit preliminary, demonstrate that the method so far developed is capable to work.
Although some steps of the protocol could be further optimized, the method is now applied to produce long genomic reads with high coverage. Furthermore, some adaptations are now implemented to apply the method also to transcriptome samples.

Abstract (italian)

L'avvento dei sequenziatori di ultima generazione (NGS) ha profondamente cambiato il nostro approccio allo studio del genoma e dell'espressione genica: negli ultimi dieci anni è stata prodotta un'incredibile quantità di dati e di evidenze sperimentali riguardanti la complessità del trascrittoma e le interazioni tra specifiche proteine e molecole di DNA o RNA, aprendo così la strada ad entusiasmanti scoperte ed applicazioni tecnologiche.
Sfortunatamente, la ridotta lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione limita le potenzialità di questa tecnologia. Nello specifico, alcune interessanti applicazioni quali l'analisi degli splicing alternativi e dell'RNA-editing, l'assemblaggio di genomi ex novo, la caratterizzazione di aplotipi e l'identificazione di variazioni strutturali a livello genomico, beneficerebbero sicuramente di una tecnologia in grado di produrre lunghe sequenze ad alta qualità.
Lo studio che ho condotto durante il mio dottorato di ricerca è stato finalizzato alla produzione di lunghe sequenze ad alta qualità utilizzando gli attuali sequenziatori di seconda generazione. La principale motivazione che ha guidato questo studio è stata la volontà di caratterizzare a livello di sequenza nucleotidica le diverse isoforme trascrizionali in modo da poter verificare l'ipotesi di una relazione funzionale tra l'utilizzo di specifici siti d'inizio trascrizione e lo splicing alternativo degli esoni.
Un'ulteriore motivazione era rappresentata dalla possibilità di ottenere la sequenza di lunghi frammenti di DNA al fine di facilitare l'assemblaggio di genomi.
Non essendo possibile intervenire sulla lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione, ho sviluppato una strategia che permette di ottenere lunghe sequenze nucleotidiche mediante un preciso assemblaggio di sequenze corte derivanti da una singola molecola.
Questa strategia si basa sul concetto di “barcoding” molecolare. Un “barcode”, letteralmente “codice a barre”, è un corto frammento di DNA a sequenza nucleotidica nota che viene aggiunto a tutte le molecole di uno specifico campione. In questo modo è possibile sequenziare diversi campioni simultaneamente e associare ogni sequenza al proprio campione di provenienza semplicemente leggendo il “barcode” ad essa associato.
Nel mio progetto lo scopo e la natura dei “barcode” è differente: i “barcode” utilizzati hanno sequenza casuale, in moda da poter marcare ogni singola molecola del campione con una sequenza univoca. La presenza di un “barcode” univoco permette l'assegnazione delle sequenze prodotte alla molecola di origine e, quindi, il loro corretto assemblaggio.
Una parte considerevole di questo lavoro è stata dedicata allo sviluppo di strategie di ingegneria genetica che permettessero la costruzione di librerie “mate pair” in cui parte della sequenza fosse costituita dal “barcode”, mentre l'altra parte rappresentasse una porzione casuale della molecola di DNA o RNA di origine.
Ogni singolo passaggio del protocollo è stato ottimizzato al fine di rendere il metodo più semplice e robusto.
Diverse prove di sequenziamento sono state effettuate per poter valutare l'efficienza della metodica; sebbene l'analisi di queste prove sia stata condizionata dal basso “coverage” di sequenziamento, abbiamo dimostrato come le sequenze “mate pair” che condividono lo stesso “barcode” si allineino, come atteso, a livello della stessa posizione genomica. I risultati ottenuti, sebbene siano preliminari, dimostrano che il metodo sviluppato funziona.
Nonostante alcuni passaggi del protocollo richiedano un'ulteriore ottimizzazione, il metodo verrà a breve impiegato per la produzione di lunghe sequenze genomiche aumentando il “coverage” di sequenziamento. Nel prossimo futuro l'introduzione di alcune modifiche minori al protocollo permetterà di estendere il suo utilizzo all'analisi di trascrittomi.

Statistiche Download - Aggiungi a RefWorks
EPrint type:Ph.D. thesis
Tutor:Valle, Giorgio
Ph.D. course:Ciclo 27 > scuole 27 > BIOSCIENZE E BIOTECNOLOGIE > BIOTECNOLOGIE
Data di deposito della tesi:31 January 2015
Anno di Pubblicazione:31 January 2015
Key Words:Next Generation Sequencing, Long sequence, Genetic Engineering, Mate Pair sequencing, Molecular barcode
Settori scientifico-disciplinari MIUR:Area 05 - Scienze biologiche > BIO/11 Biologia molecolare
Struttura di riferimento:Dipartimenti > Dipartimento di Biologia
Centri > Centro di ricerca Interdipartimentale Biotecnologie Innovative (CRIBI)
Codice ID:7857
Depositato il:10 Nov 2015 11:28
Simple Metadata
Full Metadata
EndNote Format

Bibliografia

I riferimenti della bibliografia possono essere cercati con Cerca la citazione di AIRE, copiando il titolo dell'articolo (o del libro) e la rivista (se presente) nei campi appositi di "Cerca la Citazione di AIRE".
Le url contenute in alcuni riferimenti sono raggiungibili cliccando sul link alla fine della citazione (Vai!) e tramite Google (Ricerca con Google). Il risultato dipende dalla formattazione della citazione.

Anderson, S. (1981). Shotgun DNA sequencing using cloned DNase I-generated fragments. Nucleic Acids Research, 9(13), 3015–3027. Cerca con Google

Brody, Y., Neufeld, N., Bieberstein, N., Causse, S. Z., Böhnlein, E. M., Neugebauer, K. M., … Shav-Tal, Y. (2011). The in vivo kinetics of RNA polymerase II elongation during co-transcriptional splicing. PLoS Biology, 9(1). doi:10.1371/journal.pbio.1000573 Cerca con Google

Cahill, M. J., Köser, C. U., Ross, N. E., & Archer, J. A. C. (2010). Read length and repeat resolution: Exploring prokaryote genomes using next-generation sequencing technologies. PLoS ONE, 5(7). Cerca con Google

Chin, C.-S., Alexander, D. H., Marks, P., Klammer, A. a, Drake, J., Heiner, C., … Korlach, J. (2013). Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nature Methods, 10(6), 563–9. Retrieved from http://www.ncbi.nlm.nih.gov/pubmed/23644548 Vai! Cerca con Google

Clarke, J., Wu, H., Jayasinghe, L., Patel, A., Reid, S., & Bayley, H. (2009). nanopore DNA sequencing. Nat. Nanotechnol., 4(4), 265–70. doi:10.1038/NNANO.2009.12 Cerca con Google

Cramer, P., Cáceres, J. F., Cazalla, D., Kadener, S., Muro, A. F., Baralle, F. E., & Kornblihtt, A. R. (1999). Coupling of transcription with alternative splicing: RNA pol II promoters modulate SF2/ASF and 9G8 effects on an exonic splicing enhancer. Molecular Cell, 4, 251–258. doi:10.1016/S1097-2765(00)80372-X Cerca con Google

De Hoon, M., & Hayashizaki, Y. (2008). Deep cap analysis gene expression (CAGE): Genome-wide identification of promoters, quantification of their expression, and network inference. BioTechniques. Cerca con Google

Eid, J., Fehr, A., Gray, J., Luong, K., Lyle, J., Otto, G., … Turner, S. (2009). Real-time DNA sequencing from single polymerase molecules. Science (New York, N.Y.), 323(5910), 133–138. Cerca con Google

Frank Diehl, Meng Li, Yiping He, Kenneth W Kinzler, B. V. & D. D. (2006). BEAMing: single-molecule PCR on microparticles in water-in-oil emulsions. Nature Methods, 3, 551–559. Cerca con Google

Gerstein, M. B., Bruce, C., Rozowsky, J. S., Zheng, D., Du, J., Korbel, J. O., … Snyder, M. (2007). What is a gene, post-ENCODE? History and updated definition. Genome Research, 17, 669–681. doi:10.1101/gr.6339607 Cerca con Google

Grabherr, M. G., Haas, B. J., Yassour, M., Levin, J. Z., Thompson, D. A., Amit, I., … Regev, A. (2011). Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology, 29(7), 644–652. Cerca con Google

Gupta, P. K. (2008). Single-molecule DNA sequencing technologies for future genomics research. Trends in Biotechnology. Cerca con Google

Howorka, S., Cheley, S., & Bayley, H. (2001). Sequence-specific detection of individual DNA strands using engineered nanopores. Nature Biotechnology, 19(7), 636–639. Cerca con Google

Huddleston, J., Ranade, S., Malig, M., Antonacci, F., Chaisson, M., Hon, L., … Eichler, E. E. (2014). Reconstructing complex regions of genomes using long-read sequencing technology. Genome Research, 24(4), 688–696. Cerca con Google

Ip, J. Y., Schmidt, D., Pan, Q., Ramani, A. K., Fraser, A. G., Odom, D. T., & Blencowe, B. J. (2011). Global impact of RNA polymerase II elongation inhibition on alternative splicing regulation Global impact of RNA polymerase II elongation inhibition on alternative splicing regulation, (416), 390–401. doi:10.1101/gr.111070.110 Cerca con Google

Katz, Y., Wang, E. T., Airoldi, E. M., & Burge, C. B. (2010). Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods, 7(12), 1009–1015. Cerca con Google

Kawashima, T., Douglass, S., Gabunilas, J., Pellegrini, M., & Chanfreau, G. F. (2014). Widespread Use of Non-productive Alternative Splice Sites in Saccharomyces cerevisiae. PLoS Genetics, 10(4). doi:10.1371/journal.pgen.1004249 Cerca con Google

Khan, Z., Poetter, K., & Park, D. J. (2008). Enhanced solid phase PCR: mechanisms to increase priming by solid support primers. Analytical Biochemistry, 375, 391–393. doi:10.1016/j.ab.2008.01.021 Cerca con Google

Kivioja, T., Vähärautio, A., Karlsson, K., Bonke, M., Enge, M., Linnarsson, S., & Taipale, J. (2011). Counting absolute numbers of molecules using unique molecular identifiers. Nature Methods, 9(1), 72–74. doi:10.1038/nmeth.1778 Cerca con Google

Koren, S., Harhay, G. P., Smith, T. P. L., Bono, J. L., Harhay, D. M., Mcvey, S. D., … Phillippy, A. M. (2013). Reducing assembly complexity of microbial genomes with single-molecule sequencing. Genome Biology, 14(9), R101. Retrieved from http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=4053942&tool=pmcentrez&rendertype=abstract Vai! Cerca con Google

Koren, S., Schatz, M. C., Walenz, B. P., Martin, J., Howard, J. T., Ganapathy, G., … Phillippy, A. M. (2012). Hybrid error correction and de novo assembly of single-molecule sequencing reads. Nature Biotechnology. Cerca con Google

Li, H., & Durbin, R. (2009). Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 25(14), 1754–1760. Cerca con Google

Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., … Durbin, R. (2009). The Sequence Alignment/Map format and SAMtools. Bioinformatics, 25(16), 2078–2079. Cerca con Google

Li, J. J., Jiang, C.-R., Brown, J. B., Huang, H., & Bickel, P. J. (2011). Sparse linear modeling of next-generation mRNA sequencing (RNA-Seq) data for isoform discovery and abundance estimation. Proceedings of the National Academy of Sciences. Cerca con Google

Luco, R., Pan, Q., & Tominaga, K. (2010). Regulation of alternative splicing by histone modifications. Science, 327(5968), 996–1000. doi:10.1126/science.1184208.Regulation Cerca con Google

Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008). Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature Methods, 5(7), 621–628. Cerca con Google

Nielsen, K. L., Høgh, A. L., & Emmersen, J. (2006). DeepSAGE - Digital transcriptomics with high sensitivity, simple experimental protocol and multiplexing of samples. Nucleic Acids Research, 34(19). Cerca con Google

Park, P. J. (2009). ChIP-seq: advantages and challenges of a maturing technology. Nature Reviews. Genetics, 10(10), 669–680. Cerca con Google

Peng, Z., Cheng, Y., Tan, B. C.-M., Kang, L., Tian, Z., Zhu, Y., … Wang, J. (2012). Comprehensive analysis of RNA-Seq data reveals extensive RNA editing in a human transcriptome. Nature Biotechnology. Cerca con Google

Pesole, G. (2008). What is a gene? An updated operational definition. Gene, 417, 1–4. doi:10.1016/j.gene.2008.03.010 Cerca con Google

Peters, B. A., Kermani, B. G., Sparks, A. B., Alferov, O., Hong, P., Alexeev, A., … Drmanac, R. (2012). Accurate whole-genome sequencing and haplotyping from 10 to 20 human cells. Nature. Cerca con Google

Rothberg, J. M., & Leamon, J. H. (2008). The development and impact of 454 sequencing. Nature Biotechnology, 26(10), 1117–1124. Cerca con Google

Sanders, R., Huggett, J. F., Bushell, C. A., Cowen, S., Scott, D. J., & Foy, C. A. (2011). Evaluation of digital PCR for absolute DNA quantification. Analytical Chemistry, 83(17), 6474–6484. Cerca con Google

Shendure, J., & Ji, H. (2008). Next-generation DNA sequencing. Nature Biotechnology, 26(10), 1135–1145. Cerca con Google

Shoemaker, D. D., Lashkari, D. a, Morris, D., Mittmann, M., & Davis, R. W. (1996). Quantitative phenotypic analysis of yeast deletion mutants using a highly parallel molecular bar-coding strategy. Nature Genetics, 14, 450–456. doi:10.1038/ng1296-450 Cerca con Google

Sykes, P. J., Neoh, S. H., Brisco, M. J., Hughes, E., Condon, J., & Morley, A. A. (1992). Quantitation of targets for PCR by use of limiting dilution. BioTechniques, 13(3), 444–449. Cerca con Google

Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: Discovering splice junctions with RNA-Seq. Bioinformatics, 25(9), 1105–1111. Cerca con Google

Utturkar, S. M., Klingeman, D. M., Land, M. L., Schadt, C. W., Doktycz, M. J., Pelletier, D. a, & Brown, S. D. (2014). Evaluation and validation of de novo and hybrid assembly techniques to derive high-quality genome sequences. Bioinformatics (Oxford, England), 1–8. Retrieved from http://www.ncbi.nlm.nih.gov/pubmed/24930142 Vai! Cerca con Google

Van Heesch, S., Kloosterman, W. P., Lansu, N., Ruzius, F.-P., Levandowsky, E., Lee, C. C., … Cuppen, E. (2013). Improving mammalian genome scaffolding using large insert mate-pair next-generation sequencing. BMC Genomics, 14, 257. Retrieved from http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3648348&tool=pmcentrez&rendertype=abstract Vai! Cerca con Google

Waldbieser, G. (2013). Production of long (1.5 kb–15.0 kb), accurate, dna sequencing reads using an illumina hiseq2000 to support de novo assembly of the blue catfish genome. In Plant and Animal Genome XXI Conference. Cerca con Google

Wang, R. Y., Shi, Z. Y., Guo, Y. Y., Chen, J. C., & Chen, G. Q. (2013). DNA Fragments Assembly Based on Nicking Enzyme System. PLoS ONE, 8(3). Cerca con Google

Whale, A. S., Huggett, J. F., Cowen, S., Speirs, V., Shaw, J., Ellison, S., … Scott, D. J. (2012). Comparison of microfluidic digital PCR and conventional quantitative PCR for measuring copy number variation. Nucleic Acids Research, 40(11). Cerca con Google

Williams, R., Peisajovich, S. G., Miller, O. J., Magdassi, S., Tawfik, D. S., & Griffiths, A. D. (2006). Amplification of complex gene libraries by emulsion PCR. Nature Methods, 3(7), 545–550. doi:10.1038/nmeth896 Cerca con Google

Wood, A. J., Schulz, R., Woodfine, K., Koltowska, K., Beechey, C. V., Peters, J., … Oakey, R. J. (2008). Regulation of alternative polyadenylation by genomic imprinting. Genes and Development, 22, 1141–1146. doi:10.1101/gad.473408 Cerca con Google

Xin, D., Hu, L., & Kong, X. (2008). Alternative promoters influence alternative splicing at the genomic level. PLoS ONE, 3(6), 1–8. doi:10.1371/journal.pone.0002377 Cerca con Google

Zhang, W., Chen, J., Yang, Y., Tang, Y., Shang, J., & Shen, B. (2011). A practical comparison of De Novo genome assembly software tools for next-generation sequencing technologies. PLoS ONE, 6(3). Cerca con Google

Download statistics

Solo per lo Staff dell Archivio: Modifica questo record