Laboratorium Genomika & Bioinformatika Memahami Urutan Genom Kuliah Umum BB Biogen 22 Januari 2013 Habib Rijzaani Laboratorium Genomika & Bioinformatika
"Life DOES come with instructions, read them." Manual Kehidupan "Life DOES come with instructions, read them." VisiGen on DNA Sequencing
Gen vs Genom
Gen vs Genom
Gen vs. Genom Gen: Genom: Genetika (genetics) 1 atau beberapa gen zoom-in Genom: Genomika (genomics) Banyak atau seluruh gen zoom-out
-om & -omika Genom (gen+kromosom, Prof. Hans Winkler, 1920), genomika (1980-an), -omika (1990-an) -om: obyek kajian, -omika: bidang kajian Arti: total atau keseluruhan genom+bioinformatika (2000-an): Genomika, metagenomika, transkriptomika, epigenomika, proteomika, metabolomika, nutrigenomika, farmakogenomika, toksikogenomika, glikomika, ekspresomika ... http://omics.org
-omika “Omika adalah istilah umum untuk sebuah bidang ilmu sains dan teknik yang mempelajari interaksi obyek informasi hayati dalam berbagai 'om'. [...] Fokus utamanya adalah: 1) pemetaan obyek informasi seperti gen, protein dan ligan; 2) menemukan jalinan interaksi antar obyek; 3) merekayasa jaringan dan obyek untuk memahami dan memanipulasi mekanisme pengaturan; dan 4) menggabungkan aneka -om dan sub-bidang -omika.” omics.org
Pengurutan Genom Gen. 1 Sanger, 1975 Berbasis kloning, PCR dan elektroforesis (gel/kapiler) 500-1000 pb
Metode Sanger
Sanger utk. Genom Shotgun sequencing Genom bakteri Haemophilus influenzae 1,830,137 pb 25.000 potongan (50K reads) Program bionformatika utk. merakit urutan genom utuh
Berjenjang Seluruh Genom Shotgun Sequencing Berjenjang Seluruh Genom Genom Bacaan acak Perakitan Rangka Urutan Genom
Pengurutan Genom: Gen. 2 2005 (30 tahun setelah Sanger)
Pengurutan Genom: Gen. 2 Next-generation sequencing (NGS) Tanpa kloning! Pemain (kimia) 454/Roche (pyrosequencing) Solexa/Illumina (reversible terminator) Solid/ABI (sequencing-by-ligation)
HiSeq2000
Illumina/Solexa sequencing Pemotongan genom Penambahan adapter Pustaka DNA genom Pembentukan gugus Perbanyakan potongan genom pada flow cell lewat PCR Solid-state cloning Pembacaan urutan
Penyiapan Pustaka Genom Pemotongan Genom Nebulizer (gas) Sonicator (suara) g-Tube (gaya sentrifugal) Transposon (enzim)
Penyortiran ukuran potongan Proses pembentukan gugus dan pembacaan DNA oleh mesin sekuenser hanya efektif pada panjang potongan DNA tertentu (100 – 500 pb)
Penempelan adapter Adapter untuk manipulasi dalam proses lanjutan Barcode, indeks Pemilihan ukuran & kuantifikasi Bioanalyzer, qPCR
cBOT Robot pembuat cluster (gugus)
Pembentukan Gugus Penempelan potongan DNA dari pustaka genom ke flow cell & perbanyakan molekul DNA membentuk gugus 1000-an molekul melalui PCR
Pembacaan urutan DNA Illumina: pengurutan melalui sintesis (sequencing-by-synthesis, SBS)
Pembacaan urutan DNA Bacaan 1: GCTGA Bacaan 2: AGCCG Siklus 1 Siklus 2 Siklus 3 Siklus 4 Siklus 5, ... 1 2 Bacaan 1: GCTGA Bacaan 2: AGCCG 1 lajur flow cell => 100- 200 juta gugus/bacaan
Pembacaan urutan DNA Single-end & Paired-end reads Bacaan ujung tunggal & ujung berpasangan
Pengurutan Genom: Gen. 3 Tanpa perbanyakan potongan DNA! Helicos Langsung dari 1 molekul DNA Nanoteknologi, semikonduktor, sensor plasma Helicos Ion Torrent Mendeteksi pelepasan proton saat penyisipan dNTP oleh polimerase Pacific Biosciences Single molecule real time (SMRT) sequencing
Helicos
Ion Torrent
Pac Bio
Perbandingan Sanger 800 nt ~80 kb Roche / 454 450 nt 0.5 Gb AB / SOLiD 2x 50 nt 60 Gb Illumina / Solexa 2x100 nt 300 Gb
Perbandingan AB/SOLiDv3, Illumina/GAII 100 Gb From John McPherson, OICR AB/SOLiDv3, Illumina/GAII short-read sequencers 100 Gb (10+Gb in 50-100 bp reads, >100M reads, 4-8 days) 10 Gb bases per machine run 1 Gb 454 GS FLX pyrosequencer (100-500 Mb in 100-400 bp reads, 0.5-1M reads, 5-10 hours) 100 Mb Very different types of data. Different run times. Different costs ABI capillary sequencer 10 Mb (0.04-0.08 Mb in 450-800 bp reads, 96 reads, 1-3 hours) 1 Mb 10 bp 100 bp 1,000 bp read length 29
Perakitan urutan genom Selayang pandang proses pembacaan seluruh genom dengan teknik shotgun. Reads Potongan DNA genom Contigs Scaffolds Pemetaan scaffolds Peta genom
Perakitan urutan genom Gambaran menyeluruh dari semua reads yang saling bersambung dan membentuk sebuah contig. Tampilan dekat: urutan basa dari contig yang terbentuk. Tampilan dekat: urutan basa dari tiap read (bacaan) dan posisinya dalam contig (sambungan).
Istilah Read (bacaan) Contig (sambungan) Scaffold (rangka) Gap (celah) Celah fisik dan celah urutan Coverage (liputan) Depth (kedalaman) Quality score (skor kualitas basa)
Coverage depth (dalamnya liputan) Coverage is the term used to quantify the extent to which a large assembly object is covered by instances of smaller objects. The three contexts in which coverage is most often discussed are read coverage of a genome, read coverage of a contig Ukuran genom 1 Mb Sekuensing: 1 juta bacaan, 100 pb Liputan: panjang total bacaan/ukuran genom (1 juta X 100 pb) / 1 juta pb = 100X
Panjang potongan genom: L jumlah bacaan: n panjang tiap bacaan: l Definisi: Coverage C = n l / L Berapa liputan yang cukup? Model Lander-Waterman: Dengan asumsi sebaran bacaan yang seragam, C=10 akan menghasilkan 1 celah per 1 juta nukelotida. 34
Q30 Skor kualitas basa Skala phred Q30: kemungkinan salah 1/1000 QV = - 10 * log10(Pe) Pe= kemungkinan salah. Q30: kemungkinan salah 1/1000 99.9% benar Phred Quality Perror(obs. base) 3 50.12% 5 31.62% 10 10.00% 15 3.16% 20 1.00% 25 0.32% 30 0.10% 35 0.03% 40 0.01%
Hasil pembacaan @HWI_0023:1:1:16103:1200 N:0:1 TTATGTGTTTATTACGTTNTTTG......AATGTTTA TTTACGGGTTATTTA + hhhhhhghhhhhhghdeeBee__......hfhhghhg hhghfffaehghhcX Berkas format Fastq Setiap basa memiliki kode skor kualitas
Distribusi skor kualitas basa
Harga Genom
Penerapan Pengurutan DNA, analisa pengaturan gen, analisa ekspresi RNA, penemuan SNP dan variasi DNA struktural, GWAS, analisa interaksi protein-DNA (Chip-Seq), analisa DNA metilasi, analisa small RNA, de novo metagenomika, metatranskriptomika, sekuensing amplikon,... Mesin sama, pendekataan berbeda dalam: Penyiapan sampel/pustaka genom Analisa data/bioinformatika
Genomika Fungsional Sekuen genom + Koleksi mutan Penyisipan T-DNA, penandaan transposon, mutagen kimiawi Profil ekspresi gen menyeluruh Microarray, EST, pustaka cDNA, transkriptom Sekuen genom lain Plasma nutfah terkait, spesies lain Anotasi Prediksi struktur dan fungsi gen (gene ontology), sekuen pengatur
Anotasi APA INI? >contig-1 GAAAGATCGCTGGTTACAACCGAATATACAGC CTCTAATCACTTTTTTTCTGCTCTGTAATCGT TCGCGGTTTCTGCGGCCATAAAATAAAGTAA ATCCGAGTTAAACGCTGATAGTCGCGCCTG AAGAACCACAGAAAAAACAGAAAATATCTCC CGTCGTTTCTCGTTCTCGTTTCCG APA INI?
Anotasi >gi|359806297Glycine max protein HEADING DATE 3A-like (LOC100815541) ATGGACCCTCTTGTCATTGGACGTGTAGTAGG AGATGTTTTGGAGCCTTTCACTAGTTGCGTC TCTCTTA FEATURES Location/Qualifiers source 1..522 /organism="Glycine max" /chromosome="18" gene 9..122 /note="protein HEADING DATE 3A-like"
Anotasi Memahami urutan genom Urutan genom (sambungan/rangka) Tingkat DNA: Dimana exon, intron, situs awal transkripsi, translasi, promoter, homologi Tingkat protein: Motif, domain, situs aktif, enzim Tingkat proses: Seluler, lokasi dalam sel, fungsi dalam sel, alur biokimia
Penerapan De novo Sequencing Targeted Resequencing Perakitan genom tanpa rujukan Draft vs. Finished Contig (sambungan) dan scaffold (rangka) yang panjang Chromosome Targeted Resequencing Fokus pada daerah tertentu: exon, motif, family Multiplex (sekali perunutan, banyak sampel)
Penerapan Epigenetika Metagenomika Metilasi DNA (ChipSeq) Modifikasi histon Kemudahan akses kromatin Metagenomika De novo sequencing sampel lingkungan Keragaman 16S DNA metatranskriptom
Contoh A complete reference genome sequence is indeed a valuable resource, but the key to crop improvement is finding and exploiting genetic variation. Urutan genom rujukan itu berharga, tetapi kunci pemuliaan tanaman adalah menemukan dan memanfaatkan variasi genetis
Contoh A map of rice genome variation reveals the origin of cultivated rice Nature. 2012 Oct 25;490(7421):497-501. Sequencing: 1529 genom padi: 446 Oryza rufipogon (paired-end, 2X coverage) 1083 Oryza sativa (paired-end, 1X coverage) 15 genom pembanding (outgroup, wild oryza 3X coverage) 1 O. Rufipogon (100X coverage, de novo), 1 outgroug (50X coverage)
Metode Pemetaan thd. genom rujukan GWAS Anotasi Identifikasi SNP Genetika populasi GWAS Populasi pemetaan, BIL & CSSL Asosiasi fenotipe Anotasi BLAST, prediksi model gen, lokasi SNP
Contoh Resequencing 50 accessions of cultivated and wild rice yields markers for identifying agronomically important genes Xun Xu, Susan McCouch et al nature biotechnology VOLUME 30 NUMBER 1 JANUARY 2012 Cultivar: 40 Japonica: 24 Indica: 12 Wild type: 10 Rufipogon: 5 Nivara: 5
Hasil Jutaan SNP teridentifikasi Menguak proses domestikasi padi: Japonica dan indica secara independen didomestikasi Japonica bernenek moyang O. Rufipogon dari China Penemuan gen Ribuan gen terseleksi selama proses domestikasi, mungkin penting secara agronomis Penemuan marka SNP untuk pemuliaan padi
Terima kasih