测序中的数学问题 李松岗 北京大学 2002/04/04
DESCRIPTION
测序中的数学问题 李松岗 北京大学 2002/04/04. 生物信息学是数据导向的科学, 大规模测序 是其最重要的数据来源之一. 大规模测序与实验室测序的不同. 实验室测序: 手工操作,效率低,结果是第一位的 大规模测序: 流水线操作,自动化 追求稳定、高效、低成本. 两种测序策略:. 基于 BAC 的方法: 先把基因组打碎成200-300 kb 的片段并制成 BAC 文库,再选择一些 BAC 进一步打碎成3 kb 左右的小片段,测序并拼接。 全基因组鸟枪法: 把基因组直接打碎成3 kb 左右的小片段,测序并拼接。. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/1.jpg)
测序中的数学问题
李松岗北京大学
2002/04/04
![Page 2: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/2.jpg)
生物信息学是数据导向的科学 , 大规模测序
是其最重要的数据来源之一
![Page 3: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/3.jpg)
大规模测序与实验室测序的不同
实验室测序: 手工操作,效率低,结果是第一位的
大规模测序: 流水线操作,自动化 追求稳定、高效、低成本
![Page 4: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/4.jpg)
两种测序策略:
基于 BAC 的方法: 先把基因组打碎成 200 - 300kb 的片段
并制成 BAC 文库,再选择一些 BAC 进一步打碎成 3kb 左右的小片段,测序并拼接。
全基因组鸟枪法: 把基因组直接打碎成 3kb 左右的小片段,
测序并拼接。
![Page 5: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/5.jpg)
基于 BAC 的方法
全基因组 DNA
随机打成大片段 选择并克隆
大片段排序,选择
再打碎,克隆,测序,拼接
![Page 6: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/6.jpg)
全基因组鸟枪法
基因组 DNA
随机打碎
测序并拼接
![Page 7: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/7.jpg)
近来测序技术的进展
从基于 BAC 的策略转向全基因组鸟枪法
毛细管自动测序仪的广泛使用
![Page 8: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/8.jpg)
![Page 9: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/9.jpg)
全基因组鸟枪法测序的拼接
困难:
数据量极大
大量重复序列造成拼接途径的不确定
![Page 10: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/10.jpg)
拼接软件的新需求
能充分利用正反向测序的配对信息 , 避免重复序列造成的错误拼接
能处理数以百万甚至千万计的数据 程序并行化 高效率比对 能逐步拼接
![Page 11: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/11.jpg)
水稻基因组拼接步骤 :采用数学模型识别重复序列 把重复序列屏蔽掉后,根据是否具有重叠部分进行分组采用大型计算机并行拼接恢复重复序列,延伸 contig构建 scanfold
![Page 12: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/12.jpg)
![Page 13: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/13.jpg)
识别重复序列的数学模型
))(
exp()(
)1()(
)1()()1(P
0
ki,1
))((
G
kNL
G
LC
G
L
G
LC
G
L
G
LCY
Y
kkN
kNG
L
L
Gkk
N
kNkkNik
ik
其它,个点的覆盖深度为第
![Page 14: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/14.jpg)
))(log()log(
)1(
))1(
exp()(
))(
exp()()()(
1
1
1
YENL
NLG
G
NLNLYE
G
kNL
G
LCGYEYE kkN
G
iikk
特别地,
![Page 15: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/15.jpg)
重复序列识别: 若 repeat 有 m 个拷贝,且已知随机序列覆盖深度为 0 ,
1 , 2…… 的概率: g0 , g1 , g2 ……, ,则一次抽样 repeat 覆盖深度为 0 , 1 , 2 ,……的概率 P0 ,P1 , P2 ……, 为:
110
103
12021
12
230
31
33
102
120
21
22
101
11
00
1
jj
mm
mm
mm
mm
mm
mm
m
PPPP
ggCgggCCggCP
ggCggCP
ggCP
gP
![Page 16: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/16.jpg)
n 次抽样,其中 i 次以上深度在 j 以上的概率 Pij
设一次抽样深度在 j 以上和以下的概率分别为: Pj -, Pj+ ;
111)1(
22223
1112
1 1
inj
ij
injiij
njjnjj
njjnjj
njj
PPCPP
PPCPP
PPCPP
PP
![Page 17: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/17.jpg)
n 次抽样,其中 i 次以上深度在 j 以上则认为是 repeat ,此时犯两类错误的概率 为:
设 repeat 在基因组中的比例为 b ,出现概率为 P ,非 repeat 出现概率为 P* ,则:
,
*)1(
1
ijij
ij
ij
PbPb
Pb
P
![Page 18: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/18.jpg)
![Page 19: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/19.jpg)
MDR (Mathematically-Defined Repeat) vs. BDRs (Biologically-Defined Repeats)
BDR’(~25%)
BDR(~50%?)
MDR(42.2%)
![Page 20: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/20.jpg)
![Page 21: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/21.jpg)
![Page 22: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/22.jpg)
![Page 23: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/23.jpg)
![Page 24: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/24.jpg)
![Page 25: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/25.jpg)
人与水稻基因组中重复序列分布的差别
![Page 26: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/26.jpg)
![Page 27: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/27.jpg)
Contigs:127,550 (N50=6,688 bp)
Scaffolds: 102,444(N50=11,764 bp)
Quality: 546 bp at Q20
![Page 28: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/28.jpg)
93-11 (indica)
basic shotgun dataest. genome size [Mb] 464number of reads 3,565,386 Q20 read lengths [bp] 546 shotgun coverage 4.2
exact 20-mer repeatsfraction masked, by size 42.2%fully-masked reads 18.7%
sequence assemblytotal contig size [Mb] 359N50 contig size [Kb] 6.69total scaffold size [Mb] 360N50 scaffold size [Kb] 11.76
un-assembled datafully-masked reads [Mb] 78ALL other reads [Mb] 26
![Page 29: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/29.jpg)
Numbers Tested Coverage
STS 2845 92.4%UniGene 23279 92.1%cDNA 907 90.8%
![Page 30: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/30.jpg)
Sequencegenerated Methodology cDNAs Mis-assemblies
Fly (D. melanogaster ) 120 Mb 13x whole-genome 1889 1.1%Thalecress (A. thaliana ) 115 Mb clone-by-clone 4804 0.2%Rice (O. sativa 93-11 ) 359 Mb 4.2x whole-genome 907 1.1%
![Page 31: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/31.jpg)
进一步工作的设想
新拼接程序步骤:
•利用覆盖深度模型纠正测序错误•采用严格比对快速确定所有可能的重叠•利用图论或线性代数方法完成拼接
![Page 32: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/32.jpg)
纠正测序错误
对 6X 左右鸟枪法测序数据,统计所有 20碱基长小片段出现次数;
对每一个 read ,顺序标出它的小片段出现次数;
若有连续一串 1 出现,则可能有测序错误存在,应进行纠正。
![Page 33: 测序中的数学问题 李松岗 北京大学 2002/04/04](https://reader035.vdocuments.mx/reader035/viewer/2022081415/568150e3550346895dbf0067/html5/thumbnails/33.jpg)
消除测序错误的好处:
可区分部分重复序列; 可采用严格比对的方法,提高计算速度; 有利于简化拼接算法; 有利于后期数据分析,例如 SNP 识别等。