测序中的数学问题李松岗北京大学 2002/04/04

测序中的数学问题

李松岗北京大学

2002/04/04

生物信息学是数据导向的科学 , 大规模测序

是其最重要的数据来源之一

大规模测序与实验室测序的不同

实验室测序：手工操作，效率低，结果是第一位的

大规模测序：流水线操作，自动化追求稳定、高效、低成本

两种测序策略：

基于 BAC 的方法：先把基因组打碎成 200 － 300kb 的片段

并制成 BAC 文库，再选择一些 BAC 进一步打碎成 3kb 左右的小片段，测序并拼接。

全基因组鸟枪法：把基因组直接打碎成 3kb 左右的小片段，

测序并拼接。

基于 BAC 的方法

全基因组 DNA

随机打成大片段选择并克隆

大片段排序，选择

再打碎，克隆，测序，拼接

全基因组鸟枪法

基因组 DNA

随机打碎

测序并拼接

近来测序技术的进展

从基于 BAC 的策略转向全基因组鸟枪法

毛细管自动测序仪的广泛使用

全基因组鸟枪法测序的拼接

困难：

数据量极大

大量重复序列造成拼接途径的不确定

拼接软件的新需求

能充分利用正反向测序的配对信息 , 避免重复序列造成的错误拼接

能处理数以百万甚至千万计的数据程序并行化高效率比对能逐步拼接

水稻基因组拼接步骤 :采用数学模型识别重复序列把重复序列屏蔽掉后，根据是否具有重叠部分进行分组采用大型计算机并行拼接恢复重复序列，延伸 contig构建 scanfold

识别重复序列的数学模型

exp()(

)1()()1(P

kNkkNik

其它，个点的覆盖深度为第

))(log()log(

exp()(

exp()()()(

NLNLYE

LCGYEYE kkN

特别地，

重复序列识别：若 repeat 有 m 个拷贝，且已知随机序列覆盖深度为 0 ，

1 ， 2…… 的概率： g0 ， g1 ， g2 ……，，则一次抽样 repeat 覆盖深度为 0 ， 1 ， 2 ，……的概率 P0 ，P1 ， P2 ……，为：

ggCgggCCggCP

ggCggCP

n 次抽样，其中 i 次以上深度在 j 以上的概率 Pij

设一次抽样深度在 j 以上和以下的概率分别为： Pj －， Pj+ ；

111)1(

injiij

njjnjj

n 次抽样，其中 i 次以上深度在 j 以上则认为是 repeat ，此时犯两类错误的概率为：

设 repeat 在基因组中的比例为 b ，出现概率为 P ，非 repeat 出现概率为 P* ，则：

MDR (Mathematically-Defined Repeat) vs. BDRs (Biologically-Defined Repeats)

BDR’(~25%)

BDR(~50%?)

MDR(42.2%)

人与水稻基因组中重复序列分布的差别

Contigs:127,550 (N50=6,688 bp)

Scaffolds: 102,444(N50=11,764 bp)

Quality: 546 bp at Q20

93-11 (indica)

basic shotgun dataest. genome size [Mb] 464number of reads 3,565,386 Q20 read lengths [bp] 546 shotgun coverage 4.2

exact 20-mer repeatsfraction masked, by size 42.2%fully-masked reads 18.7%

sequence assemblytotal contig size [Mb] 359N50 contig size [Kb] 6.69total scaffold size [Mb] 360N50 scaffold size [Kb] 11.76

un-assembled datafully-masked reads [Mb] 78ALL other reads [Mb] 26

Numbers Tested Coverage

STS 2845 92.4%UniGene 23279 92.1%cDNA 907 90.8%

Sequencegenerated Methodology cDNAs Mis-assemblies

Fly (D. melanogaster ) 120 Mb 13x whole-genome 1889 1.1%Thalecress (A. thaliana ) 115 Mb clone-by-clone 4804 0.2%Rice (O. sativa 93-11 ) 359 Mb 4.2x whole-genome 907 1.1%

进一步工作的设想

新拼接程序步骤：

•利用覆盖深度模型纠正测序错误•采用严格比对快速确定所有可能的重叠•利用图论或线性代数方法完成拼接

纠正测序错误

对 6X 左右鸟枪法测序数据，统计所有 20碱基长小片段出现次数；

对每一个 read ，顺序标出它的小片段出现次数；

若有连续一串 1 出现，则可能有测序错误存在，应进行纠正。

消除测序错误的好处：

可区分部分重复序列；可采用严格比对的方法，提高计算速度；有利于简化拼接算法；有利于后期数据分析，例如 SNP 识别等。

测序中的数学问题李松岗北京大学 2002/04/04

Documents

中国电信网上大学系统升级三阶段培训...

大众学佛研究会-...

yangjiang.gdgpo.comyangjiang.gdgpo.com/.../2020/8/27/1598534824055_342280.docx ·...

lib.bgu.edu.cnlib.bgu.edu.cn/docs/20130401102922906803.docx ·...

现代服务业 - hubei...— 2 — 现代服务业序号...

深圳市教育局关于表彰首届“深圳学生...

澳大利亚卧龙岗大学及北风教育品质推出...

2019 年甘肃特岗学科冲刺秘籍...

周口师范学院实验员岗位培训

t opic 1 why all the smiling faces? 肇庆市黄岗中学...

附件1...

徐州工业职业技术学院2020年招生专业简介zsb.xzcit.cn/uploads/soft/200308/1-20030q50939.pdf ·...

第十三册第 5 单元向画家学构图 ...

山东艺术学院岗位设置与聘用实施方案rsc.sdca.edu.cn/2015gangweipinren.pdf ·...

高等职业学校骨干教师 erp...

二氧化碳制取的研究南岗中学刘楠

序号岗位编号报考岗位姓名性别出生日期...

序号岗位名称工作地点岗位描述任职要求 1...

李道岗小学刘喜英 stand up as quickly as you can!...

“ 北京市档案工作教育网 ”...

测序中的数学问题 李松岗 北京大学 2002/04/04

测序中的数学问题李松岗北京大学 2002/04/04