bio for matic

42
1 n to SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX

Upload: thien-nguyen

Post on 12-Dec-2014

122 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Bio for Matic

1

n to

SO SÁNH CÁC TRÌNH TỰ SINH

HỌC BẰNG BLAST VÀ CLUTALX

Page 2: Bio for Matic

Mục tiêu của bài học Nắm được những nguyên tắc so sánh các trình tự

sinh học

Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ…) với trình tự yêu cầu.

Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng,…

Tìm kiếm trình tự sinh học 2

Page 3: Bio for Matic

Bắt cặp trình tự Sắp xếp thẳng hàng trình tự là phương pháp sắp

xếp hai hoặc nhiều trình tự nhằm đạt được sự giống nhau tối đa.

Các trình tự này có thể được xen bằng các khoảng trống (thường được diễn tả bằng các gạch nối ngang) tại các vị trí có thể để làm sao tạo thành các cột giống nhau (identical) hoặc tương tự nhau (similar).

tcctctgcctctgccatcat---caaccccaaagt

|||| ||| ||||| ||||| ||||||||||||

tcctgtgcatctgcaatcatgggcaaccccaaagt

Giới thiệu môn học 3

Page 4: Bio for Matic

Phương pháp này thường được dùng để nghiên cứu sự tiến hóa của các trình tự từ một tổ tiên chung, đặc biệt là các trình tự sinh học như trình tự protein hoặc trình tự DNA.

Các bắt cặp không đúng trong trình tự tương ứng với các đột biến và các khoảng trống tương ứng với phần thêm vào hoặc xóa đi.

Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá trình tạo ra sự sắp xếp này hay tìm ra các cách sắp xếp tốt nhất trong cơ sở dữ liệu gồm các trình tự riêng biệt.

Giới thiệu môn học 4

Page 5: Bio for Matic

Sắp gióng cột đôi một (Pairwise alignment) Sắp gióng cột đôi một là phương pháp phục vụ cho

việc tìm kiếm một trình tự sắp gióng cột toàn bộ hay (cục bộ) mà trùng khớp nhất của các chuỗi protein (amino acid) hay DNA (nucleic acid).

Thông thường, mục đích của nó là tìm ra (mối quan hệ) đồng đẳng của một gene hay một sản phẩm-gen trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn. Thông tin này là hữu ích để trả lời một loạt các câu hỏi sinh học khác nhau.

Giới thiệu môn học 5

Page 6: Bio for Matic

Ứng dụng Một vài ví dụ về những câu hỏi mà các nhà nghiên

cứu dùng BLAST để tìm câu trả lời. Chủng loại vi khuẩn nào có các protein có liên hệ về

giống loài với một loại protein khác mà có chuỗi amino-acid mà ta đã biết không?.

Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu? Có gen nào khác dùng để mã hóa các protein có cấu

trúc hay dáng dấp gần với cái mà ta vừa xác định không?.

BLAST còn được dùng kết hợp với các giải thuật khác có đòi hỏi sự so trùng chuỗi gần đúng.

Giới thiệu môn học 6

Page 7: Bio for Matic

Blast BLAST là một giải thuật để so sánh các chuỗi sinh

học, như các chuỗi của các protein hay của các chuỗi DNA khác nhau.

Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?.

Giới thiệu môn học 7

Page 8: Bio for Matic

Nguyên tắc trong blast

Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được.

Giới thiệu môn học 8

Thu thập và lựa chọn trình tự (protein hay DNA, RNA)

BlastPhân tích kết

quả blast

Page 9: Bio for Matic

Thuật toán blast Thuật toán của BLAST có 2 phần, một phần tìm kiếm

và một phần đánh giá thống kê dựa trên kết quả tìm được.

Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi là [Bit-Score]. Giá trị càng cao chứng tỏ khả năng tương tự của các bắt cặp càng cao.

Ngoài ra BLAST tính toán một giá trị trông đợi E-Score (Expect-Score) phụ thuộc vào Bit-Score.

Giới thiệu môn học 9

Page 10: Bio for Matic

Giá trị xác xuất trong blast

Giới thiệu môn học 10

Page 11: Bio for Matic

Các bước tìm kiếm trong blast

Giới thiệu môn học 11

Minimum Score (S)

Neighborhood Score Threshold (T)

Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao

Những chuỗi con nào có số điểm lớn hơn một giá trị ngưỡng T (threshold value) thì được gọi là tìm thấy và được BLAST gọi là Hits

Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1

Page 12: Bio for Matic

Mở rộng so sánh các trình tự Bước 3: Cuối cùng BLAST mở rộng những cặp Hits

đã tìm được theo cả hai chiều và đồng thời đánh số điểm.

Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa.

Giới thiệu môn học 12

KENFDKARFSGTWYAMAKKDPEG 50 RBP (query)

MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)

Hit!Mở rộngMở rộng

Page 13: Bio for Matic

Những chuỗi con nucleotide trong blast

Giới thiệu môn học 13

Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM.

Page 14: Bio for Matic

Protein words

Giới thiệu môn học 14

Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM.

Page 15: Bio for Matic

Cách tính điểm

Phương pháp chung: Terminal mismatches (0) Bắt cặp nhau score (1) Mismatch penalty (-3) Gap penalty (-1) Gap extension penalty (-1)

DNA Defaults

Page 16: Bio for Matic

Cách tính điểm số DNA

GGGGGGAGAA

|||||*|*|| 8(1)+2(-3)=22GGGGGAAAAAGGGGG

GGGGGGAGAA--GGG

|||||*|*|| ||| 11(1)+2(-3)+1(-1)+1(-1)=33GGGGGAAAAAGGGGG

Page 17: Bio for Matic

So sánh các đặc tính di truyền của các loài

Page 18: Bio for Matic

Bò và Cá (DNA) 32 .ACAGGACATTTTACTACTCTGCAGATAATGGCTGACTTTGACATGGTAC 80 | | | | | | || | | || | | |||| | 51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100 . . . . . 81 TGAAGTGCTGGGGTCCAATGGAGGCGGACCACGCAACCCACGGGAGTCTG 130 |||| |||||| ||||||| || |||| ||| ||| | 101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150 . . . . . 131 GTGCTGACCCGTTTATTCACAGAGCACCCAGAAACCCTAAAGTTATTCCC 180 || || | | | | ||||||| || || || ||||| || ||| 151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200 . . . . . 181 CAAGTTTGCTGGC...ATCGCCCATGGGGACCTGGCCGGGGATGCAGGTG 227 |||||| | | | | | || || | | | 201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250

48% similarity

Page 19: Bio for Matic

Bò và Heo 1 CAGCTGTCGGAGACAGACACCCAGTCAGTCCCGCCCTTGTTCTTTTTCTC 50 | ||| ||| || | ||||| |||| ||| |||||| 1 .......CAGAGCCAGGACACCCAGTACGCCCGCACTTGCTCTGTTTCTC 43 . . . . . 51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100 |||| ||||||| |||||||||||||||||||||||||||||| |||||| 44 TTCTGCAGACTGTGCCATGGGGCTCAGCGACGGGGAATGGCAGCTGGTGC 93 . . . . . 101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150 |||| | ||||||||||||||||||||||||||||||||||||||||||| 94 TGAACGTCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 143 . . . . . 151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200 ||||||||||||||||| | ||||| ||||||||||||||||||||||| 144 GTCCTCATCAGGCTCTTTAAGGGTCACCCCGAGACCCTGGAGAAATTTGA 193 . . . . . 201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250 |||||| |||||||||||| |||||| ||||||||||||||| ||||||| 194 CAAGTTTAAGCACCTGAAGTCAGAGGATGAGATGAAGGCCTCTGAGGACC 243

80% giống nhau (88% at aa!)

Page 20: Bio for Matic

20

Các biến thể của blast

Program query Database 1

blastn DNA DNA 1

blastp protein protein 6

blastx DNA protein

Page 21: Bio for Matic

Blastn

Giới thiệu môn học 21

Megablast Discontiguous megablast

Page 22: Bio for Matic

So sánh trình tự Nhập vào với trình tự cơ sở dữ liệu

Giới thiệu môn học 22

Page 23: Bio for Matic

Giới thiệu môn học 23

Megablast

Large numbers of query sequences (megablast): Khi so sánh một số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần.

Page 24: Bio for Matic

Protein-protein BLAST Chương trình này, khi đưa vào một protein truy vấn,

sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định.

Blastp PSI-blast PHI-blast

Giới thiệu môn học 24

Page 25: Bio for Matic

Kết quả

Giới thiệu môn học 25

PSI-BlastPHI-Blast

Page 26: Bio for Matic

PSI blast Iteration 1

Giới thiệu môn học 26

Page 27: Bio for Matic

Chứa đựng những vùng protein-PSI blast

Giới thiệu môn học 27

Một trong những chương trình BLAST mới nhất, chương trình này dùng để tìm kiếm các mối quan hệ xa (distant relative) của một protein.

Page 28: Bio for Matic

Kết quả

Giới thiệu môn học 28

Page 29: Bio for Matic

Kết quả

Giới thiệu môn học 29

Page 30: Bio for Matic

Blastx

Giới thiệu môn học 30

Page 31: Bio for Matic

Kết quả

Giới thiệu môn học 31

Blastx dịch mã protein từ trình tự DNA nhập vào

Page 32: Bio for Matic

So sánh hai trình tự bằng blast

Giới thiệu môn học 32

Page 33: Bio for Matic

So sánh H5N1 và streptococus

Giới thiệu môn học 33

Load trình tự 1

Load trình tự 2

Nhấn thẻ

Page 34: Bio for Matic

Kết quả bảng đồ so sánh hai trình tự

Giới thiệu môn học 34

Page 35: Bio for Matic

Kết quả so sánh H5N1 và Streptococus

Giới thiệu môn học 35

Page 36: Bio for Matic

Phần mềm Clutalx Clustalx là một phần mềm (giao diện window) dùng

cho việc so sánh sự tương đồng của hai hay nhiều trình tự sinh học.

Clustalx mô tả kết quả bằng hệ thống màu sắc và các ký hiệu nổi bậc những nét đặc trưng trong những đoạn tương đồng.

ClustaX ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein

Giới thiệu môn học 36

Page 37: Bio for Matic

Nguyên tắc Clustalx Thu nhận và lựa chọn tập trình tự (protein hay DNA,

RNA)

Nhập các trình tự sinh học vào Clustalx

Phân tích kết quả sắp giống cột

Giới thiệu môn học 37

Page 38: Bio for Matic

Thu thập và lựa chọn tập trình tự Trước khi thực hiện việc gióng cột, phải lựa một cách

cẩn thận tập trình tự mà cần giống cột. Những trình tự này thuộc cùng một protein, DNA hay

RNA và cùng tổ tiên Tùy thuộc vào mục đích xây dựng sắp gióng cột thì ta

chọn ra một số trình tự để phân tích bằng ClustalX

Ví dụ: Để phát hiện đột biến thì ta phải tìm trình tự gen của chủng hoang dại và các trình tự của gen của các chủng được cho là đột biến

Nếu muốn tìm vùng bảo tồn thì ta phải thu thập các trình tự gen cùng một họ protease A, gen độc tố LT

Giới thiệu môn học 38

Page 39: Bio for Matic

Sắp giống cột bằng Clustalx

Giới thiệu môn học 39

Page 40: Bio for Matic

Giới thiệu môn học 40

Page 41: Bio for Matic

Bài tập

1. Thực hiện sắp giống cột các trình tự protein HSP70 ở một số loài vi khuẩn

2. Thu thập và chọn lọc tập trình tự gen quan tâm, ( ví dụ gen C-prM ở virus Dengue, gây đột huyết ở người

3. Chọn vùng bảo tồn nhất trong tập trình tự được sắp giống cột.

4. Đoạn bảo tồn được chọn làm trình tự đích để nhân bản bằng phần mềm thiết kế mồi PDA

Giới thiệu môn học 41

Page 42: Bio for Matic

Tin sinh học trả lời mối quan hệ họ hàng http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/

tut1.html

Giới thiệu môn học 42