tassel - trait analysis by association, evolution and linkage
TRANSCRIPT
1
TASSEL
Trait Analysis by aSSociation, Evolution and Linkage
2
Mapeamento por associação
● Software para o mapeamento por associação de traços (características) complexos [1].
3
Conceitos
● Mapeamento por associação– Método para mapear QTLs
● QLT (quantitative trait loci)– Expressão de caracteres fenotípicos
– Caracteres quantitativos● Vários genes● Distribuição contínua● Quantidades: peso, altura etc.
4
Estudo de associação
● Identificar associações entre o fenótipo e um ou mais marcadores genéticos
● Marcador genético– Diferenças entre indivíduos
– Detectar QTLs
– Exemplo: SNPs
5
SNPs
● Single Nucleotide Polymosphisms● Grande abundância
– A cada 300 ~ 600 nucleotídeos [2]
● Tecnologias de genotipagem● Mutações que se propagaram ao longo de
gerações
6
SNPs
8
TASSEL - Instalação
● Recomendável via git– https://git-scm.com/downloads
● Para copiar o projeto:– git clone <endereço da versão>
● Para atualizações:– git pull
9
TASSEL Pipeline
● Consiste em módulos (plugins)● Saída de um módulo pode ser utilizada como
entrada para outro módulo
10
Termos importantes
● Sequence File: arquivo texto com uma sequência de DNA e informações adicionais da plataforma Illumina.
● Taxa: amostra individual● Key File: arquivo texto usado para atribuir um
GBS Bar Code para uma Taxa● GBS Tag: sequência DNA
11
Arquivos de teste
● Download de arquivos de testes:– http://mirrors.iplantcollaborative.org/browse/iplan
t/home/shared/panzea/tassel/GBSTestData.tar● Pasta GBS
– Pipeline_Testing_key.txt → key file
12
Tassel GBS Pipeline
● 3 pipelines– Discovery Pipeline (genoma de referência)
● Vários passos
– Production Pipeline● Utiliza informação do Discovery Pipeline● Um passo
– UNEAK (sem um genoma de referência)
13
Estrutura de diretórios
● É necessária uma estrutura de diretórios– ./fastq
– ./tagCounts
– ./mergedTagCounts
– (…)
● Exemplo: o plugin FastqToTagCountPlugin redireciona sua saída para o diretório tagCounts.
14
Discovery Pipeline
● Genoma de referência● Na pasta GBS (arquivos de teste) possui um
genoma de referência:– ZmB73_RefGen_(...)
15
Discovery Pipeline
● Execução por linha de comando através de um script em Perl que se comunica com a aplicação Java
● Sintaxe:– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● TASSEL pode rodar vários processos de uma vez, combinar resultados etc.
16
TASSEL GBS Pipeline
● Sintaxe:– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● Em máquinas Windows sem o Perl instalado, pode-se utilizar o “run_pipeline.bat”
● Cada passo do pipeline é especificado com um comando “-fork” e um número
17
TASSEL GBS Pipeline
● Sintaxe:– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● O “fork” é seguido pelo nome do plugin e as opções do plugin.
● “-endPlugin” sinaliza o final das opções.● “-runfork1” executa o plugin especificado.
18
TASSEL GBS Pipeline
● Sintaxe:– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● Caso você chame o plugin sem argumento algum, então serão impressas suas opções/argumentos.
19
TASSEL GBS Pipeline
20
TASSEL GBS Pipeline
● Exemplos de argumentos para o plugin FastqToTagCountPlugin– -i → especifica o diretório de entrada contendo
arquivo FASTQ
– -e → especifica enzima utilizada na criação de uma biblioteca GBS (exemplo: ApeKI)
– -o → diretório de saída
21
TASSEL GBS Pipeline
● Exemplo de comando:– run_pipeline.pl -fork1 -FastToTagCountPlugin -i
fastq -k myGBSProject_key.txt -e ApeKI -o tagCounts -endPlugin -runfork1
● fastq → faz parte da estrutura de diretórios● -k → key file● -e → enzima de restrição (ApeKI)● -o → saída para o diretório tagCounts
22
TASSEL GBS Pipeline
● Exemplo comando com vários fork's
Run_pipeline.bat -fork1 –h mdp_genotype.hmp.txt -
filterAlign -filterAlignMinFreq 0.05 -fork2 -r
mdp_traits.txt -fork3 -q mdp_population_structure.txt -
excludeLastTrait -fork4 -k mdp_kinship.txt -combine5 -
input1 -input2 -input3 -intersect -combine6 -input5 -
input4 -mlm -export mlm_output_tutorial -runfork1 -
runfork2 -runfork3 -runfork4
23
Enzimas de restrição
● TASSEL-GBS pipeline não se limita às enzimas de restrição específicas usadas nos protocolos GBS.
● Novas enzimas podem ser adicionadas:– Basta solicitar no Google Group
– http://groups.google.com/group/tassel
24
TASSEL GBS Pipeline
● O default de memória é 1.5GB, caso tenha mais memória, é aconselhável aumentar a quantidade de memória editando o arquivo run_pipeline.pl
● Ou passando por argumento:– run_pipeline.pl -Xmx6g (...)
25
TASSEL GBS Pipeline
● O primeiro passo do pipeline requer pelo menos 6G.
● Recomendável 16G
26
TASSEL GBS Pipeline
● Muitos dos comandos produzem uma saída enorme no console
● Pode ser útil redirecionar a saída para um arquivo
● Utiliza-se o comando: | tee log.txt– run_pipeline.pl (…) | tee log.txt
27
Discovery Pipeline
28
TASSEL GBS Pipeline
● Alguns arquivos (exemplo: TagCounts) estão em formato binário.
● Para converter para um formato legível:– BinaryToTextPlugin
● Para arquivos de textos muito grandes:– Utilizar os comandos head e/ou tail
● head -10 meuArquivo.txt● Mostra as 10 primeiras linhas de meuArquivo.txt
29
GUI
30
Linha de comando
● Vantagens:– Pode ser usada a saída de um comando como
entrada de outro comando através de scripts
– Execução em servidor
– Consome menos recursos
31
Referências
● [1] http://bioinformatics.oxfordjournals.org/content/23/19/2633.full.pdf
● [2] http://www.lge.ibi.unicamp.br/lgeextensao2008/extsup/snps.pdf
● Wiki Tassel:– https://bitbucket.org/tasseladmin/tassel-5-source/wi
ki/Home