curso intro à ciência de dados com r - 1.1 - carga de dados
TRANSCRIPT
José Roberto Motta [email protected]/2016
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGOAMBIENTE
DE VARIÁVEIS
SAÍDA DO CONSOLE
GRÁFICOS, HELP,…
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGOAMBIENTE
DE VARIÁVEIS
SAÍDA DO CONSOLE
GRÁFICOS, HELP,…
Executacódigo marcado
ou linhaAtalho=Comm+enter (Mac)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fontes de dados para análises
• Google “free dataset for analysis”
• https://www.kaggle.com/datasets (competições diversas)
• http://www.ncdc.noaa.gov/data-access (largest provider of weather/climate data)
• http://bancodedados.cptec.inpe.br/downloadBDM/ (dados meteorológicos)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Primeiros conceitos
Exemplo de estruturade diretórios
…\IntroDSwithR 01.1- CargaDeDados.R 01.2- TratamentoDeDados.R ... \Lib
Fun.Div.R \data
\txt\Rdata\Original
\Slides
Use os seus diretórios
(dir.data)
(dir.src)
(dir.txt)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de CSVNa vida real os dados quase nunca vêm “prontos”
workspace
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – estrutura de um data.frame
Tipo do objeto
data.frame = tabela em BD (várias “colunas” de tipos diferentes)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados básicos (do mais forte ao mais fraco)
Forte
Fraco
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados estruturados: vector
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados básicos são vetores
Vetores de um elemento
Vetor de 50 elementosÍndice
do próximo elemento que é mostrado na tela
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: vetores e coerção de dados
PERIGO! NÃO GERA ERRO!!
EXECUÇÃO CONTINUA!!
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Conceito de “bind” – (amarrar, unir, linkar)Tabela T (matrix, DF ou
DT)
T <- cbind(DESCR, MEDIDA)
DESCRABC
MEDIDA99
10040
DESCRABC
MEDIDA99
10040
Dois vetores
ANO19681969
VALOR974
1000
INDICE23
CLASSEAUTO
MAN
ANO19701971
VALOR12002000
INDICE34
CLASSEAUTO
MAN
Tabela A
Tabela B
ANO19681969
VALOR974
1000
INDICE23
CLASSEAUTO
MAN19701971
12002000
34
AUTOMAN
Tabela C
C <- rbind(A, B) A
BCD
12
CUIDADO COM CICLAGEM!!
Elementos do vetor menor são repetidos!!
Só warning!
cbind(v1, v2)
v1 v2ABCD
1212
v1 v2
BIND DE COLUNAS
BIND DE LINHAS
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (1)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (2)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O objeto data.table
Medir tempo
Espaçoocupado
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O que são pacotes?
• R é melhorado de forma colaborativa• Pacotes são desenvolvidos e disponibilizados por cientistas do mundo
inteiro.• Pacotes = coleção de elementos (funções, tipos de dados, ...) que
otimizam as funções básicas do R• Ficam em https://cran.r-project.org/ • Como saber qual pacote usar?
• Google it!• http://stackoverflow.com/• https://www.r-bloggers.com/• http://www.statmethods.net/
• https://github.com/Rdatatable/data.table/wiki• https://www.datacamp.com/courses/data-analysis-the-data-table-way
sobredata.table
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de FWF (formatado com largura fixa)
File.info retorna um data.frame
Valores da coluna podem ser acessados via “$”
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de arquivo de formato livre
Separa dado “delimitado”
[[1]][1] "name” "Data Science”[[2]][1] "class" "IT" [[3]][1] "level” "beginner”[[4]][1] "url" [2] https:--www.dropbox.com-home-DataScience-Course- IntroToDSwithR[[5]][1] "keywords” "data analysis, statistics"
MATRIZ CONFIG
Função *apply (poderosas) Imprime
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
EXCEL - Download e leitura
Do pacote utils (pré-carregado)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (1)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (2) – Previsão do tempo pelo CPTEC
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
HTML - Download e leitura
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Outras interfaces com arquivos
• PACKAGE FOREIGN – dados de outras linguagens de programação • read.arff() # weka• read.dta() # Stata• read.mtp() # Minitab• read.octave()
• DADOS SEMI- ESTRUTURADOS: jsonlite, NetCDF • DATABASE: RPostressSQL, RODBC, RMongo, RMySQL• IMAGES: jpeg, readbimap, png, EBImage (Bioconductor)• GIS: rdgal, rgeos, raster• MUSIC: tuneR, seewave
Dados climáticos