boas práticas no usos de folhas de cálculo...8. não incluir cálculos nas tabelas de dados de...

19
Boas práticas no usos de folhas de cálculo Curso de formação: Publicação de dados de biodiversidade através do GBIF Rui Figueira [email protected] Nó Português do GBIF, Instituto Superior de Agronomia, Universidade de Lisboa

Upload: others

Post on 25-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Boas práticas no usos de folhas de cálculo

Curso de formação:

Publicação de dados de biodiversidade através do GBIF

Rui Figueira

[email protected]

Nó Português do GBIF, Instituto Superior de Agronomia, Universidade de Lisboa

Page 2: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

FOLHAS DE CÁLCULO

Photo by Mika Baumeister on Unsplash

As folhas de cálculo são, inevitavelmente, uma das ferramentas mais usadas pelos investigadores e utilizadores de software

Microsoft Excel OpenOffice Calc LibreOffice Calc

Page 3: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

FACTOS SOBRE AS FOLHAS DE CÁLCULO

Numa avaliação recente sobre folhas de cálculo reais, 88% de 113 tabelas continham erros(1)

A preparação dos dados para análise pode consumir 60 a 80% do total do tempo de um trabalho de data mining(2)

Numa avaliação recente sobre folhas de cálculo reais, 88% de 113 tabelas continham erros(1)

A preparação dos dados para análise pode consumir 60 a 80% do total do tempo de um trabalho de data mining(2)

(1) Panko, Raymond R.1998 What We Know About Spreadsheet Errors. Journal of Organizational and End User Computing (JOEUC) 10(2): 15–

21. https://www.igi-global.com/article/know-spreadsheet-errors/55750, accessed May 7, 2019.

(2) Jermyn, Paul, Maurice Dixon, and Brian J Read 1999 Preparing Clean Views of Data for Data Mining. ERCIM Work. on Database Res: 1–15.

Photo by Nick Hillier on Unsplash

Page 4: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

Folha de Cálculo

Base de dados

Benefício

● maior consistência● maior performance● integridade dos dados

1Dados normalizados

● mais intuitivo● facilidade na análise dos dados 2

Facilidade de criação

● multi-utilizador● escrita dos dados● armazenamento

3Segurança

BASE DE DADOS VS FOLHA DE CÁLCULO

Page 5: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

ERROS COMUNS NOS DADOS

● Formatos de data● Múltiplas formas de escrita de um

mesmo valor● Registos duplicados● Dados redundantes● Mudança de unidades● Representação de intervalos● Erros de escrita

● Formatos de data● Múltiplas formas de escrita de um

mesmo valor● Registos duplicados● Dados redundantes● Mudança de unidades● Representação de intervalos● Erros de escrita

Page 6: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

1. Ser consistente2. Usar bons nomes para as coisas3. Escrever datas como YYYY-MM-DD4. Sem células vazias5. Cada apenas uma coisa em cada célula6. Cria um rectângulo

1. Ser consistente2. Usar bons nomes para as coisas3. Escrever datas como YYYY-MM-DD4. Sem células vazias5. Cada apenas uma coisa em cada célula6. Cria um rectângulo

Karl W. Broman & Kara H. Woo (2018) Data Organization in Spreadsheets, The American Statistician, 72:1, 2-10, DOI: 10.1080/00031305.2017.1375989

7. Cria um dicionário de dados8. Não incluir cálculos nas tabelas de dados

de base9. Não usar cores como dados10. Fazer cópias de segurança11. Usar a validação de dados para evitar erros12. Gravar os dados em ficheiros de texto

7. Cria um dicionário de dados8. Não incluir cálculos nas tabelas de dados

de base9. Não usar cores como dados10. Fazer cópias de segurança11. Usar a validação de dados para evitar erros12. Gravar os dados em ficheiros de texto

Page 7: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

1. Ser consistente

● Usar códigos consistentes para categorias○ macho, machos, masculino, M

● Ser consistente na indicação de valores vazios○ recomenda usar um valor, p.e., “NA”. No entanto, este valor pode ser

confundido. Deve ser documentado em metadados

● Ser consistente nos ○ nomes de variáveis○ nomes dos indivíduos○ nomes dos ficheiros○ estrutura dos ficheiros○ formato de data○ notas

● espaços vazios são caracteres, e por isso implicam novos valores

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 8: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

2. Usar bons nomes para as coisas

● Não incluir espaços nos nomes das variáveis○ max_temp_C, maxTempC,

● Evitar caracteres especiais○ $, @, %, #, &, *, (, ), !, / - muitas vezes têm significado especial em

linguagens de programação

● Escolher nomes curtos, mas com significado○ prec_mmX precmm

● Não colocar “_final” no nome de um ficheiro○ Vai existir, quase de certeza, um “_final_ver2”!

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 9: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

2. Usar bons nomes para as coisas

● Não incluir espaços nos nomes das variáveis○ max_temp_C, maxTempC,

● Evitar caracteres especiais○ $, @, %, #, &, *, (, ), !, / - muitas vezes têm significado especial em

linguagens de programação

● Escolher nomes curtos, mas com significado○ prec_mmX precmm

● Não colocar “_final” no nome de um ficheiro○ Vai existir, quase de certeza, um “_final_ver2”!

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 10: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

Page 11: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

3. Escrever datas como YYYY-MM-DD

● Usar o formato padrão ISO 8601 YYYY-MM-DD○ 10/10/19? ○ 10-12-98 pode significar 10 de Dez ou 12 de Out○ Oct-4 pode ser interpretado como o nome de um gene

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 12: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

4. Não deixar espaços vazios

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 13: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

4. Não deixar espaços vazios

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 14: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

5. Colocar apenas um tipo de dado em cada célula

6. Cria um rectângulo

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 15: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

7. Cria um dicionário / metadados

● Nome da variável, como no ficheiro de dados● Nome da variável, para usar em gráficos ou texto● Descrição da variável● Unidades● Valores máximos e mínimos

8. Não incluir cálculos nas tabelas de base

● Aumenta o risco de incluir erros inadvertidamente

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 16: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

9. Não usar a cor da fonte ou marcação com cores

10. Fazer cópias de segurança

● Em localizações diferentes● Guardar as versões do ficheiro● Usar um sistema de sincronização automática

● Não se pode filtrar● Mais tarde ou mais cedo, vai ser esquecido o seu significado● Usar uma coluna para assinalar o que se pretende: 1/0; Verdadeiro/Falso; Erro

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 17: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

11. Usar a validação dos dados para evitar erros

12. Guardar os ficheiros em formato de texto simples

● Guardar como csv garante compatibildide entre programas e sistemas operativos● Evita dependência de formatos ou programas proprietários

● Permite criar uma lista de controlo para a entrada de valores categóricos ou numéricos

BOAS PRÁTICAS NO USO DE FOLHAS DE CÁLCULO

Page 18: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Curso de formação: Publicação de dados de biodiversidade através do GBIF - OnlineAbril de 2020

Colecção de herbário da “Associação Portuguesa das Plantas Vasculares (APPV)”

Conjuntos de dados simulados

Colecção de herbário da “Associação Portuguesa das Plantas Vasculares (APPV)”

Conjunto de dados de observações de aves do “Observatório de Aves de Portugal (OAP)”

(https://drive.google.com/open?id=1xAsxc3oSKMJN3f7eq0V7unQS8Gxf3hf6)

(https://drive.google.com/open?id=1s61x-sPefwYrvaA_82CjAw1VidfxBdQs)

https://cutt.ly/etBmrgx

https://cutt.ly/ftBmoEq

Page 19: Boas práticas no usos de folhas de cálculo...8. Não incluir cálculos nas tabelas de dados de base 9. Não usar cores como dados 10.Fazer cópias de segurança 11.Usar a validação

Nó Português do GBIFInstituto Superior de AgronomiaHerbárioTapada da Ajuda1349-017 Lisboa, Portugal

Tel: (+351) 213653165email: [email protected]://www.gbif.pt

O Nó Português é acolhido no ISA com o apoio da FCT.

Esta apresentação é publicada segundo a licença CC-BY-SA

Obrigado pela atenção