biometria florestal

Upload: gracielamarques

Post on 06-Jul-2018

237 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/18/2019 BIOMETRIA FLORESTAL

    1/141

     

    INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIACOORDENAÇÃO DE PESQUISAS EM SILVICULTURA TROPICAL

    LABORATÓRIO DE MANEJO FLORESTAL - LMF

    BIOMETRIAFLORESTAL

    Niro HiguchiJoaquim dos Santos

    Adriano José Nogueira Lima

    Manaus – AMMarço, 2008

  • 8/18/2019 BIOMETRIA FLORESTAL

    2/141

     

    PARTE 1

  • 8/18/2019 BIOMETRIA FLORESTAL

    3/141

     

    Capítulo 1Introdução - Conceitos gerais

    A estatística é uma ferramenta importante para o manejo florestal, seja pra quem está

    interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar,executar e acompanhar um projeto. Difícil é separar a estatística pra essas duas frentes. Oobjetivo desta Parte da apostila é aprofundar em conceitos dos indicadores estatísticos maisfreqüentemente utilizados pelos florestais e ajudar na interpretação dos resultados.

    Estatística é um ramo do conhecimento científico que consta de conjunto de processosque têm por objeto a observação, a classificação formal e a análise dos fenômenos coletivosou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferênciasindutivas válidas a partir dos dados observados e buscar métodos capazes de permitir estainferência (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novoconceito para estatística que, segundo Edgard, é "a arte de torturar os números até que eles

    confessem aquilo que você quer ouvir."Em inventário florestal, produto sem estatística não é produto. Em inventários, o

     principal produto é o intervalo de confiança para a média estimada. Na pesquisa científica, aestatística pode ser vista como um instrumento de comunicação e, embora o seu uso sejaabsolutamente opcional, ela fornece os modelos que são necessários para estudar as situaçõesque envolvem incertezas, mas a palavra final é sua.

    O exercício, a análise e a interpretação do pensamento científico normalmente sãofeitos por meio da linguagem operacional dos conceitos e hipóteses científicas. Isso implicana formulação de hipóteses estatísticas e estabelecimento dos procedimentos de observaçõesdiretas ou de medições.

    Linguagem teórica: “quanto mais grossa é a árvore, mais madeira será oferecida àindústria de transformação.” Neste caso, dois conceitos são envolvidos: espessura e madeira.Com definir esses dois conceitos? Espessura pode ser o diâmetro de uma árvore. Madeira

     pode ser a quantidade de material lenhoso disponível para a indústria.

    E daí? Que fazemos agora? Temos que operacionalizar as observações e medições deespessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, emcentímetros de diâmetro à altura do peito (DAP), medido a 1,3 m do solo. E a madeira, porsua vez, pode ser traduzida como volume cúbico da árvore.

    Agora, a hipótese científica pode ser enunciada, em termos de hipótese estatística, daseguinte maneira: “Quanto maior o DAP, maior será o volume da árvore.” Dessa forma, o“pica-pau” fica mais à vontade.

    Depois de formulada a hipótese, o passo seguinte consiste em testá-la. Para se testar ashipóteses serão precisos: planejar a coleta de dados, coletar os dados, tratar os dados,

     processar os dados, analisar os resultados e, finalmente, tomar decisões para rejeitar ou não ahipótese estatística formulada (Ver figura 1.1).

    O papel da estatística na pesquisa científica é ajudar o pesquisador “pica-pau” aformular as hipóteses e a fixar as regras de decisão.

  • 8/18/2019 BIOMETRIA FLORESTAL

    4/141

    Um pouco de filosofia.

    - Aristóteles escreveu: “A verdade é um alvo tão grande que dificilmente alguémdeixará de tocá-lo, mas, ao mesmo tempo, ninguém será capaz de acertá-lo em cheio, num sótiro.”

    - A meta da ciência é a organização sistemática do conhecimento sobre o universo, baseado nos princípios explanatórios que são genuinamente testáveis.

    - O pesquisador tem os dons da instituição e criatividade para saber que o problema éimportante e quais questões devem ser levantadas; a estatística, por sua vez, o assistirá pormeio da maximização de output não ambíguos enquanto minimiza os inputs.

    - O pesquisador tem que ter em mente que a pesquisa freqüentemente levanta maisquestões do que respostas. Os resultados quase sempre são meramente uma demonstração denossa ignorância e uma declaração mais clara do que não sabemos.

    - O pesquisador tem que manter os olhos abertos, sua mente flexível e estar preparado para surpresas.

    - A pesquisa está na cabeça do pesquisador; o laboratório ou o campo meramenteconfirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais asquestões certas para fazer e não nas certas respostas.

    - A aplicação indiscriminada dos métodos quantitativos sobre inesgotáveisquantidades de dados não significa que o entendimento científico vai emergir só por causadisso.

    1.1. A Natureza da Estatística:

    Basicamente, são dois tipos de estatística: descritiva e de inferência.

    A ciência da estatística inclui ambas, descritiva e de inferência. A estatística descritivaapareceu primeiro, nos censos feitos na época do império romano. A de Inferência é maisrecente e é baseada na teoria da probabilidade que, por sua vez, não se estabeleceu antes dametade do século XVII.

    a) Estatística descritiva  => consiste de métodos para organizar e sumarizar asinformações.

    O propósito da organização e sumarização é te ajudar na interpretação de um monte deinformações. Os métodos descritivos incluem a construção de gráficos, figuras e tabelas,como também, o cálculo de vários tipos de médias e índices. Exemplos: resultado final de

    uma eleição apresentado pelo Tribunal Superior Eleitoral (TSE) – Quadro 1.1, desmatamentona Amazônia – Figura 1.2., áreas desmatadas com autorização e sem autorização – Figura 1.3e as origens da madeira amazônica – Figura 1.4.

     b) Estatística de inferência => consiste de métodos para inferir sobre uma população baseada na informação de uma amostra da população.

    A estatística de inferência moderna praticamente surgiu após as publicações científicasde Karl Pearson e Ronald Fisher, no início do século passado (XX). Depois disso, houve umaevolução fantástica dessa ciência, tornando-se aplicável a várias áreas de conhecimento, taiscomo: Eng. Florestal, Agronomia, Biologia, História, Física, Química, Psicologia etc.

    Exemplo 1: Pesquisas de opinião realizadas pelas empresas (DATAFOLHA, IBOPE,

    VOX POPULI etc), pouco antes de eleições. A Figura 1.5 mostra a dinâmica de opinião deeleitores brasileiros na eleição para presidente de 2002 com base em pesquisas de opiniãorealizadas pelo IBOPE. O resultado do 1º turno é apresentado na última coluna como TSE,

  • 8/18/2019 BIOMETRIA FLORESTAL

    5/141

    tirado do Quadro 1.1. Os resultados do IBOPE, do último dia de pesquisa (com margem deerro igual a 1,8%), são praticamente iguais aos oficiais do TSE. A informação do TSE é sobrevotos válidos enquanto que os da pesquisa de opinião são de intenção de votos. Na pesquisade opinião do 1º turno é difícil identificar o voto “nulo”.

    Exemplo 2:  Pesquisas de opinião sobre o 2º turno da eleição presidencial 2002,realizadas pelo Datafolha. Neste caso, foi possível estimar os percentuais sobre os votosválidos. No último dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos válidos

     para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinâmica de opinião de eleitores parao2º turno da eleição de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7%

     para o Serra – Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos),as estimativas do último dia seriam 62% (para menos) para o Lula e 38% (para mais) para oSerra.

    Esta parte da estatística de inferência evoluiu muito no Brasil. A prova disso são osresultados finais do primeiro e do segundo turno da eleição presidencial de 2002 que temmuito a ver com as previsões feitas pelas pesquisas de opinião dos vários institutos. O sucesso

    tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta dedados e processamento & análise dos resultados A evolução da informática tambémcontribuiu muito para o sucesso das pesquisas; o rápido processamento e, conseqüente,análise dos resultados, permitiu a repetição em intervalos de tempo menores – isso éfundamental para a validação dos métodos utilizados que, por sua vez, dá a robusteznecessária para a pesquisa e a sociedade ganha com a maior precisão e confiabilidade das

     pesquisas de opinião.

    Exemplo 3:  Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiança (95%) da série histórica de 1978 a 2005 – Figura 1.7. Apesarda confusão das estatísticas e de sua interpretação, com boa vontade e profissionalismo, as

    causas do desmatamento poderiam ser identificadas. O desafio é entender a direção que odesmatamento pode tomar no futuro. Sem entender as causas, a direção só pode serestocástica. A Figura 1.7 ilustra o uso do intervalo de confiança – IC (nível de probabilidadede 95%) para a média do período 1978-2005. De acordo com dinâmica do desmatamento até2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) são: 29%de ficar acima da estimativa máxima provável (maior do que 20.983 km2), 29% abaixo daestimativa mínima provável (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo deconfiança (entre 16.296 a 20.983 km2) – com 95% de chance de acertar.

    Exemplo 4:  Todos os trabalhos de equações de volume que utilizam os modelosdestrutivos (na maioria das vezes) para ajustar os dados de volume real observado emmodelos matemáticos que serão utilizados, posteriormente, para estimar o volume da árvoreem pé.

    Para concluir a discussão, em torno da natureza da estatística, é importante não perderde vista que a opção por uma das duas estatísticas pode ser pessoal. Entretanto, se a escolharecair sobre a de inferência, o pesquisador deve se sujeitar as suas regras e condicionantes. Aestatística de inferência, por sua vez, deve ficar sob as condicionantes da teoria da

     probabilidade, da normalidade e da independência; a violação de uma dessas condicionantesimplica em um comprometimento muito sério de todo o seu trabalho.

    1.2. Conceitos Básicos:

    Talvez, os conceitos mais importantes para os florestais são erros amostrais e nãoamostrais. Se você conseguir distinguir esses dois conceitos, você sempre fará um trabalhoconfiável e, por conseguinte, a estatística será uma ferramenta útil na execução de seus

  • 8/18/2019 BIOMETRIA FLORESTAL

    6/141

    trabalhos de pesquisa, encurtando caminhos para a produção de ciência e de resultados deinventário florestal.

    (i) Erro Amostral  => é o erro que você comete por não medir toda a população. Este parâmetro é mensurável e, dependendo da escolha dos métodos, você tem condições deaumentar ou diminuir este erro. De qualquer modo, trata-se de um parâmetro que pode sercontrolado e avaliado por você. É o desvio padrão da média ou, simplesmente, erro padrão etem fórmula para o seu cálculo. É a única medida de precisão, por mais paradoxal que possa

     parecer, em qualquer trabalho de pesquisa ou de inventário florestal.

    (ii) Erro não-amostral   => é o erro humano, que pode ser cometido acidental oudeliberadamente. É o tipo de erro que você comete ao alocar uma amostra no lugar errado –ex.: no escritório você faz a opção pela amostragem inteiramente aleatória e sorteia asunidades amostrais e distribui em sua área estudo; no campo, entretanto, você não conseguealocá-las de acordo com as coordenadas pré-estabelecidas e alocá-as em outro lugar. Vocêtambém comete erro não-amostral quando utiliza um equipamento defeituoso ou, por

     preguiça, você “chuta” as medidas de uma determinada variável. O problema desse erro é que

    você não consegue dimensioná-lo e, neste caso, não há estatística que dê jeito para consertar omal-feito. A estatística e o computador só são úteis na interpretação de fenômenos observadosquando os dados são de absoluta confiança e sem erros não-amostrais.

    Moral: Busque sempre a melhor metodologia para conseguir a maior precisão de seutrabalho sem, contudo, aumentar a possibilidade de cometer erros não-amostrais. BOMPESQUISADOR é aquele que não entrega sua coleta de dados para qualquer “PEÃO”.

    (iii) Populações, Parâmetros e Estimativas

    A noção central em qualquer problema de amostragem é a existência de umapopulação. Pense em uma população como um agregado de valores unitários, onde a“unidade” é a coisa sobre a qual a observação é feita e o “valor” é a propriedade observadasobre aquela coisa. População é então o conjunto de todos os indivíduos ou itens sobconsideração. Ou ainda: população é o universo de seu interesse.

    Ilustrando:

    - se você está interessado em estudar o potencial quantitativo da floresta da ReservaDucke, a POPULAÇÃO é o conjunto de todas as árvores acima de um determinado DAP,existentes naquela área de 10.000 hectares.

    - se para você potencial quantitativo significa volume cúbico obtido de equaçõessimples (DAP como variável independente), o volume médio (por hectare, por ex.) de todas asárvores da Reserva Ducke é o PARÂMETRO.

    - se você, no entanto, decidir pela avaliação por amostragem e lançar naquela áreaalgumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribuídas), o volume médiodessas amostras é a ESTIMATIVA.

    AMOSTRA é aquela parte da população da qual a informação é coletada.

    (iv) Tendência (bias), Exatidão e Precisão

    TENDÊNCIA ou VIÉS  (bias, em inglês) é uma distorção sistemática. Ela pode serdevido a alguma falha na medição, ou no método de selecionar a amostra, ou na técnica deestimar o parâmetro.

    Se você medir o DAP com uma fita diamétrica faltando um pedaço na ponta (2 cm),você medirá todas as árvores com 2 cm a mais, ou seja, você superestimará esta variável. Umamaneira prática de minimizar as tendências em medições é por meio de checagens periódicas

  • 8/18/2019 BIOMETRIA FLORESTAL

    7/141

    dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidadocom eles.

    Tendência devido o método de amostragem ocorre quando certas unidades ganhammaior ou menor representação na amostra do que na população. Ex.: se você excluir 20metros de bordadura do lado oeste da Reserva Ducke por causa de um igarapé. Neste caso,você está introduzindo tendência em sua avaliação simplesmente porque você não deu amesma oportunidade, para as árvores que ocorrem naquela faixa, em aparecer no seu trabalho.Outro exemplo: quando a equipe econômica faz uma pesquisa nos supermercados do centro-sul e extrapola o custo de vida para todo o Brasil; isso é uma medida tendenciosa que nãoreflete o que se passa em Manaus.

    Tendência na forma de estimar determinado parâmetro pode ser introduzida quandovocê, por exemplo, toma o volume médio da Reserva Ducke e junta com o volume médio doDistrito Agropecuário da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiroda região de Manaus. Um volume médio não tendencioso seria uma média ponderadaconsiderando os diferentes tamanhos de cada área, em vez de usar a média aritmética simples

    (tendenciosa, neste caso).Importante:  A tendência é a mãe do erro não-amostral, por esta razão, evitá-la é sinal

    de prudência e sensatez.

    PRECISÃO E EXATIDÃO – uma estimativa tendenciosa pode ser PRECISA, masnunca EXATA. Ainda que o Aurélio (dicionário) pense diferente, para os estatísticos,EXATIDÃO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade;PRECISÃO refere-se à distribuição dos valores amostrais em torno de sua própria média que,se for tendenciosa, não pode ser o valor verdadeiro – Ver figura 1.8. Exatidão ou estreiteza aovalor verdadeiro pode estar ausente por causa da tendência, falta de precisão ou por causa deambas.

  • 8/18/2019 BIOMETRIA FLORESTAL

    8/141

    PENSAMENTO 

    rejeita ? 

     planejar tratar coletar processar analisar  

    HIPOTETIZAR 

    OPERACIONALIZAR 

    não, concluir! 

    sim, concluir! 

    rejeit 

    PENSAMENTO 

    a ? 

     planejar tratar co processar  letar analisar  

    HIPOTETIZAR 

    OPERACIONALIZAR 

    não, concluir! 

    sim, concluir! 

     

    Figura 1.1: Pesquisa científica – do pensamento à inferência.

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    9/141

     Quadro 1.1: Resultados das eleições para presidente de 2002.

    002RESULTADOS DAS ELEIÇÕES DE 2

    Total de eleitores = 115.254.113

    Resultado do 1º turno: nº de votantes = 94.804.126

    ordem Número Candidato total votos % válidos

    1 13 Lula 39.454.692 46,44

    2 45 José Serra 19.705.061 23,20

    3 40 Garotinho 15.179.879 17,87

    4 23 Ciro Gomes 10.170.666 11,97

    5 16 Zé Maria 402.232 0,47

    6 29 Rui Pimenta 38.619 0,05

    Resultado do 2º turno: nº de votantes = 91.664.259

    ordem Número Candidato total votos % válidos

    1 13 Lula 52.793.364 61,27

    2 45 José Serra 33.370.739 38,73

    fonte: www.tse.gov.br  => consultas: 1º turno em 21/10/02 e 2º turno em 29/10/02

    21.050 17.770 

    13.730 11.030 

    13.786 14.896 

    29.05918.161

    13.227 17.38317.269

    18.226 18.165 

    23.266 24597 

    27.200 18.900 

    78/87 

    87-89

    89/90 

    90/91

    91/92 

    92/94

    94/95 

    95/96 

    96/97 

    97/98 

    98/99

    99/00 

    00/01

    01/02 

    02/03

    03/04

    04/05 

      a  n  o

      o  u

      p  e  r   í  o   d  o

    área desmatada em km2 

     fonte: www.inpe.br  

    Figura 1.2: Desmatamento anual (km2) na Amazônia.

  • 8/18/2019 BIOMETRIA FLORESTAL

    10/141

     

    0

    500

    1.000

    1.5002.000

    2.500

    3.000

      m   2   )

    45

    1997 1998 1999 2000 2001 2002 2003 2004

    ano

       á  r  e  a   d  e  s  m  a   t  a   d  a

       (   k

    051015202530

    3540

      r  e   l  a  ç   ã  o   A  :   D

       (   %   )

    A D A:D (%)

     Fonte: www.ibama.gov.br  – sisprof. A = área desmatada com autorização; D = áreadesmatada total e A:D relação entre autorizado e não autorizado.

    Figura 1.3: Relação entre áreas (em km2) desmatadas com autorização e sem autorização namazônia.A

     

    d autorizado20%

    PMFS17%

    sem origem63%

     Fonte: www.ibama.gov.br  – sisprof

    Figura 1.4: Origem da madeira da Amazônia – planos de manejo florestal sustentável(PMFS), desmatamento autorizado e sem origem definida.

  • 8/18/2019 BIOMETRIA FLORESTAL

    11/141

     

    3941

    3941

    4345

    46

    19 19 19 18 1920

    23,2

    12 1314 15

    16 1517,9

    15

    1214

    12 119

    12

    0

    5

    10

    15

    20

    25

    30

    35

    40

      o   t  o

       (   %   )

    45

    50

    6 a 9/9 14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 TSE

    período da pesquisa

       i  n   t  e  n  ç   ã  o   d  e  v

    Lula Serra Garotinho Ciro

     Figura 1.5: Pesquisas de opinião realizadas pelo IBOPE para o 1º turno da eleiçãoresidencial de 2002. p

     

    5861

    59 58

    32 32 31 32

    64

    6 7

    4 3 4 30

    10

    20

    30

    40

    50

    60

    70

    11 out 18/out 23/out 26/out

    data

       i  n   t  e  n  ç   ã  o

       d  e  v  o   t  o  s   (   %   )

    Lula Serra indecisos nulos/brancos

     

    Figura 1.6: Pesquisas de opinião realizadas pelo Datafolha para o 2º turno da eleição

     presidencial de 2002.

  • 8/18/2019 BIOMETRIA FLORESTAL

    12/141

     

    26.000

    28.000

    30.000

       )

    10.000

    12.000

       7   8   /   8   7

       8   9

       8   9   /   9   0

       9   0   /   9   1

       9   1   /   9   2

       9   2   /   9   4

       9   4   /   9   5

       9   5   /   9   6

       9   6   /   9   7

       9   7   /   9   8

       9   8   /   9   9

       9   9   /   0   0

       0   0   /   0   1

       0   1   /   0   2

       0   2   /   0   3

       0   3   /   0   4

       0   4   /   0   5

       0   5   /   0   6

    14.000

    16.000

       á  r

    18.000

    20.000

    22.000

    24.000

      m  a   t  a   d  a   (   k

       8   7  -

      e  a   d  e  s

      m   2

    ano ou período

    área média mínima máxima

    IC(95%) = 18.689 ± 2.372 

    21.060 

    18.689

    16.317  Acima = 29%

    2005/06? Dentro = 42%

     Abaixo = 29%

     

    Figura 1.7: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com base nointervalo de confiança (95%) da série histórica de 1978 a 2005.

    impreciso preciso preciso

    exatoimpreciso preciso preciso

    exato

     

    Figura 1.8: Diferença entre precisã

     

    o e exatidão.

  • 8/18/2019 BIOMETRIA FLORESTAL

    13/141

    Capítulo 2Organização dos dados

    2.1. Dados:

    A informação coletada e analisada pelo estatístico é chamada de DADOS. Há váriosetodologia, pelo estatístico é, parcialmente, determinada pelo

    m mãos.tipos de dados e a escolha da mtipo de dados que ele tem e

    Exemplo 1: No exame de seleção para turma 90/91 do Manejo Florestal, tivemos 15candidatos, 13 homens e 2 mulheres. Do total, apenas 7 fizeram o exame. Foram aprovados 6candid

    ankeados”. No exemplo, as classificações de João e Joaquim são dadosordinai

      se refere aos dados mensuráveis e não deve serconfun

    éricas ou atributos, taistal, cor de alguma coisa etc.

    Dados ordinais: dados sobre classificação, ordem ou “rank”, tais como: classificaçãode toras, orde heg

    Dados métricos:  dados obtidos de medições de c quanti com po,altu DAP, v e, peso etc.

    Um outro importante tipo de d é o cha o DADOS CONTÁVEIS. A contagemdo numero de indivíduos ou itens que caem em rias c ias, ta mo “h ” e“mulher” fornece os dados contáveis. Por exemp a infor dada exemplo anteriorque foram apr s 5 ho s e 1 m são da contáv

    DADO NTÁ S  são dados sobre o número ivíduo itens aemem certas categorias ou classes, que podem ser obtidos de quaisquer tipos de dados(qualitativo, ordinal ou métrico).

    Os dados QUALITATIVO e ORDINAL são referidos pelos estatísticos como dadosISCRETOS

    atos, 5 homens e 1 mulher. João da Silva tirou o primeiro lugar com nota 6,7 e JoaquimMoreira tirou o último lugar com a nota 5,0.

     No exemplo acima, nós podemos destacar os seguintes tipos de dados:

    QUALITATIVO  – o tipo mais simples de dados, é a informação que coloca cada

    candidato em uma das duas categorias “homem ou mulher” ou “tipo florestal I ou tipo II” ou“estocada ou não estocada” etc. Esses dados dão informações sobre um indivíduo ou um item.

    ORDINAL – A informação sobre classificação, dados que colocam os indivíduos ouobjetos em ordem, “r 

    s.

    MÉTRICO  – O termo métricodido com os dados em unidades métricas. No exemplo, as notas dos candidatos (6,7 e

    5,0 e outras notas) são dados métricos.

    Resumindo:

    Dados qualitativos: dados que se referem à qualidade não numcomo: tipo florestal, gênero ou espécie flores

    m de c ada etc.

    ertas dades o: temra, olum

    ados mad  vá ategor is co omem

    lo, mação noovado men ulher, dos eis.

    S CO VEI de ind s ou que c

    D   porque eles classificam coisas em classes separadas e discretas. Nalassificação dos candidatos ao mestrado não há como colocar ninguém entre o primeiro lugaro segundo. Também não há como classificar ninguém entre “homem” e “mulher.” São

    xemplos típicos de dados discretos, porque não há como dizer que alguém ficou em primeiro lugar e meio” ou o que fulano é “homem e meio”. No caso de ordem de chegada ourank” há possibilidade de empate, mas isso é outra coisa e será discutido na estatística não-

    aramétrica.

    cee““

     p

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    14/141

    Por outro lado, a maioria dos dados métricos é considerada DADOS CONTÍNUOS orque eles envolvem medições sobre uma escala contínua. A escala fica por conta darecisão do aparel na fita á mo que podemoshegar é décimo d AP demos ter DAP’som 20.1, 20.2, ... , 2 cronô rmula 1, no entanto, o nível de precisão é

     pensável para os no ios d

     .2. Dados grupado

    A quantidade de dados que pode ser coletada do “mundo-real” é simplesmententástica.

     p p ho de medição:

    e cen , ousuta ou na

    ntre os D  diamétrica, o m’s 20 e 21 cm nós

    xic tímetros seja, e poc 0.9; nos metros da Fó

    o.im ssos relóg e puls

    2 s:

    fa

    Exemplo 1: O censo brasileiro. Você já imaginou a trabalheira que dá para cadastraraproximadamente 180 milhões de pessoas, anotando o nome, sexo, idade, ocupação,escolaridade etc. Apenas para ilustrar, se você usar qualquer software (Excel ou Word) paralistar toda essa gente, você gastará mais de 600 quilômetros de papel apenas para imprimir asinformações básicas, é Manaus-Itacoatiara-Manaus. Com todo esse papel, dificilmente você

    teria uma boa fotografia da população brasileira. Então, o que fazem os especialistas doEles nos proporcionamIBGE? variadas informações: quantidades de hom

    (X1); X1 por classe idade (X2); X2 por estado e por região; X1 poens e de mulheres

    r nível de escolaridade;

    os dados.

    Exemp

     população ativa etc.

    Isso é um exemplo típico da aplicação da estatística DESCRITIVA, por meio daorganização e simplificação d

    lo 2: Dados sobre DAP das árvores da parcela-testemunha do bloco 2 (apenas

    s” normalmente pensam no DAP em classes de 10, 20, 30, 40 cm etc.

    as 40 primeiras árvores).

    Os “pica-pau

    Para ver quantos DAPs há em cada classe você faz o seguinte:Quadro 2.1. Dados de DAPs de 40 árvores.

    árv. nº DAP Árv. nº DAP árv. Nº DAP árv. nº DAP1 25.0 11 33.0 21 32.0 31 37.02 27.0 12 38.5 22 63.0 32 41.03 45.0 13 31.8 23 34.0 33 40.04 36.0 14 52.0 24 30.0 34 32.05 39.0 15 37.0 25 29.0 35 58.06 36.0 16 27.7 26 32.0 36 28.07 33.0 17 35.0 27 27.0 37 77.08 47.0 18 33.0 28 28.0 38 58.09 34.0 19 47.0 29 27.0 39 43.0

    10 53.0 20 33.0 30 40.0 40 30.0

  • 8/18/2019 BIOMETRIA FLORESTAL

    15/141

  • 8/18/2019 BIOMETRIA FLORESTAL

    16/141

      A freqüência pode ser também porcentagem ou decimal, conhecidacomo FREQUÊNCIA RELATIV r a freqüência relativa de cadaclasse, bastou dividir a freqüê (número total de indivíduoscontad

     

    apresentada emA. No quadro 2.3 para obte

    ncia de cada classe por 40os). Se multiplicarmos essas frações por 100, teremos a freqüência em %, caso

    contrário, em decimais.

    Quadro 2.3. - Distribuição de Freqüência relativa do quadro 2.1.

    classes DAP pt médio Freq freq rel freq acum  20 < 30 25 8 0,200 8

    30 < 40 35 19 0,475 2740 < 50 45 7 0,175 3450 < 60 55 4 0,100 3860 < 70 65 1 0,025 3970 < 80 75 1 0,025 40

    Algumas terminologias:

    Classe – uma categoria para o grupamento de dados.

    Freqüência  – o número de indivíduos ou objetos numa classe. Por exemplo, a

    ite inferior é 20.

    . No nosso exemplo, o intervalo é 10, ou seja, 30 – 20 =10.

    os.

    TIVA. Há muitas outras formas de representação gráfica de seus

    ados. Hoje em dia, uma forma muito usada é a PIE (torta). De qualquer modo, fique aontade e use de sua imaginação para dar a representação mais conveniente dos seus dados.

    freqüência da classe 30-39.9 é 19.

    Freqüência relativa – a porcentagem, expressa como um decimal, do número total deindivíduos de uma determinada classe. A freqüência relativa da classe 50-59.9 é 0.1 ou 10%.

    Freqüência acumulada – é a soma das freqüências dos valores inferiores ou iguais avalor dado.

    Distribuição de Freqüência – a listagem das classes com suas freqüências.

    Limite inferior da classe – o menor valor que pode ir dentro de uma classe. Na classe20-29.9 o lim

      Limite superior da classe – o maior valor que pode ir dentro de uma classe. Na classe20-29.9 o limite superior é 29.9. Se a precisão fosse de duas casas decimais, o limite superior

     poderia ser 29.99 e assim por diante.

    Intervalo de classe  – é a diferença entre o limite superior e o limite inferior de umadada classe

      Ponto médio da classe – é a média aritmética entre o limite superior e limite inferiorda classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto médio é 35 e assim por diante.

    2.3. Gráficos e figuras:

    Uma outra maneira de dar sentido a um conjunto de dados é por meio da representaçãográfica dos mesm

      O gráfico mais simples dos dados é o HISTOGRAMA DE FREQUÊNCIA. A alturade cada barra é igual a freqüência que ela representa. Tem também o HISTOGRAMA DEFREQUÊNCIA RELA

    dv

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    17/141

    Capítulo 3

    çados, para a descrição sucinta dos fenômenossticas usadas na estatística, para descrever as

    variáveis aleatórias, em populações particulares, caem em uma das três categorias: (1)medidas da tendência central (alocação de um valor ordinário); (2) medidas de dispersão(distância relativa de valores extremos de um valor central); (3) medidas de relacionamentoentre a variávei imilaridade ou dissimilaridade em magnitude).

    de gráficosgrupamento de dados são úteis no manuseio de um grande conjunto de dados. Uma outrarma de sumarizar os dados é por meio da computação de um número, tal como a média, a

    qual su

    3.1 Medidas de tendência central:

    mediana.Menos harmônica.

    enteusada de todas as medidas estatísticas.

    idade) dividida pelo nú de amostra paraamostr ais desejáveis emonexão com as distribuições de probabilidade.

    crescente ou

    decresc m amostras comnúmero lores que estão“rankeados” no meio. Estimativas da mediana de pequenas amostras não são muito

    classe com a maior

    imento pense na mediana como o 50-ésimotil.

    a raiz de um produto de n valores, ou antilog da média

    ritmét a dos to de valores e é sempre tão pequeno ou menor que a médiao mes o con

    Medidas descritivasHá muitos critérios, por sinal, bem avan

    naturais. Apesar disso, a maioria das caracterí

    s s (grau de s

    Em geral, o volume de dados de uma pesquisa é muito grande. Os métodosefo

     bstitui um grande volume de dados por um simples número.

    As medidas de alocação mais comumente utilizadas são média aritmética e a freqüentemente usadas são: moda, percentil, média geométrica e média

    A média comum ou média aritmética ou simplesmente média, é a mais freqüentem

    Média – é simplesmente a soma de todas observações (DAP, altura,mero total de observações. É a medida que tem a menor variabilidade

    a, é fácil de ser manuseada matematicamente e tem as propriedades mc

      Mediana  – é o valor de uma variável aleatória que, em ordem

    ente, está “rankeado” no meio, entre os valores maiores e menores. E  par de observações, a mediana é a média aritmética dos 2 va

    confiáveis.

    Moda  – é o valor mais freqüente, ou seja, é a categoria oufreqüência. É uma medida fácil e rápida de ser obtida, mas, por outro lado, fica sempre sujeitaa variação extrema de uma amostra para outra, ao menos que a amostra seja bem grande.

    Percentil  – para um melhor entend percen

    Média geométrica – é a n-ésim

    a ic logs de um conjund m junto de dados.

    Média harmônica – é a recíproca da média de um conjunto de dados recíprocos e étão pequena ou menor que a média geométrica para um mesmo conjunto de dados.

    Para dados ordinais, é preferível utilizar-se da mediana, apesar de que a média é, asvezes, utilizada.

    Para dados métricos pode ser usada a média ou a mediana. Como com dados ordinais,a mediana é preferida para propósitos descritivos. A maioria das teorias estatísticas para dadosmétricos usa a média.

  • 8/18/2019 BIOMETRIA FLORESTAL

    18/141

    Computação de Média, Mediana e Moda

    Média – a estimativa da média,  x _ 

    ou ӯ, do parâmetro µ, é obtida da seguinte maneira:

    Dos dados do quadro 2.1, a média será:

    40)x....xx( 4021 x  

     x _ 

     = 38,225

    Mediana – do qua é preciso ordem crescente,

    (1ª) (2) (3) (4) (5) (6) (7) (8) (9) (10)

    25 27 27 27 27.7 28 28 29 30 30

    (11) (12) (13) (14) (15) (16) (17) (18) (19) (20)

    36 36 37 37 38.5 39 40 40 41

    vações, n, é par, a mediana será a média aritméticados vigésimo e ig es, ou seja, (34 + 35)/2 = 34.5.

    Moda  édio da classe que tem a maior freqüência, que nonosso caso, quadro 2.2, é 35, que tem a freqüência = 19.

    = 35,0

    Interpretação:

    dro 2.1, primeiro ordenar em

     

    31.8 32 32 32 33 33 33 33 34 34

    (21) (22) (23) (24) (25) (26) (27) (28) (29) (30)

    35

      (31) (32) (33) (34) (35) (36) (37) (38) (39) (40ª)

    43 45 47 47 52 53 58 58 63 77

     Neste caso, o número total de obser  v ésimo-primeiro valor 

     – é simplesmente o ponto m

      Resumo das estimativas das medidas:

    Média = 38,225

    Mediana = 34,5

    Moda

    um conjunto de dados pode ter mais de uma moda, mas sempre terásomente uma média ou mediana. Como você pode ver, de um mesmo conjunto de dados, vocêtem diferentes medidas de tendência central. Qual delas é a melhor? A decisão vai depender,

     principalmente, do objetivo de sua informação. Quando a gente vende madeira em volume,normalmente truncada a um determinado diâmetro mínimo, a média deve prevalecer tendo emvista a maior facilidade para os cálculos posteriores. Se a árvore é vendida em pé, a moda

     pode ser mais interessante, porque ela dá uma noção também da distribuição de freqüência. A

    utilização da mediana é mais prática na tomada de decisões quanto a tratamentossilviculturais, desbastes etc., quando você precisa priorizar o tamanho que precisa sofrerintervenções.

  • 8/18/2019 BIOMETRIA FLORESTAL

    19/141

    3.2. M 

    nu

    edidas de dispersão:

    Uma medida de dispersão é um número usado para mostrar quanto de variação existem conjunto de dados.

    Até agora discutimos somente as medidas de tendência central. Entretanto, 2 conjuntos

    de dados podem ter a mesma média ou a mesma mediana e, mesmo assim, ser bastantediferente.

    Exemplo 1: Dois conjuntos de dados (turmas de Manejo e Ecologia), no quadro 3.1

    Quadro 3.1. Idades de alunos dos cursos de manejo e ecologia do INPA

    Manejo ) Ecologia(CFT  de aluno idadealuno ida  1 1 2225  2 28 2 30

    3 30 3 28

    4 29 4 215 28 5 39média 28 média 28

    As médias dos dois grupos são iguais. No edois grupos diferentes em idade. Dá para pe

    ntanto, é claro que estamos nos referindo aais uniforme

    em term o que há dentro de cada conjunto de dados, podemos usar a amplitude total  ou o desvio padrão, as duas medidas de dispersão maiscomuns.

    tre oaior e o maior e

    o menAlém d do uma medida que depende apenas dos valoresexternos, é instável, não sendo afetada pela dispersão dos valores internos.

    Do quadro 3.1, as amplitudes são:

    ação é freqüentemente simbolizado pela letra grega minúscula (σ).

    Dificilmente a gente trabalha com o parâmetro. Entretanto, dado uma amostra de valoresa população, podemos fazer uma estimativa de σ  que é comumente

    mbol

    rceber que o grupo do Manejo é mos de idade. Neste caso, para ver a variaçã

    AMPLITUDE TOTAL – é a medida da variação olhando apenas a diferença enm o menor valor. Esta medida é de fácil computação porque depende apenas d

    d or valor, mas, em compensação ela não diz o que acontece entre esses dois valores.isso, é considerada muito limita, sen

    -  Manejo: 30 – 25 = 5

    -  Ecologia: 39 – 21 = 18

    DESVIO PADRÃO – nos dá a dispersão dos indivíduos em relação à média. Ele nosdá uma idéia se os dados estão próximos da média ou muito longe. O desvio padrão dosindivíduos de uma popul

    individuais de umsi izada por s.

    1-n

    )x - (x 

    s :Fórmula

    n

    1i

    2i

    ±

     

    1-ns :simples ais 1 1i

    n/))x(( - xn

    2i

    2i∑ ∑

    n

    m,   = =ou

      ±= i

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    20/141

     x _ 

    Por que o denominador é (n-1) em vez (n)? Porque os n  desvios, (xi  – ), são

    ente conectados pela relação linear ∑ ( xi –  x _ 

    ) = 0. Se você especifica o valor danecessariam

     x _ 

      e os ( n-1 ) valores de xi, então o valor do último xi é fixo; isto é, é uma informação

    édia amostral  x

     _ 

    redundante. Por esta razão, ao usar a m em vez da média da população µ s, você perde um grau de liberdade (gl) e a estimativa deé dita ter ( n – 1 ) gl associados com ela. O uso de (n – 1) em vez de (n) no cálculo de s bém fornece uma estimativa não-tendenciosa; isto é, em uma série infinita de amostras

    édio do estimador é igual a σ.

    como um ponto central no cálculo deσ

    tamaleatórias, o valor m

    Os desvios padrões dos dados do quadro 3.1 são:

    Manejo: s = ± 1.87

    Ecologia: s = ± 7.25

    -

    -

    Resumindo: quanto maior a variação den o

    os agora, que apesar dos dois terem

    tr de um conjunto de dados, maior será o

    desvio padrão. Do exemplo 1 nós constatam as mesmasedida ana, as medidas de dispersão são totalmentenejo é mais homogêneo em idade, comprovada

    ela m

    Cálculo da média e desvio dos dados grupados:

    eguinte maneira:

    m s de tendência central, média e medidiferentes. Isto quer dizer que o grupo de Ma

     p enor variação encontrada.

    A média é calculada da s

     x _ 

     = ( ∑ xi * f i ) / n

    onde: xi = ponto médio da classe, f i = freqüência de cada classe e n = número de classes

    E o desvio padrão segue o mesmo princípio da média em relação às classes.

    Do quadro 2.2, essas medidas serão:

     x _ 

     = 38,5 e s = ± 11,45

    3.3. M 

      mais) variáveis aleatórias, independente dass serão vistas, em detalhe,

    um ca

    s já vimos um exemplo de percentil. A mediana divide um conjunto de dados em

    quarto da área total.

    edidas de relacionamento:

    As medidas mais comumente utilizadas para relacionamento são correlação eregressão. Vários tipos de correlação podem ser usados para medir o grau de associação(similaridade ou dissimilaridade) entre 2 (ouunidades de medida e mudanças lineares em escala. Estas medidan pítulo específico.

    3.4 Percentil:

     Nóduas partes, 50% de um lado e 50% de outro, depois de colocá-los em ordem crescente. Poresta razão ela se refere ao qüinquagésimo percentil de um conjunto de dados. Além dos

     percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador pode também querer encontrar o quartil e o decil.

    Quartil é a separatriz que divide a área de uma distribuição de freqüência em

    domínios de área igual a múltiplos inteiros de um  Decil é a separatriz correspondente ao valor do argumento que divide a distribuiçãonuma razão decimal.

  • 8/18/2019 BIOMETRIA FLORESTAL

    21/141

      Exemplo: dados do quadro 2.1 em ordem crescente.

    Primeiro quarto

    2 27 27 27

    Segundo quarto

    3 32 32 32 33 33

    Terceiro quarto

    Computações:

    Primeiro quartil = (30 + 31.8) / 2 = 30.9

    Segundo quartil = (34 + 35) / 2 = 34.5

    Terceiro quartil = (41 + 43) / 2 = 42.0

    3.5. Considerações finais:

     Neste capítulo não poderíamos deixar de mencionar três outros conceitos muitoimportantes na nossa área de conhecimento, coeficiente de variação, variância e covariância.

    COEFICIENTE DE VARIAÇÃO – é a razão entre o desvio padrão e a média. Elenos dá uma idéia de variação relativa de nossa população, permitindo a comparação de 2

     populações diferentes independentes das unidades de medida.

    Do quadro 3.1, estimamos as médias (28 para manejo e 28 para Ecologia) e os desvios padrões (1.87 e 7.25). Agora temos os coeficientes de variação (CV):

    CV = 1.87/28 = 0.0668 ou 6.68 % - Manejo

    CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia

    Do nosso exemplo do quadro 2.1, temos uma população de árvores, com as seguintesestimativas: média = 38,225 e desvio = 11,28

    CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2

    Mesmo se tratando de populações diferentes podemos concluir com base nos CVs: A população Manejo é mais homogênea e a mais heterogênea é a floresta da ZF-2. Isto é possível porque o CV é uma medida relativa, que independente da unidade de medidautilizada.

    VARIÂNCIA - Variância é uma medida da dispersão dos valores unitáriosindividuais em torno de sua média. A variância não só parece com o desvio padrão, como é o

     próprio, apenas “ao quadrado” . Se você tirar da fórmula do desvio, a raiz quadrada, você tema fórmula da variância. Por que “ao quadrado”? Simplesmente porque a soma de todos os

    desvios tem que se anular, tendendo a zero e, daí, você não teria condições de ver a amplitudede variação dos seus dados em relação à média.

    5 27.7 28 28 29 30 30

    1.8 33 33 34 34

    39 40 40 41

    3 45 47 47 52 53 58 58 63 77

    35 36 36 37 37 38.5

    Quarto quarto

    4

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    22/141

      COVARIÂNCIA - é umrelacionamento (covariabilid

    a medida de como 2 variáveis variam juntas, emade). Suponha duas variáveis x e y. Se os maiores valores de x

    nde a ser associados com os maiores valores y, nós dizemos que a covariância é positiva.ando os maiores se associam com os menores, ou vice-versa, a covariância é negativa.

    a zero.

    Variância, s2  = SQCx /(n-1)

    Covariância, s SPC / (n-1)

    SPC = Soma dos Produtos Corrigidos

    teQuQuando não há uma associação particular de x e y, a covariância tende

    As fórmulas são:

    xy = xy

    S

    SQC = Soma dos Quadrados Corrigidos

    endo:

  • 8/18/2019 BIOMETRIA FLORESTAL

    23/141

    Fórmulas úteis

    Média Aritmética Variância

    n

     x

     x ii∑

    n

    == 1  

    )(

    112

    −=

    ∑2

    =

    n

    n

     x x

    s ii

     

    Desvio padrão Erro padrão

    2ss   ±= nss /= x  2 2

    ∑   −= i xn

     x  

    ∑   ⎟ ⎞⎜⎛ nn

     x2

    =

    =   ⎠⎝ 

    i

    i

    i

    SQC 1

    1

    n ySQC 

    i

    i y

    12 −= ∑   y

    n

    ⎟ ⎞

    ⎜⎛ ∑ in

    i 1

     ⎠⎝   =

    =

     

    n y xSPC 

    i

    ii xy

     y x iin ∑∑−= ∑=1

     

    Coeficiente de correlação

    Y  X 

     xy

    SQC SQC 

    SPC r 

    ×=

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    24/141

    Capítulo 4Probabilidade

    a população baseada em umaamostra da população.

    Desde que a estatística de inferência envolve predições (educadas), é sempre possívelzer uma inferência incorreta. É preciso saber o quanto a nossa inferência está correta. Paraedir a chance de estar certo na nossa inferência estatística, precisamos entender a teoria de

    clássicos de “cara & coroa”, dos dados e do jogo de baralho. A propósito, a teoria foidesenvolvida por causa de jogos de azar. O objetivo deste capítulo é dar uma base geral parafacilitar o entendimento da aplicação de testes de hipóteses, paramétrica e não-paramétrica.

    O processo de computação (cálculo) de probabilidades depende de sua capacidade decontar, “1, 2, 3 e assim por diante.” A seguir vamos discutir alguns métodos de contagem.

    4.1. Contagem:

    testes (tentativas); se a moeda é jogada uma vez, ouimento deve ser considerado um experimento.

    teste, vários testes ou de todo oexp im

    RE

      No capítulo 1 nós distinguimos dois tipos de estatísticas: descritiva e de inferência. Aestatística descritiva envolve a organização e a sumarização dos dados. A estatística de

    inferência lida com inferências (predições educadas) sobre um

    fam

     probabilidade, que é a fundamentação matemática para a estatística de inferência.

    Para entender os princípios da teoria de probabilidade não há como fugir dos exemplos

    Primeiro vamos estabelecer as seguintes definições dentro da teoria de probabilidade.

    Resultado - no caso de “cara ou coroa”, 2 resultados são possíveis e no caso do jogo dedados, 6 resultados.

    Teste - (ou tentativa) - é a ação de jogar a moeda e ver se ela cai com a cara oucoroa.

    Experimento  - é o conjunto deduas, ou n vezes, não interessa – o proced

    Eventos  - são os possíveis resultados de umer ento. Exemplo de evento: “uma coroa em 4 jogadas” ou “pelo menos um é cara”.

    GRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dosk p sí o.os veis resultados, afirmamos que há k possíveis resultados de todo o experimentn

    Exemplo 1: no jogo da moeda você tem dois resultados, cara (C) ou coroa (c), k=2.Se você jogar apenas uma vez, n=1, você terá 21 = 2 possíveis resultados, C ou c. Se você

     jogar duas vezes, n = 2, você terá 22 = 4 possíveis resultados, CC  cc Cc cC.

    REGRA 2: Há n! (fatorial) maneiras de arranjar n objetos distinguíveis em uma seqüência.

    Exemplo 2:  considere o número de maneiras de arranjar as letras A, B e C numaseqüência. A primeira letra pode ser qualquer uma das três, a segunda pode ser escolhida deduas maneiras diferentes uma vez que a primeira já foi escolhida, e a letra remanescente setorna a última letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6

     possíveis arranjos são: ABC ACB BAC BCA CAB e CBA.

    Exemplo 3:  suponha uma corrida de cavalos com 8 cavalos. Há 8 maneiras dequalqu outro. Se

    você q

    er um deles chegar em primeiro lugar, tendo nas outras colocações qualquer

    uiser saber quantos arranjos são possíveis tendo, no primeiro e segundo lugar, qualquerum deles e, as demais colocações, de qualquer jeito, você fará (8) (7) = 56 arranjos. Se você,

  • 8/18/2019 BIOMETRIA FLORESTAL

    25/141

    no entanto, quiser saber todos os possíveis arranjos do primeiro ao oitavo lugar você fará 8! =40320 arranjos.

    REGRA 3: se um grupo de n objetos é composto de k objetos idênticos de um tipo e orestante (n-k) são objetos idênticos de um segundo tipo, o número de arranjos distinguíveisdos n objetos numa seqüência, denotado por meio de

    Ou: se

    k)!-(nk!

    n! 

    n pordadoé 

    n=⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

     

    um grupo de n objetos é composto de n1  objetos idênticos do tipo 1, n2  objetos idênticos do tipo 2, ..., nr  objetos idênticos do tipo r, o número de arranjos distintos numaseqüência será:

    nr! ... n2! n1!

    n! 

    ni

    n pordadoé

    ni

    n=⎟⎟

     ⎠

     ⎞⎜⎜

    ⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜

    ⎝ 

    ⎛ 

    3 (1) )1( )2(

    (1) (2) (3) 

    1! 2!

    3! 

    2

    3===⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    Exemplo 4:  no exemplo 2 listamos as 6 maneiras de arranjar as letras A, B e C numaüên

    4.2. D

    seq cia. Suponha agora que as letras A e B são idênticas e chame-as de X. Assim, osarranjos ABC e BAC se tornam indistintos, XXC para os dois. Também ACB e BCA setornam XCX. O arranjo original é reduzido para arranjos distintos, que são XXC, XCX eCXX.

    efinições de probabilidade:Primeiro vamos ver algumas definições:

    (i)   Espaço amostral   - é a coleção de todos os possíveis resultados de umexperimento.

    (ii)  Ponto no espaço amostral   - é um resultado possível de um experimento.

    ostral, que consiste essencialmente deento. O espaço é subdividido e

    esultado é representado por um ponto e somentem pon

    Cada experimento tem o seu próprio espaço amde um experimuma lista de diferentes resultados possíveis

    cada subdivisão é um ponto. Cada possível r u to.

    Exemplo 1:  se um experimento consiste em jogar duas vezes a moeda, o espaçoamostral consiste de 4 pontos CC cc Cc cC.

    Exemplo 2:  uma prova consistindo de 10 questões “falsa” ou “verdadeira” é passadaum aluno como um experimento. Há 210 = 1024 pontos no espaço amostral, onde cada ponto

    consiste da seqüência das possíveis respostas para as 10 questões sucessivas, tais como:FFFFVVFFVV.

    gora, então, é possível definir evento, em termos dos pontos do espaço amostral.

    tral.

    caras”, estamos nos referindo a um

    CC; o evento “uma cara” consiste de dois pontos Cc e cC; o evento “peloa” consiste de três pontos CC, Cc e cC.

    a

    A

    (iii) Evento  - um evento é qualquer conjunto de pontos no espaço amos

     No exemplo 1 ao falarmos do evento “duas

    simples pontomenos uma car 

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    26/141

    Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos “pelo menosuma cara” e “pelo menos uma coroa” tem os pontos Cc e cC em comum. Se dois eventos nãotêm pontos em comuns eles são chamados de eventos mutuamente exclusivos  porque aocorrência de um evento automaticamente exclui a possibilidade de ocorrer outro evento aomesmo tempo.

    Para cada ponto no rrespondente chamado de probabilidades podem ser

    evento inclui a definição

    associadas com um particular espaçoe acordo com as

    espaço amostral há um número co probabilidade do ponto ou probabilidade do resultado. Estasquaisquer números entre 0 a 1. A definição da probabilidade de umda probabilidade de um resultado como um caso especial, desde que o evento possa serconsiderado como que se consistisse de um resultado simples.

     Na prática, o conjunto de probabilidadesamostral é raramente conhecido, mas as probabilidades são atribuídas dnoções pré-concebidas do pesquisador, isto é, o pesquisador formula um modelo como umaversão ideal do experimento. Então, o espaço amostral do modelo experimental é examinado eas probabilidades são atribuídas aos vários pontos do espaço amostral de alguma maneira que

    o pesquisador sinta que pode ser justificada.Exemplo 3:  Num experimento consistindo de uma única jogada de uma moeda “não

    viciada”, é razoável assumir que o resultado cara (C) tem metade da chance de ocorrer.Assim, podemos atribuir a probabilidade de ½ para o resultado C e o mes

    aneira: P (C) =1/2 e P (c) = 1/2 .mo para c. Isso pode

    ser escrito da seguinte m

    Exemplo 4:  Num experimento consistindo de 3 jogadas (testes), é razoável assumirque cada um dos 23  = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesmachance de ocorrer. Assim, a probabilidade de cada resultado é 1/8. Também P (3 caras) = 1/8,P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = ½.

    (iv) Função de Probabilidade:  é uma função que atribui probabilidades aos várioseventos no espaço amostral.

    Várias propriedades dessas funções são aparentes. Considere S como espaço amostrale A, B

    onde P (B) > 0, caso contrário, é indefinido.

    Exemplo 5:

     ou C como qualquer evento em S. Então, se P é a função de probabilidade, P(S) = 1,P(A) > 0 e P(a) = 1 – P(A), onde a é o evento “o evento não ocorre”.

    (v) Probabilidade Condicional: é a probabilidade de ocorrer A dado B.

    P (A | B) = [ P (AB) ] / [ P (B) ]

    Considere o jogo de dados, tal que cada um dos 6 possíveis resultados

    tem a probabilidade de 1/6 de ocorrer. Como antes, deixe A ser o evento “a ocorrência de 4, 5ou 6” e B o evento “a ocorrência de um número par” . Então P (AB) = P (4 ou 6) = 2/6 = 1/3.robabilidade condicional P (A|B) é dada por

    ) P (B)

    Também, P (B) = 3/6 = ½. Então, a p

     

    3/2 2/1

    3/1 B)|(AP   ==

     

    (vi) Eventos independentes:  Dois eventos A e B são independentes se

    (1) P (AB) = P (A

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    27/141

    Exemplo 6:  Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espaçoamostral assumem ter a mesma probabilidade. Deixe A ser o evento “uma cara ocorre na

     primeira jogad e corre segund tão A  tem os pontos CC e C o em o os CC ) = 2/4, P (B)= 2/4 e P (AB) = 1/4.

    P (AB) = (2/4) (2/4) = 4/16 = 1/4

    satisfaz a condição (1 , por esta razão, A e B são independentes.

    (vii)  Experim tos Mutuamen ndepende ão mutu independentes sedos os conjuntos de eventos formados tiverem a seguinte equação com verdadeira:

    nde A

    a” e B  ser o evc. B tem os pont

    nto “uma cara os CC e . AB t

      na a jogada.” En. Ta P (A cC s pont mbém

    ) e

    enn

    te I ntes:  s amenteoto

      P ( A1, A2, ..An) = P (A1) P(A2) ...P (An)

    o i representa um resultado do i-ésimo experimento para i = 1, 2, ....n.

    Exemplo 7:  Considere um experimento com 1 jogada da moeda, onde o evento C tema probabilidade p  e o evento c  tem a probabilidade q = 1 – p. Considere 3 repetições

    c2  C3) = P (C1) P (c2) P (C3) = pqp

    ade de obter “exatamente k caras” , então, é igual aormo

    independentes do experimento, onde o subscrito será usado para diferenciar o experimentocom o qual o resultado está associado. Dessa maneira, C1  c2  C3  significa que o primeiroexperimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hipótese deindependência,

    P (C1 

    Se considerarmos o evento “exatamente 2 caras” associado aos experimentoscombinados, o seguinte pode ocorrer

    ementeconseqüentemaneiras3 2

    2

    3==⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    q3p caras)2exatamente(P 2=

    Obviamente o anterior pode ser descrito simplesmente como um experimento com 3tentativas independentes. Por extensão, podemos considerar um experimento consistindo de n 

     jogadas independentes. A probabilidte pk qn - k   vezes o número de vezes que o termo pode aparecer. Por esta razão, em n

     jogadas independentes de uma moeda

    onde p = P(C) em qualquer jogada.

    Outras considerações:  Conceito de probabilidade usando distribuições defreqüências relativas.

    Exemplo 8:  Um diretor de e

     ⎠⎝ 

    k -nk q pk 

    n caras)ke(exatamentP

    ⎟⎟

     ⎞

    ⎜⎜⎛ 

    =

    scola numa pequena cidade de 40 famílias classificoucada família de acordo com o número de crianças (menores que 18 anos). As informaçõesobtidas são sumarizadas no quadro 4.1.

  • 8/18/2019 BIOMETRIA FLORESTAL

    28/141

    Quad

      nº de famílias % freq. relativa

    ro 4.1: Distribuição de número de crianças por família.

    nº de crianças0 18 45,0 0,4501 8 20,0 0,2002 7 17,5 0,1753 4 10,0 0,1004 3 7,5 0,075

    40 100,0 1,000

    O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famílias possuem 2 crianças.

    e acordo com o número de crianças na família. Desde que “o número de crianças” varia demília de variável. Quando selecionamos uma família

    uma variável aleatória desde que o seu valor (um

     Definição 1:

      Agora, suponha que uma das famílias tenha sido selecionada aleatoriamente, ou seja,cada família teve igual chance de ser escolhida. Qual é a probabilidade que a famíliaselecionada tenha 3 crianças? A resposta é 4/40, que é a mesma frequência relativa.

    Suponha que há N  resultados possíveis num experimento. A probabilidade que umevento ocorra é o número de vezes, f , que o evento pode ocorrer, dividido pelo número total,N, de possíveis resultados.

    4.3. Variáveis aleatórias:

     No exemplo 8 nós vimos um levantamento que classificou cada uma das 40 famíliasdfa para família, ela é chamada

    ente o “núaleatoriam , mero de crianças” énúmero real) depende de uma chance.

    Uma variável aleatória é uma função que atribui números reais aos pontos num espaço amostral.

    As variáveis aleatórias são normalmente representadas pelas letras maiúsculas X, W,úmeros reais atribuídos pelas variáveis aleatórias serão

    represe

      Exemplo 1:

     Y ou Z com ou sem subscritos. Os n

    ntados por letras minúsculas.

     Num experimento onde ao consumidor é dada a chance de escolher 3 produtos, sabonete, detergente ou marca A, o espaço amostral consiste dos 3 pontosrepresentando as 3 possíveis escolhas. Deixe a variável aleatória atribuir o número 1 para ascolha “marca A” e o número 0 (zero) para os outros 2 possíveis resultados. Então, P(X = 1)

    or escolher a marca A.

    Exemplo 2:

    eé igual a probabilidade do consumid

      Para 6 meninas e 8 meninos é perguntado se eles se comunicam maisfacilmente com suas mães ou com seus pais. Deixe X ser o número de meninas que pensamque se comunicam melhor com suas mães e deixe Y  ser o número total de crianças que

     pensam que se comunicam melhor com suas mães. Se X = 3, nós sabemos que ocorreu oevento “3 meninas pensam que se comunicam melhor com suas mães.” Se, ao mesmo tempo,Y = 7, nós sabemos que ocorreu o evento “3 meninas e 7 – 3 = 4 meninos pensam que secomunicam melhor com suas mães.”

    Se X é uma variável aleatória, “X = x” é uma notação simplificada que usamos paracorresponder ao mesmo evento no espaço amostral, especificamente o evento que consiste doconjunto de todos os pontos para os quais à variável X foi atribuído o valor “x”.

    Exemplo 3:  Num experimento consistindo de 2 jogadas de moeda, deixe X ser onúmero de caras. Então, X = 1 corresponde ao evento contendo os pontos Cc e cC.

  • 8/18/2019 BIOMETRIA FLORESTAL

    29/141

      Dessa maneira, “X = x” é, às vezes, referida como o “evento X = x,” quando, narealidade, pretendeu-se dizer “o evento consistindo de todos os resultados atribuídos o númerox pela variável aleatória X.”

    Por causa desta estreita correspondência entre variáveis aleatórias e eventos, asdefinições de probabilidade condicional e independência se aplicam igualmente bem àsvariáveis aleatórias.

     Definição 2:  A probabilidade condicional de X  dado Y, P (X = x | Y = y), é a probabilidade que a variável aleatória X assume o valor x, dado que a variável aleatória Y jáassumiu o valor y.

    0y)P(Y se y)P(Y

    y)Yx,(XP y)Y|xP(X (1)   >=

    =

    =====

      Exemplo 4:  Deixe X  ser o número de meninas que se comunicam bem com suasmães, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y  ser o número total decrianças que se comunicam bem com suas mães. Por conveniência, deixe Z=Y-X, tal que Z éigual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mães. Assuma queas respostas dadas pelas crianças são independentes de cada outra e que cada criança tem amesma probabilidade p  (desconhecida) de dizer que se comunica bem com a sua mãe.Encontre a probabilidade condicional P ( X=3 | Y=7).

    Primeiro, pelas suposições anteriores, X=3 e Z=4 são eventos independentes. Desdeque o evento (X=3, Y=7) é o mesmo que o evento (X=3, Z=4), temos a probabilidade

    P(X=3, Y=7) = P(X=3, Z=4)= P(X=3) P(Z=4)

    or c

     

    4433  p)-(1 p4  p)-(1 p3 (2) ⎟⎟ ⎠⎜⎜⎝ 

    ⎟⎟ ⎠

    ⎜⎜⎝ 

    = 86   ⎞⎛  ⎞⎛ 

     p ausa do exemplo 7 do item 4.2.

    Pelo mesmo exemplo, concluímos que

    tal que a probabilidade condicional

    77  p)-(1 p7

    14 7)P(Y (3) ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ==

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    30/141

     

    vComo os pontos no espaço amostral são mutuamente exclusivos, os valores que uma

    ariável aleatória pode assumir são também mutuamente exclusivos. Para um simples

     junto de valores que uma variável aleatória pode assumir tem as mesmasres individuais assumidos pela variável aleatóriatral, um conjunto de valores corresponde a um

    evento e a probabilidade da variável aleatória assumir qualquer valor dentro de um conjuntode valores é igual a soma das probabilidades associadas com todos os valores dentro doconjunto. Por exemplo:

    eros a e b,

    onde o som x que são pares. Por causa dessa similaridadeentre o conjunto de valores possíveis de X e um espaço amostral, a descrição do conjunto de

    es associadas com os vários valores que X  pode assumir, é freqüentementehamado de função de probabilidade da variável aleatória X, assim como um espaço amostral

    a variável

    espaço amostral, asrobab res de X  são conhecidas e a função de

    resultado de um experimento, a variável aleatória é definida por apenas um número. Assim,todo o con propriedades do espaço amostral. Os valocorrespondem aos pontos no espaço amos

     

    onde o somatório se estende a todos os valores de x entre, não incluindo os núm

     

    atório se aplica a todos os valores de

     probabilidadctem uma função de probabilidade. Entretanto, a função de probabilidade de umaleatória não é uma atribuição arbitrária de probabilidades, como é a função de probabilidade

     para um espaço amostral. Isto porque uma vez que as probabilidades são atribuídas aos pontosnum espaço amostral e uma vez que a variável aleatória X é definida no

     p ilidades associadas com os vários valo probabilidade de X é, dessa maneira, já determinada.

     Definição 3:  A função de probabilidade  da variável aleatória X, usualmente

    u

    representada por f(x) ou de outra maneira qualquer, é a função que dá a probabilidade de Xassumir o valor x, para qualquer número real x, ou seja,

    x) P(X f(x) (5)

      Vimos até aqui que a distribuição de probabilidades associadas com uma variável

    aleatória pode ser descrita por uma função de probabilidade. Uma outra maneira de dizer aesma coisa é através de uma função de distribuição que descreve as probabilidadesm

    acum ladas.

    ==

    0.408 14!

    4)!-(84! 

    3)!-(63!  =

     ⎞⎛ 

    ⎟⎟ ⎠

    ⎜⎜⎝ 

    ⎟⎟ ⎠

    ⎜⎜⎝ =

    7)!-(147!

     

    7

    14 7)

    ⎟⎟ ⎠

    ⎜⎜⎝ 

    ⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    4

    3

    6

    Y|3P(X )4(⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    ==⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    =

    8!6!   ⎞⎛  ⎞⎛ 

     x)P(X  b)X(aP bxa

    ∑   ==

  • 8/18/2019 BIOMETRIA FLORESTAL

    31/141

       Definição 4:  A função de distribuição  de uma variável aleatória, usualmenterepresentada por F(x), é a função que dá a probabilidade de X ser menor ou igual a qualquernúmero real x, ou seja,

    onde o somatório se estende a todos os valores de t que não forem superiores a x.

     Definição 5:  Deixe X  ser uma variável aleatória. A distribuição binominal é adistribuição de probabilidade representada pela função de probabilidade

    A função de distribuição será então

    onde: n é número inteiro positivo, 0 ≤ p ≤ 1 e q = 1 – p. Note que usaremos a convenção usualque 0! = 1.

    onde o somatório se estende a todos os possíveis valores de i menor ou igual a x. Há tabelas prontas para alguns valores selecionados dos parâmetros n e p.

    Exemplo 5:  Um experimento com n  testes independentes, onde cada teste podee P  e q,spect tão, comoostra e

     

     para x neira, o experimento tem a distribuição binominal.

    resultar em um dos dois resultados “sucesso” ou “insucesso,” com probabilidadivamente. Deixe X ser igual ao número total de “sucessos” nos n testes. Enre

    m do na quação (7),

    ∑≤xt

    n..,0,1, x para q px

    n x)P(X f(x) )7( x-nx =⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ===

    i-ni

    xi

    q pi

    n x)P(X F(x) )8(   ∑

    ≤⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ =≤=

    x ⎠⎝ 

    =≤= f(t) x) (XP F(x) )6(

    x-nxq pn

     x)(XP ⎟⎟ ⎞

    ⎜⎜⎛ 

    ==

     inteiro de 0 a n. Desta ma

     Definição 6:  Deixe X ser uma variável aleatória. A distribuição discreta uniforme é adistribuição de probabilidade representada pela função de probabilidade.

    (9) f(x) = 1/N para x = 1,2, ... , N

    esta maneira, X pode assumir qualquer valor inteiro de 1  a N  com igual

    plo 6:

    D probabilidade, se X tem a função de probabilidade discreta uniforme.

    Exem   Há em um saco N papeletas numeradas de 1 a N. O experimento consiste

    apeletas que podem ser tiradas. Deixe X ser igualo número da papeleta tirada. Então X tem a distribuição uniforme discreta.

    de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espaçoamostral tem N pontos, representando as N pa

       Definição 7:  A função de probabilidade conjunta  f (x1, x2, .. xn  ) das variáveisde X1 = x1, X2 = x2, ... , Xn = xn.

    (10)  f(x1, x2, .. xn ) = P (X1 = x1, X2 = x2, ... , Xn = xn )

    aleatórias x , x , .. x é a probabilidade da ocorrência conjunta1 2 n

  • 8/18/2019 BIOMETRIA FLORESTAL

    32/141

      Definição 8: A função de distribuição conjunta  F(x1, x2, .. xn  ) das variáveis

    aleatórias x1, x2, .. xn é a probabilidade da ocorrência junta de X1 ≤ x1, X2 ≤ x2, ... , Xn ≤ xn .

    xn )

    Exemplo 7:

      (11) F(x1, x2, .. xn ) = P (X1 ≤ x1, X2 ≤ x2, ... , Xn ≤

      Considere as variáveis aleatórias X e Y como definidas no exemplo 2.

    onde

    onde o somatório na equação (13) se estende a todos os valores de x e y tal que x ≤ 3 e y ≤ 

    ser avaliadas sem conhecer o valor de p.

    Considere f(x,y) e F(x,y) como as funções de probabilidade conjunta e de distribuição,respectivamente.

    77  p)-(1 p4

    3

    6 7)Y3,(XP 7)f(3, )12( ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ====

     e

    e7, com a usual restrição de que x e y – x são inteiros não negativos. Note que as equações (12)

    e (13) não podem   Definição 9:  A função de probabilidade condicional de X dado Y, f(x | y) é

    (14)  f(x | y) = P(X = x | Y = y)

    Da equação 1 vemos que

    ta de X e Y e f(y) é a função de probabilidadede Y e

     

    ∑≤≤ ≤≤=≤≤=

    7yx3x0

    y)f(x, 7)Y3,(XP 7)F(3, )13(

     x)-(y-8x-yx-6x  p)-(1 p x-y

    8  p)-(1 p

    x

    6 y)f(x, ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ =

     

    onde f(x, y) é a função de probabilidade conjunm si.

    Exemplo 8:  Como uma continuação do exemplo 7, considere f(x | y) como a funçãode probabilidade condicional de X dado Y.

    F(3 | 7) = P(X = 3 | Y = 7) = 0.408 da equação (4)

    f(y)y)f(x, = 

    y)

    y)Yx,P(X y)Y|xP(X y)|f(x )15(

      ======

    P(Y =

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    33/141

      Para encontrar a fórmula geral para f(x | y) (isto é, para qualquer valor de x e y),rimeiro deixe f(x, y) ser a função de probabilidade conjunta de X e Y. Isto é dado noxemplo 7 como

    que originalmente era uma forma geral da equação (2). Também, deixe f(y) ser a função de probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira

    Pela definição 9 podemos agora escrever a função de probabilidade condicional de X dado Yy

    ente

     Definição 10:

     pe 

    x)-(y-8x-yx-6x

     p)-(1 p x-y

     p)-(1 px

    6

     y)f(x, ⎟⎟ ⎠

     ⎞

    ⎜⎜⎝ 

    ⎛ 

    ⎟⎟ ⎠

     ⎞

    ⎜⎜⎝ 

    ⎛ 

    =

    y-14y  p)-(1 py

    14 y)P(Y f(y) ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ===

    =

     

    onde todos os termos que envolvem o parâmecancelados.

    tro desconhecido p foram convenientem

      Considere X1, X2, ... , Xn como variáveis aleatórias com as respectivasfunções de probabilidade f 1 (x1), f 2 (x2), ... , f n (xn) e com a função de probabilidade conjunta f(x1, x2, ... , xn ). Então X1, X2, ... , Xn são mutuamente independentes

    (17) se: f(x1, x2, ... , xn ) = f 1 (x1) f 2 (x2) ... f n (xn)

     para todas as combinações dos valores de x1, x2, ... , xn.

    Exemplo 9:  Considere o experimento descrito no exemplo 8. Então, a função de probabilidade de X é dada por

    e a função de probabilidade de Y é dada por

    ∫   ≤≤≤≤

    ⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    ⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    ==8x-y0

    6x0  para 

    y

    14

     x-y

    x

    6

     f(y)

    y)f(x, y)f(x)16(

    y-14y2  p)-(1 py

    14 y)(YP (y)f  (19) ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ===

     x-6x1 ) p-(1 px

    6 x)(XP (x)f  (18) ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ===

    Desde que:

  • 8/18/2019 BIOMETRIA FLORESTAL

    34/141

      f(x, y) = P(X = x, Y = y) = y)

    vemo 

    e, por esta razão, X e Y não são independentes.

    P(X = x | Y = y) P(y =

    O uso das equações (16) e (19) resulta na função de probabilidade conjunta de X e Y,sendo dada por

    desde que:

    s que:

    f(x, y) é diferente de f 1(x) f 2(y)

    y-14y  p)-(1 p x-y

    x

    6  ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ =

     ⎠⎝ 

    yx-20yx21  p)-(1 py

    14 

    x

    6 (y)f  (x)f    ++⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ =

    y-14y  p)-(1 py

    14 

    y

    14

     x-y

    x

    6

     y)f(x, ⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    ⎟⎟ ⎞

    ⎜⎜⎛ 

    ⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    =

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    35/141

    CAPÍTULO 5DISTRIBUIÇÃO NORMAL

    Uma função de distribuição mostra, para uma população, a freqüência relativa(números reais) de uma variável aleatória

    urais que sãocon r) ou distribuição com a formade s

    (probabilidade) com que diferentes valores

    ocorrem. Em geral, cada população tende a ter a sua própria distribuição. No entanto, adistribuição normal é a mais popular de todas por causa de sua grande aplicabilidade naaproximação do comportamento de um grande número de variáveis aleatórias nat

    tínuas. Ela é conhecida como distribuição de Gauss (difusoino – V. Figura 5.1. abaixo.

    Função: 

    ( )( )( )

    σ 

    µ 

    π σ σ µ 

    2

    5.0

    2

    1,;

    −−

    = x

    e xn  

    Para: +∞

  • 8/18/2019 BIOMETRIA FLORESTAL

    36/141

    seus re o

    da normalidade.

    ativa da médiaverdadeira da população,

    µ

    . Por exemplo, podemos estar interessados em saber:

    ter a idade m a tarefa muito fácil. Não há necessidade de fazerr por 18. Entretanto, em nossa área de

    “muito grandes” com tendência aoinfinito

    sultad s podem perder toda a confiabilidade. Entretanto, nem sempre as variáveisaleatórias distribuem-se na forma perfeita de um sino (µ  = 0 e σ  = 1). Há várias maneirasde superar este tipo de obstáculo, como aumentar o número de amostras e fazertransformações. Só não pode ignorar o detalhe

    5.1. Estimando a média da população: Na estatística de inferência tudo gira em torno da obtenção da estim

      o volume médio, µ, de uma determinada área florestal

      a idade média,µ

    , dos estudantes da turma-2006 do CFT

    Se a população é pequena, µ  é calculada sem problemas; no caso de populaçõesmaiores, a média tem que ser estimada usando amostragem de parte da população. No caso doCFT, 18 estudantes, ob édia é umamostragem, basta somar a idade de cada um e dividi

    conhecimento, a gente só trabalha com populações. Neste caso, fica muito difícil e caro, senão impossível, obter a média verdadeira da

     população,µ

    . Levando em conta os princípios e as condicionantes da amostragem, é possívelobter informação suficientemente precisa (e confiável) sobre µ  tomando apenas parte da

     população para estimar a média amostral  x _ 

    Exemplo 1: queremos saber a idade média dos estudantes da pós-graduação do INPA,que tem uma população igual a 200. Para isso, selecionamos, aleatoriamente, 10 estudantes eanotamos a idade de cada um. Portanto, temos uma amostragem de 10 estudantes de uma

     população de 200 - hipoteticamente.

    Quadro 5.1. idades de 10 estudantes de pós-graduação do INPA

    estudante 1 2 3 4 5 6 7 8 9 10

    idade 23 25 26 28 26 24 25 27 30 26

    A idade média (amostral) será:

     x _ 

     = ( ∑ xi ) / n 

     para: n = 10 e i = 1, 2, ... n 

     x _ 

      = 26 anos

    Se você utilizou uma amostra representativa da população, você estará afirmando quea média s, µ, deve ser em torno de 26 anos.verdadeira da população dos 200 estudante

    Diante disso, surgem algumas questões:

    (i)  Qual é a justificativa para utilizar a média amostral  x _ 

     para estimar a média da população

    µ

     ?

    (ii)  Qual é a confiança sobre a precisão envolvida ao usar  x _ 

     para estimar µ  ? Noexempl , ual é a probabilidade da idadeo 1 se uma amostragem com 10 estudantes é utilizada, q

     

  • 8/18/2019 BIOMETRIA FLORESTAL

    37/141

     x _ 

    média a ostral,m , estar dentro de um intervalo (vamos dizer, 1 ano) da média da população,µ ?

    ) amostragem para assegurar uma certa precisã o

    (iii   Qual é a necessária intensidade deo c m grande confiança? No exemplo 1, quão grande deveria ser uma amostragem

    (10? 20 estudantes?) para assegurar que 95% de todos os possíveis  x _ 

     caíssem dentro de uminterva

    er todas estas questões nesta apostila. A primeira será respondida, parcialm

    lo de 1 ano da média da população, µ ?

    Vamos respondente, neste capítulo e completada no capítulo 6. As outras duas (ii e iii) serão

    respondidas nos capítulos 6 e 7, respectivamente.

    Ao amostrar uma população, a média amostral,  x _ 

    , é uma variável aleatória. Nocapítulo média da população.A ince ce sobre qual a amostra foi selecionada.Apesar disso, a incerteza dim

    sentenç

     6, vamos ver, em detalhes, como este valor é “parecido” com arteza da estimativa depende de uma chan a

    inui com o aumento da intensidade de amostragem. Isto é uma

    a de um teorema matemático chamado “a lei dos grandes números” e é a nossa justificativa para usar  x

     _ 

     para estimar µ.

    5.2. Curva normal padrão (CNP) ou curva-z:

    A “lei dos grandes números” é a nossa justificativa matemática para usar  x _ 

     parasma forma, ela não é particularmente útil paraisão de tais estimativas. Esta lei, por exemplo,

    estimarµ

      ...justifica, mas não explica. Da meresponder questões práticas envolvendo a prec

    não informa sobre a probabilidade de  x _ 

    estar dentro do intervalo de 1 ano deµ

    . As

     probabilidades para  x

     _ 

     podem ser obtidas “aproximadamente” usando áreas sob certas curvasforma de “sino”.

    H

    em

    á várias curvas normais, que variam de acordo com a média e desvio padrão, µ e σ.

    a, usar a CNP para obtenção

    em todas as probabilidades (áreas sob a CNP) calculadas com precisão de dois

     No entanto, a curva que norteia todas as outras curvas, é a curva normal padrão (Figura 5.1).Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. Só existe umaúnica curva normal padrão, com

    µ

     = 0 eσ

     = 1. Quando você tem pela frente situações commédias e desvios diferentes de 0 e 1, respectivamente ... não entre em pânico! Tudo que temque ser feito é “padronizar” a sua variável aleatória e, em seguiddas probabilidades (ou áreas).

    A curva apresentada na Figura 5.1. foi desenhada depois de integrar a função de

    distribuição, de z = 0 a z = 3,9 para a primeira metade da curva à direita de 0. Como a parte dacurva à esquerda de 0  é espelho da parte à direita, as probabilidades da esquerda foramcalculadas de z = -3,9 a z = 0. Portanto, o trabalho braçal já está feito. A Tabela 1 (anexo daapostila) tdígitos.

    Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. Asfiguras que ilustram o uso da Tabela 1 estão no anexo deste capítulo.

    Exemplo 2: Achar a área sob a curva normal padrão (CNP) à esquerda de z = -0,97.

      A solução gráfica está na Figura 5.2-a.

      Você vai direto à tabela 1 e procure z = -0,9 (sentido vertical), depois o centésimo(7) (sentido horizontal) e no encontro dos dois números (0,97), você tem a área (que é a probabilidade) sob a CNP.

  • 8/18/2019 BIOMETRIA FLORESTAL

    38/141

       Neste caso, a área é igual a 0,1660. Isto quer dizer que 16,6% da área está àesquerd

    P é igual a 1.

    a de z = -0,97 ou que 83,4% está à direita de z = -0,97.

       Não esquecer que a área total sob a CN

     

    Exemplo 3: Achar a área sob a CNP à direita de z = 2,5.  Veja a solução gráfica na Figura 5.2-b.

      De novo, você vai à tabela 1 e procure z = 2,5, depois o centésimo 0 e no encontrodos dois números (2,50), você tem a área (que é a probabilidade) sob a CNP.

       Neste caso, você está calculando a área sob a CNP de - ∞ até 2,5, que dá 0,9938 ...à esque

    ubtrair de 1 (áreatotal da á 1 –0,9938 eita da CNP.

    rda de z = 2,5.

      Como você quer saber a área à direita de z = 2,5, você tem que s CNP) e aí sim você terá a área à direita de z = 2,5. Assim, a área à direita ser 

     = 0,0062, ou seja, 0,62% da área está à dir 

    Exemplo 4: Achar a área sob a CNP entre z = -1,04 e z = 2,06.

     Veja a solução gráfica na Figura 5.2-c.

      Neste caso, são necessários os seguintes passos: (1) achar a área à esquerda de z =-1,04, que é igual a 0,1492; (2) achar a área à direita de z = 2,06, que é igual a 0,9803; (3)calcular a área entre z = -1,04 e z = 2,06, que é dada pela diferença (0,9803 – 0,1492), que éigual a 0,8311.

    5.3. Á   ntrar as áreas sob a curva normal padrão(CNP). riações da média µ edo desvio padrão ostral

     Portanto, a resposta é: a área sob a CNP entre z = -1,04 e z = 2,06 é 0,8311, ou seja,83,11% da área da CNP está entre os dois pontos de “z”.

    reas sob outras curvas normais: Na seção anterior mostramos como enco No entanto, há várias curvas normais, que variam de acordo as va

    σ

    . Para calcular as probabilidades (áreas sob a CNP) para a média am

     x _ 

    (o princip

    são usualmente representados por média µ e desvio padrão σ. O parâmetro µ nos diz

      No entanto, no mundo real esta condição deµ

     = 0 eσ

     = 1 é praticamente impossívelIgual à CNP, a

    ouassimétrica. A assimétrica pode ser negativa (maior freqüência dos dados tendendo à direita

    al objetivo), precisamos ser capazes de encontrar as áreas sob qualquer curvanormal.

    Cada curva normal pode ser identificada por 2 números chamados parâmetros. Estesdois parâmetros

    onde a curva está centrada eσ

     indica a dispersão da curva normal. Como vimos na

    Figura 5.1, quando µ = 0 e σ = 1, temos a curva normal padrão.

    de ser verificada. Os parâmetros µ  e σ variam entre populações diferentes.curva normal (ou curvas normais) é centrada na

    µ

      e quanto maior forσ

    , mais dispersa(achatada ou esparramada) será a curva. A curva normal tem as mesmas propriedades daCNP. A única diferença é que o eixo horizontal da CNP é z e das outras curvas normais, oeixo é x.

    As curvas normais podem assumir diferentes formas. As figuras 5.3-a, 5.3-b e 5.3-cilustram as diferentes formas, as quais podem ser consideradas, respectivamente, como

     platicúrtica, mesocúrtica e leptocúrtica. É óbvio que existe um limite de achatamento para quea curva seja considerada normal. Este limite pode ser determinado usando o teste deachatamento ou curtose. Da mesma maneira, a curva normal pode ser simétrica

  • 8/18/2019 BIOMETRIA FLORESTAL

    39/141

    do eixo horizontal) e positiva (maior freqüência tendendo à esquerda do eixo) – V. Figura 5.4.Também neste caso, há limite para a assimetria, que pode ser definido usando o teste deassimetria.

    Exemplo 5: Achar área sob a rv rm  =   σ )  x = 1 e x = -1.

    ção gráfica na r -a

    : z = 3,0 (para x = 1) e z = 1 (para x = -1).

    tanto, a resposta é: a área sob a curva normal entre x = -1,0 e x = 1,0 é 0,1574,

    cu a no al (µ  -2 e = 1 entre

     Veja a solu Figu a 5.5 .

     Primeiro de tudo é preciso padronizar a variável aleatória “x”.

     Os resultados da padronização são

     Agora, você vai a Tabela 1 (anexo da apostila) para: (1) achar a área à direita de z =3,0, que é igual a 0,9987; (2) achar a área à direita de z = 1, que é igual a 0,8413; (3) calculara área entre z = 3,0 e z = 1,0, que é dada pela diferença (0,9987 – 0,8413), que é igual a0,1574.

     Por ou seja, 15,74% da área sob a curva normal está entre os dois pontos de “x”.

    Exemplo 6: Achar a área sob a curva normal (µ = 3 e σ = 2) entre x = 2 e x = 7.

     Veja a solução gráfica na Figura 5.5-b.

     Primeiro de tudo é preciso padronizar a variável aleatória “x”.

    2,0 e x = 7,0 é 0,6687, ou

     Os resultados da padronização são: z = -0,5 (para x = 2) e z = 2,0 (para x = 7).

     Agora, você vai a Tabela 1 (anexo da apostila) para: (1) achar a área à esquerda de z= - 0,5, que é igual a 0,3085; (2) achar a área à direita de z = 2, que é igual a 0,9772; (3)

    calcular a área entre z = -0,5 e z = 2,0, que é dada pela diferença (0,9772 – 0,3085), que éigual a 0,6687.

     Portanto, a resposta é: a área sob a curva normal entre x =seja, 66,87 % da área sob a curva normal está entre os dois pontos de “x”.

    Exemplo 7: Achar área sob a curva normal (µ = 6 e σ = 3) entre x = 0 e x = 12.

     Veja a solução gráfica na Figura 5.5-c.

     Primeiro de tudo é preciso padronizar a variável aleatória “x”.

     Os resultados da padronização são: z = -2,0 (para x = 0) e z = 2 (para x = 12).

     Agora, você vai à Tabela 1 (anexo da apostila) para: (1) achar a área à direita de z =2,0, que é igual a 0,9772; (2) achar a área à esquerda de z = -2, que é igual a 0,0228; (3)calcular a área entre z = 2,0 e z = -2,0, que é dada pela diferença (0,9772 – 0,0228), que é

    ual aig 0,9544.

     Portanto, a resposta é: a área sob a curva normal entre x = 0 e x = 12 é 0,9544, ouseja, 95,44 % da área sob a curva normal está entre os dois pontos de “x”.

    5.4. Populações normalmente distribuídas e variáveis aleatórias:

    Agora chegou a vez de ver como se usa as áreas sob as curvas normais para encontrar

    as probabilidades para  x

     _ 

      (aproximadamente). Antes, porém, vamos fazer algumasconsiderações sobre populações e variáveis aleatórias normalmente distribuídas.

  • 8/18/2019 BIOMETRIA FLORESTAL

    40/141

      A grande maioria (não todas) das populações e variáveis aleatórias que sãorepresentadas por quantidades como peso, volume, área basal, DAP etc. tem distribuição de

     probabilidade que pode ser representada, pelo menos aproximadamente, por meio de curvasnormais. Em outras palavras, as probabilidades para tais quantidades podem ser encontradas

    s normais. Vamos ver isso com exemplos. por meio da interpretação das áreas sob as curva

      Exemplo 8: Uma população consistindo do peso (em kg) de um grupo de 100estudantes de mestrado. Os dados da população estão sumarizados no quadro abaixo.

    Quadro 5.2: distribuição de pesos de uma população em intervalos de 1 kg.

    Peso (x) 69 70 71 72 73 74 75 76 77 78 79

    freqüência (f) 1 2 6 13 17 20 18 12 7 3 1

    f relativa (prob) ,01 ,02 ,06 ,13 ,17 ,20 ,18 ,12 ,07 ,03 ,01

    O histograma e o polígono de freqüências (absoluta e relativa) dos dados contidos no.

    Como em qualquer população, podemos associar a esta população de pesos, uma

     plesmente as freqüências r