Estatística na Mão

Sem mistérios e sem complicação

Artigos sobre Estatística



Visualizações: 594

Transformação de Dados

Definições

Para uma aplicação válida dos testes de significância, baseados nas propriedades da curva normal, é necessário que os dados tenham uma distribuição normal.
As porcentagens, as contagens e as notas dadas a certas características qualitativas, exigem quase sempre essa transformação.
O objetivo da transformação de dados e aproximar os valores da média, ou seja dar aos dados uma distribuição aproximadamente normal para que possam ser analisados desta forma.


Transformações


Raiz Quadrada

Essa transformação é utilizada quando a variância é proporcional a média, ou seja, quando há uma redução dos valores de média e variância diminui simultaneamente.
É frequentemente utilizado em dados biológicos quando amostras são tiradas da Distribuição de Poisson (isto é, quando os dados consistem em ocorrências aleatórias de tempo ou região ou espaço).
Transformando os dados utilizando suas raízes quadradas resulta em uma amostra cuja distribuição é normal.
Os dados que se recomenda utilizar este tipo de transformação são dados de percentagens e contagens (variáveis numéricas discretas).
As equações normalmente utilizadas são:
x'=\sqrt{x+0,5} ou x'=\sqrt{x+1} ou x'=\sqrt{x} Sendo a primeira mais utilizada.
É sempre preferível usar x'=\sqrt{x+0,5} ou ainda usar x'=\sqrt{x+1} por uma razão bem simples, quando o valor de x=0 ele se aproxima da média dos valores transformados, ou seja, será 0,7071 e 1 respectivamente.
x'=\sqrt{x} é preferencialmente utilizada em conjunto de dados pequenos.
Admite-se ainda a transformação usando:

x'=\sqrt{x}+\sqrt{x+1}

x'=\sqrt{x+3 \over 8}


Transformação Logarítmica

Este transformação é utilizada principalmente quando as médias e os desvios padrões (erros) tendem a serem proporcionais, sendo, nesse caso, os coeficientes de variação aproximadamente iguais.
É utilizada, ainda, quando os dados são representados por números positivos, ou porcentagens que abrangem uma grande amplitude de variação.
Quando aparece o valor zero, utiliza-se a transformação x' = \log{x+1}.
A base 10 para os logaritmos é utilizada normalmente, por conveniência, porém qualquer outra base poderá ser utilizada, desde que, seja especificada.


Transformação Angular (Arcoseno)

Essa transformação é utilizada quando os dados estão associados a uma distribuição binomial (presença-ausência), como muitas vezes que um determinado caráter aparece num total definido.
É o caso, por exemplo, do número de plantas sobreviventes em relação ao número total de plantas que deveriam estar presentes se nenhuma tivesse morrido após ataque severo de algum inseto.
Os dados são transformados em percentagens e, em seguida, são calculados os valores através da fórmula p'=\arcsin(\sqrt{p}), utilizando-se uma tabela apropriada.
Nesse tipo de transformação, todos os dados deveriam estar baseados em um número de observações iguais, mas o método pode também ser utilizado quando esse número não é rigorosamente igual é sugerido na literatura que valores de 0 e 100%, sejam substituídos por \frac{1}{4}n e 100 -\frac{1}{4}n, respectivamente, antes de entrar na tabela.
É possível ainda voltar os dados ao original utilizando a função seno:
p=\left (\sin {p'}\right)^2


Usando R Script


Raiz Quadrada

Script
x<- c(3.1, 2.9, 3.3, 3.6, 3.5, 7.6, 6.4, 7.5, 6.9, 6.3)
xRaiz=sqrt(x+0.5); xRaiz

Resultado:
> x<- c(3.1, 2.9, 3.3, 3.6, 3.5, 7.6, 6.4, 7.5, 6.9, 6.3)
> xRaiz=sqrt(x+0.5); xRaiz
 [1] 1.897367 1.843909 1.949359 2.024846 2.000000 2.846050 2.626785 2.828427 2.720294 2.607681

Logaritmo

Script
x<- c(3.1, 2.9, 3.3, 3.6, 3.5, 7.6, 6.4, 7.5, 6.9, 6.3)
xLog=log10(x+1); xLog

Resultado:
> x<- c(3.1, 2.9, 3.3, 3.6, 3.5, 7.6, 6.4, 7.5, 6.9, 6.3)
> xLog=log10(x+1); xLog
[1] 0.6127839 0.5910646 0.6334685 0.6627578 0.6532125 0.9344985 0.8692317 0.9294189 0.8976271 0.8633229

Arcoseno

Script
x<- c(3.1, 2.9, 3.3, 3.6, 3.5, 7.6, 6.4, 7.5, 6.9, 6.3)
xArcSin= asinh(sqrt(x)); xArcSin

Resultado:
> x<- c(3.1, 2.9, 3.3, 3.6, 3.5, 7.6, 6.4, 7.5, 6.9, 6.3)
> xArcSin= asinh(sqrt(x)); xArcSin
[1] 1.331185 1.302309 1.358469 1.396771 1.384330 1.738602 1.658250 1.732379 1.693316 1.650931

Referências

Zar, J.H. 1999. Biostatistical Analysis, 4th Edition. New Jersey: Prentice Hall. 663 p.

Beasley, C.R.. 2004. Bioestatística Usando: R Apostila de Exemplos para o Biólogo. Disponível em: https://cran.r-project.org/doc/contrib/Beasley-BioestatisticaUsandoR.pdf


Material pertencente ao curso de Estatística aplicada À Entomologia Copyright © Methodos Consultoria Ambiental Ltda ME

Como citar este artigo:
Rodrigues, William Costa, 2016. Transformação de Dados. Estatística na Mão. Disponível em: http://estatisticanamao.agroamb.com.br/estatisticanamao/artigos.aspx?ID=2?ID=2. [Acesso em: 20.04.2018].



Topo