Estatística na Mão

Sem mistérios e sem complicação

Artigos sobre Estatística



Visualizações: 1054

Correlação Estatística (Cálculo Manual e no R)

Introdução

Trataremos neste artigo técnico de realização de análise de correlação de dados no R, em particular no R Studio. Insisto no uso desta IDE devido as inúmeras facilidade que ela oferece para quem está iniciando e mesmo para que trabalha horas (por dia ou por semana) com R.

A correlação linear é utilizada para verificar, num determinado conjunto, a dependência entre duas séries de variáveis.
Trata-se de um valor abstrato que dá uma ideia sobre a dependência entre os dados apresentados.
A correlação pode ser denominada positiva ou negativa. Quando positiva há a variação positiva da variável dependente (y), quando há variação positiva da variável independente (x) vice-versa. Quando negativa há a variação negativa de y, quando há variação positiva de x e vice-versa.
Os valores de r variam entre -1 (associação negativa completa) e +1 (associação positiva completa). Quando um valor é significativo, através do teste de t para r, é apresentado de forma negativa dizemos que a correlação é negativa e significativa, caso o valor seja positivo, dizemos que a correlação é positiva e significativa.

Este coeficiente, normalmente representado por \rho assume apenas valores entre -1 e 1.

  • \rho = 1 ⇝ Significa uma correlação perfeita positiva entre as duas variáveis.
  • \rho = -1 ⇝ Significa uma correlação negativa perfeita entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui.
  • \rho =0 ⇝ Significa que as duas variáveis não dependem linearmente uma da outra. No entanto, pode existir uma dependência não linear.

Valores r \begin{Bmatrix} negativos \\ positivos \\ \end{Bmatrix} indicam associação \begin{Bmatrix} negativa \\ positiva \\ \end{Bmatrix} (Ribeiro Jr, 2004)
Segundo Ribeiro Jr (2004), três propósitos principais de investigações podem ser:

  • para verificar se os valores estão associados. [Os valores de uma medida tendem a crescer (ou decrescer) à medida que a outra cresce?]
  • para predizer o valor de uma variável a partir de um valor conhecido da outra.
  • para descrever a relação entre variáveis. (Dado um aumento específico numa variável, qual o crescimento médio esperado para a segunda variável?)

Para melhor entender melhor a explanação anterior, deve-se ter em mente que a variável y é quem sofre variação em função de x. Assim sendo, quando um valor é negativo, quer dizer que com o aumento dos valores de x, y diminuem e quando o valor é positivo, existe uma proporcionalidade direta entre as variáveis, ou seja, quando aumenta os valores de x aumenta os valores de y (Figura 1).

Correlação positiva e negativa

Figura 1. Correlação linear simples positiva (A); e inversa ou negativa (B), apresentando a linha de tendência de regressão linear simples de dados fictícios.

Coeficiente de Correlação (r)

O coeficiente de correlação e designado pela letra r. Geramente para dados com distribuição normal é utilizada a Correlação de Pearson e para dados com distribuição não normal Correlação de Spearman.

Coeficiente de Correlação no R

Antes de realizarmos os cálculos, vamos a expliação sobre a função cor.test(args) do R.

cor.test(x, y,
         alternative = c("two.sided", "less", "greater"),
         method = c("pearson", "kendall", "spearman"),
         exact = NULL, conf.level = 0.95, continuity = FALSE)

x, y
Vetores numéricos. x e y devem possuir mesmo tamanho (na=nb.)

alternative
Indica a hipótese alternativa e deve ser uma das opções "two.sided", "greater" ou "less". Você pode especificar apenas a letra inicial. A opção "greater" corresponde à associação positiva, "less" à associação negativa.

method
Uma cadeia de caracteres indicando qual coeficiente de correlação deve ser usado para o teste. As opções podem ser "pearson", "kendall" ou "spearman", pode ser abreviado.

exact
Valor lógico indicando se um p-value exato deve ser computado. Usado para o tau de Kendall e o rho de Spearman. O valor padrão (NULL).

conf.level
Nível de confiança para o intervalo de confiança retornado. Atualmente, só é usado para o coeficiente de correlação de Pearson, se houver pelo menos 4 pares completos de observações.

continuity
Lógico: se for TRUE (verdadeira), uma correção de continuidade é usada para o tau de Kendall e para o rho de Spearman quando não é calculada exatamente.

Correlação de Pearson

Utilizado na análise de dados que possuem distribuição normal.
r=\frac{\sum{xy}-\left(\frac{\sum{x} \times \sum{y}}{n} \right)}{(n-1)\times s_x \times s_y}
Onde: r= coeficiente de correlação de Pearson; \sum{xy} = soma dos produtos entre os valo-res de x e y; \sum{x} x \sum{y}= produto da soma dos valores de x e y; n = número de amostras de x e y; sx e sy= desvios padrão de x e y.

Significância Baseada no Teste t para r (Pearson)

O teste de t para r é calculado através da seguinte equação:

t_r=\frac{r}{\sqrt{1-r^2}} \times \sqrt{n-2}

Para este teste compara-se o valor de tr calculado com o valor de t, na Tabela t-student, com n-2 graus de liberdade. Se o valor de tr form maior ou igual ao valor de t tabelado, inferimos que há correlação entres as variáveis testadas. Em regra geral:
\begin{Bmatrix} t_r < t_{(n-2; 0,05)}\\ t_r \ge t_{(n-2; 0,05)}\\ \end{Bmatrix} decisão \begin{Bmatrix} H_0: aceita; H_1: rejeitada \\ H_0: rejeitada;H_1: aceita \\ \end{Bmatrix}

Correlação de Spearman

Este coeficiente de correlação baseia-se no rank dos valores x e y e é largamente utilizado em análise de correlação e dados não paramétricos.
r_s=1- \frac{6 \times \sum d_1^2}{n^3-n}
Onde: rs= coeficiente de correlação de Spearman; d1 = é a diferença entre cada valor x e cada valor y correspondente; n = número de pares de dados.
A correlação de Spearman, não possui um teste de significância específico, en-tretanto o teste de Rugg ou Significância Baseada nos Intervalos é perfeitamente aceitá-vel nos caso de comparação e verificação de significâncias do valor r.
Este tipo de correlação em geral é utilizado em dados oriundos de experimentos biológicos, ou de dados coletados no campo, em geral, são dados não paramétricos.
Muitos autores preferem transformar os dados para ter mais precisão na análise, mas nesse caso o teste de correlação de Spearman já não possui validade, tendo que ser aplicado o Teste de correlação de Pearson.

Exemplo

Tabela 1. Valores de notas brutas de matemática e biologia de estudantes por idade (Adaptado de Zar, 1999)

Estudante

Idade

Notas de Matemática

Rank de xi

Notas de Biologia

Rank de yi

di

di2

1

16

57

3

83

7

–4

16

2

17

45

1

37

1

0

0

3

16

72

7

41

2

5

25

4

15

78

8

84

8

0

0

5

15

53

2

56

3

–1

1

6

15

63

5

85

9

–4

16

7

16

86

9

77

6

3

9

8

18

98

10

87

10

0

0

9

17

59

4

70

5

–1

1

10

17

71

6

59

4

2

4

Total

72

n=10; \sum{d_1^2}

Correlação de Pearson

Calculando a Correlação de Pearson manualmente

Idade dos Estudante (x) vs. Notas de matamática (y)
Obtendo os valores de cada variável da equação temos:
\sum{x \times y}=11089; \sum{x}=162; \sum{y}=682;\\ \\ s_x=1,032795559; s_y=16,08864334; n=10 \\ r=\frac{11089-\frac{162 \times 682}{10}}{(10-1) \times 1,032795559 \times 16,08864334} =0,271487437

No teste t para r temos:

t_r=\frac{0,271487437}{\sqrt{1-0,271487437^2}} \times \sqrt{10-2} = 0,797848021

Como o valor tabelado como 8 graus de liberdade (GL=8) a 5% de probabilidade (α=0,05) é igual a 2,31, portanto aceita-se a hipótese nula (não há correlação significativa e estatística entre as variáveis)

Idade dos Estudante (x) vs. Notas de biologia (y)
\sum{x \times y}=10979; \sum{x}=162; \sum{y}=679;\\ s_x=1,032795559; s_y=18,65148192; n=10 \\ r=\frac{10979-\frac{162 \times 679}{10}}{(10-1) \times 1,032795559 \times 18,65148192}=-0,119975652

No teste t para r temos:

t_r=\frac{-0,119975652}{\sqrt{1-(-0,119975652)^2}} \times \sqrt{10-2} = -0,34181135

Como o valor tabelado como 8 graus de liberdade (GL=8) a 5% de probabilidade (α=0,05) é igual a 2,31, portanto aceita-se a hipótese nula (não há correlação significativa e estatística entre as variáveis)

Correlação de Pearson no R
#cria uma matriz de dados para as variáveis x (idade estudante) y (notas de matemática)
xa=c(16,17,16,15,15,15,16,18,17,17)
ym=c(57,45,72,78,53,63,86,98,59,71)
#realizar o teste de correlação entre as duas variáveis
cor.test(xa,ym,method="pearson")

#cria uma matriz de dados para as variáveis y (notas de biologia) (x já foi setado acima)
yb=c(83,37,41,84,56,85,77,87,70,59)
#realizar o teste de correlação entre as duas variáveis
cor.test(xa,yb,method="pearson")
> #cria uma matriz de dados para as variáveis x (idade estudante) y (notas de matemática)
> xa=c(16,17,16,15,15,15,16,18,17,17)
> ym=c(57,45,72,78,53,63,86,98,59,71)
> #realizar o teste de correlação entre as duas variáveis
> cor.test(xa,ym,method="pearson")

Pearson's product-moment correlation

data: xa and ym
t = 0.79785, df = 8, p-value = 0.448
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4319796 0.7695673
sample estimates:
cor
0.2714874

>
> #cria uma matriz de dados para as variáveis y (notas de biologia) (x já foi setado acima)
> yb=c(83,37,41,84,56,85,77,87,70,59)
> #realizar o teste de correlação entre as duas variáveis
> cor.test(xa,yb,method="pearson")

Pearson's product-moment correlation

data: xa and yb
t = -0.34181, df = 8, p-value = 0.7413
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.6969542 0.5512954
sample estimates:
cor
-0.1199757

Os resultados acima indicam que a hipótese alternativa deve ser considerada, ou seja, não há correlação entre as notas de matamática e biologia, uma vez que p-value é maior que 0,05 e está na área de rejeição (Figura 2).

Correlação de Spearman

Calculando a Correlação de Spearman manualmente

Usando a equação para o a correlação de Spearman, podemos proceder da seguinte forma o cálculo:

r_s=1-\frac{6 \times \sum 72}{10^3- 10} \Rightarrow r_s=1-\frac{432}{1000-10}\Rightarrow r_s=1-\frac{432}{990}\\ r_s= 1-0,4364 \Rightarrow r_s=0,5636
Correlação de Spearman no R
#cria uma matriz de dados para as variáveis x (notas de matamática) y (notas de biologia)
xm=c(57,45,72,78,53,63,86,98,59,71)
yb=c(83,37,41,84,56,85,77,87,70,59)
#realizar o teste de correlação entre as duas variáveis
cor.test(xm,yb,method="spearman", exact=T)
> #cria uma matriz de dados para as variáveis x (notas de matamática) y (notas de biologia)
> xm=c(57,45,72,78,53,63,86,98,59,71)
> yb=c(83,37,41,84,56,85,77,87,70,59)
> #realizar o teste de correlação entre as duas variáveis
> cor.test(xm,yb,method="spearman", exact=T)

Spearman's rank correlation rho

data: xm and yb
S = 72, p-value = 0.09579
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.5636364

Os resultados acima indicam que a hipótese alternativa deve ser considerada, ou seja, não há correlação entre as notas de matamática e biologia, uma vez que p-value é maior que 0,05 e está na área de rejeição (Figura 2).

Áreas de aceitação e rejeição da hipótese nula (H0)

Figura 2. Áreas de aceitação e rejeição da hipótese nula (H0)

Tabela de t-student


Referências

Ribeiro Jr., P.J. 2004. Correlação. http://leg.ufpr.br/~paulojus/CE003/ce003/node8.html

Zar, J.H. 1999. Biostatistical Analysis, 4th Edition. New Jersey: Prentice Hall. 663 p.

Como citar este artigo:
Rodrigues, William Costa, 2016. Correlação Estatística (Cálculo Manual e no R). Estatística na Mão. Disponível em: http://estatisticanamao.agroamb.com.br/estatisticanamao/artigos.aspx?ID=9?ID=9. [Acesso em: 24.02.2018].



Topo