Estatística na Mão

Sem mistérios e sem complicação

Artigos sobre Estatística


5 (4)

Visualizações: 989

Análise de Qui-Quadrado (χ²)

Introdução

A análise de qui-quadrado ou χ² foi desenvolvido por Pearson, sendo muito utilizado em pesquisas biológicas e médicaspela sua facilidade e pela sua precisão, quando há variáveis categórias e numéricas em um conjunto de dados.
É um teste não paramétrico, ou seja, não depende de parâmetros populacionais, como média e variância (Conti 2011).
Ainda segundo a autora. É um teste de hipóteses que se destina a:

  • encontrar um valor da dispersão para duas variáveis nominais, e
  • avaliar a associação existente entre variáveis qualitativas.

❝O princípio básico deste método é comparar proporções, isto é, as possíveis divergências entre as frequências observadas e esperadas para um certo evento.
Evidentemente, pode-se dizer que dois grupos se comportam de forma semelhante se as diferenças entre as frequências observadas e as esperadas em cada categoria forem muito pequenas, próximas a zero.❞(Conti 2011)

A fórmula utilizada para calcular o χ² é:
\chi ^2= \frac {\sum\left( {fo-fe}^2\right )}{fe}
Onde: fo= frequência observada e; fe= frequência esperada
Portanto o valor do desvio (fo-fe) é elevado ao quadrado e dividido pela frequência esperada. Desta forma a equação pode ser considerada também da seguinte forma:
\chi ^2= \frac {\sum\left( {d}^2\right )}{fe}
Onde: d= fo-fe; fe=frequência esperada

Em muitos casos utiliza-se este teste em experimentos probabilísticos, por exemplo, lançamentos de moedas ou proporção de doentes após uma epidemia. No primeiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50% (frequência esperada) e o valor real após os lançamentos será a frequência observada. No segundo caso a frequência esperada deverá ser corrigida (calculada) através da Tabela de Contingência.

Tabela de Contingência

Em muitos trabalhos experimentais, os dados colhidos representam ocorrência de certos fenômenos que se podem classificar numa tabela, chamada tabela de contingência.
Estas tabelas têm como objetivo estudar a possível associação entre duas variáveis que classificam os dados. Em tal situação a H0 (hipótese nula) será testar a ausência da independência entre as variáveis.
Para poder calcular o χ², é necessário que tenhamos as frequências teóricas, o que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira diante da condição a elas imposta.
A comparação entre os valores calculados de χ², para verificar a significância pode ser obtido na tabela de χ²

Exemplo: Num Shopping Center, foram escolhidas ao acaso pessoas com três diferentes faixas etárias, para verificar a incidência de diabete. Para tal, foram coletadas amostras de sangue. A H0 é que não diferença entre as faixas etárias em relação a ter diabete.
Os dados coletados ao final do experimento foram:

Faixa Etária
(anos)

Pessoas

Com diabete

Sem diabete

A: 10-15

2

75

77

B: 16-21

12

62

74

C: 22-40

20

52

72

S

34

189

223

Procedemos o cálculo da frequência esperada com base nos dados coletados. Desta forma, temos

Neste caso temos uma tabela de contingência de 2 x 3, pois temos duas situações as serem testadas (com ou sem diabete) em três grupos (faixas etárias).
O Grau de liberdades para tabelas de contingências será calculado pela seguinte fórmula:GL=(n_s -1) \times (n_g-1). No nosso exemplo teremos:
GL=(2 -1) \times (3-1) \Rightarrow GL= 1 \times 2 \Rightarrow GL= 2
Para calcular as frequências realiza-se uma regra de três simples como segue:
34 –––––––––––––––– 223
fe –––––––––––––––– 77
Ou seja, fe_A=\frac{34 \times 77}{223} = 11,7399 \cong 11,74 a fe da terceira coluna (sem diabete) é calculada pela diferença entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (∑). Os demais valores da linha subsequentes são obtidos com a realização da regra de três para cada valor da 2ª coluna.

Faixa Etária
(anos)

Pessoas*

Com diabete

Sem diabete

A: 10-15

2 (11,74)

75 (65,26)

77

B: 16-21

12 (11,28)

62 (62,72)

74

C: 22-40

20 (10,98)

52 (61,02)

72

S

34

189

223

Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anteriormente. Assim teremos:

\chi^2=\frac{\left(2-11,74 \right )^2}{11,74}+\frac{\left(75-65,26 \right )^2}{65,26}+ \frac{\left(12-11,28 \right )^2}{11,28}+\frac{\left(62-62,72 \right )^2}{62,72}+ \frac{\left(20-10,98 \right )^2}{10,98}+\frac{\left(52-61,02 \right )^2}{61,02}

\chi^2=\frac{94,87}{11,74}+\frac{94,87}{62,26}+ \frac{0,5184}{11,28}+\frac{0,5184}{62,72}+\frac{81,36}{10,98}+\frac{81,36}{61,02}

\chi^2= 8,09+1,45+0,05+0,01+7,41+1,33 \Rightarrow \chi^2=18,34

De acordo com a Tabela de χ², o valor χ² para 2 graus de liberdade a 5 e 1% de probabilidade seriam 5,99 e 9,21, respectivamente. Desta forma, conclui-se que há diferença entre as faixas etárias, ou seja, a ocorrência de diabete depende da faixa etária, segundo o teste de χ² a 5 e 1% de probabilidade.

Análise de Qui-Quadrado usado R

Para realizarmos a a nálise do teste de χ² no R, precisamos apenas de poucas linhas de comando, mas antes explicaremos a função chisq.test(args).

chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000)

x
Um vetor numérico ou matriz de dados. x e y também podem ser fatores.

y
Um vetor numérico; Ignorado se x é uma matriz. Se x é um fator, y deve ser um fator de mesmo comprimento, ou seja, deve conter mesmo número de elementos.

correct
Um valor lógico indicando se deve ser aplicada a correção de continuidade ao calcular a estatística de teste para tabelas 2 por 2: uma metade é subtraída de todas diferenças (O - E) ou (fo-fe) ; No entanto, a correção não será maior do que as próprias diferenças. Nenhuma correção é feita se simulate.p.value = TRUE.

p
Um vetor de probabilidades do mesmo comprimento de x. Um erro é gerado se qualquer entrada de p for negativa.

rescale.p
Um escalar lógico; Se TRUE, em seguida, p é reescalado (se necessário) para somar a 1. Se rescale.p é FALSE e p não soma a 1, um erro é gerado.

simulate.p.value
Um valor (TRUE ou FALSE ou T ou F)lógico indicando se a calcular p-valores por simulação de Monte Carlo .

B
Um número inteiro que especifica o número de repetições utilizadas no teste de Monte Carlo.

Script

#Constroi a tabela de contigência. 
#2, 12, 20 com diabetes e 75, 62, 52 sem diabetes
dados=as.table(rbind(c(2,12,20), c(75,62,52)))
#informa ao R a situação das pessoas quanto a ter ou não a doença, 
#criando uma lista e associando com a faixa etária
dimnames(dados)=list(doenca=c("Com Diabetes", "Sem Diabetes"), 
                     idades=c("A:10-15", "B:16-21","C:22-40"))
#realiza a o teste de Qui-quadrado
result =chisq.test(dados, correct=F,p=Ppoisson)
#exibe os valores observados
result$observe
#exibe os valores esperados
result$expected
#exibe os valores residuais
result$residuals
#exibe a análise do Qui-quadrado
result
#realiza o teste exto de Fisher
fisher.test(dados,conf.level = 0.95)
#plota o gráfico com os valores O e E (fo e fe)
barplot(dados,xlab="Faixa etária",ylab="Doença (frequência)", beside=T 
        ,legend=rownames(dados),args.legend=list(x = "topright", bty = "n", inset=c(0.01,-.50)))

Resultado

> #Constroi a tabela de contigência. 
> #2, 12, 20 com diabetes e 75, 62, 52 sem diabetes
> dados=as.table(rbind(c(2,12,20), c(75,62,52)))
> #informa ao R a situação das pessoas quanto a ter ou não a doença, 
> #criando uma lista e associando com a faixa etária
> dimnames(dados)=list(doenca=c("Com Diabetes", "Sem Diabetes"), 
+                      idades=c("A:10-15", "B:16-21","C:22-40"))
> #realiza a o teste de Qui-quadrado
> result =chisq.test(dados, correct=F,p=Ppoisson)
> #exibe os valores observados
> result$observe
              idades
doenca         A:10-15 B:16-21 C:22-40
  Com Diabetes       2      12      20
  Sem Diabetes      75      62      52
> #exibe os valores esperados
> result$expected
              idades
doenca          A:10-15  B:16-21  C:22-40
  Com Diabetes 11.73991 11.28251 10.97758
  Sem Diabetes 65.26009 62.71749 61.02242
> #exibe os valores residuais
> result$residuals
              idades
doenca             A:10-15     B:16-21     C:22-40
  Com Diabetes -2.84264462  0.21360540  2.72313918
  Sem Diabetes  1.20567741 -0.09059845 -1.15499045
> #exibe a análise do Qui-quadrado
> result

	Pearson's Chi-squared test

data:  dados
X-squared = 18.338, df = 2, p-value = 0.0001042

> #realiza o teste exto de Fisher
> fisher.test(dados,conf.level = 0.95)

	Fisher's Exact Test for Count Data

data:  dados
p-value = 3.679e-05
alternative hypothesis: two.sided

> #plota o gráfico com os valores O e E (fo e fe)
> barplot(dados,xlab="Faixa etária",ylab="Doença (frequência)", beside=T 
+         ,legend=rownames(dados),args.legend=list(x = "topright", bty = "n", inset=c(0.01,-.50)))
> 
Gráfico da frequência observada e esperada, gerado no R Studio, para o script acima.

Figura 1. Gráfico da frequência observada e esperada, gerado no R Studio, para o script acima.

Tabela de Qui-Quadrado (χ²)


Material pertencente ao curso de Biostatística aplicada À Entomologia
Copyright © Methodos Consultoria Ambiental Ltda ME

Referências

Conti, F., 2011. Qui Quadrado. Disponível em:http://www.cultura.ufpa.br/dicas/biome/bioqui.htm

Rodrigues, W.C. 2010, Estatística Aplicada: 8ª Edição Revisada e Ampliada Com listas de Exercícios. Edição do autor, 62 p.

Como citar este artigo:
Rodrigues, William Costa, 2016. Análise de Qui-Quadrado (χ²). Estatística na Mão. Disponível em: http://estatisticanamao.agroamb.com.br/estatisticanamao/artigos.aspx?ID=11?ID=11. [Acesso em: 21.07.2018].



Topo