Estatística na Mão

Sem mistérios e sem complicação

Artigos sobre Estatística


4 (2)

Visualizações: 1771

Teste t-student

Introdução

Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras que provêm de populações diferentes, como duas amostras (tratamentos) apenas.
Neste caso, ao constatar as médias destas amostras para verificar se há a diferença entre elas, estaremos indiretamente comparando as duas populações.
E por analogia, poderíamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado), enquanto outro grupo nada receberia (grupo controle). O efeito do tratamento aplicado seria verificado pela comparação dos dois grupos.
Nesses casos, o teste t seria indicado para tal comparação salientando que a variável em análise teria que apresentar os dados em distribuição normal ou aproximadamente normal.
O valor t-student calculado é dado pela fórmula geral: t= \frac{\bar x}{\sqrt{\frac{s^2}{n}}}
Onde: \bar x é a média; s²= variância e n= número de observações ou tamanho da amostra

Dados Pareados

Dados pareados é a designação dada quando os tratamentos possuem o mesmo número de elementos, ou seja, na=nb. Neste Caso temos que verificar se a amostra são dependentes ou independentes.

Amostras Dependentes

Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivíduos ou animais ou plantas.
Há a uma preocupação em que haja um pareamento entre indivíduos para que eles difiram somente no aspecto, tratado e não-tratado.
Neste caso há a necessidade de calcular a média e variância, da diferença dos valores do tratamento e não tratamento, ou seja, antes e depois.

Exemplo

Quadro 1. Dados do peso de 10 lagartas antes e depois da administração de nova dieta (dados fictícios).

Inseto

Massa (mg)

Diferença

Antes

Depois

1

24

28

4

2

23

25

2

3

24

25

1

4

23

29

6

5

30

32

2

6

31

34

3

7

31

38

7

8

14

19

5

9

20

22

2

10

18

23

5

Total

238

275

37


Exemplo 1. Resolução

Procedimento:

  • Elabora-se as hipóteses;
  • Obtêm-se as diferenças entre os valores antes e depois;
  • Verifica-se a média aritmética das diferenças;
  • Verifica-se a variância das diferenças e;
  • Aplica-se o teste t-student.

Hipóteses
H0 ⇝ não há diferença estatística na massa das lagartas antes e depois a alteração da dieta.
H1 ⇝ há diferença estatística na massa das lagartas antes e depois a alteração da dieta.

Cálculos:

Média

\bar x= \frac{\sum x (dif)}{n} \Rightarrow \bar x= \frac{37}{10} \Rightarrow 3,7 mg

Variância

\sum {x_{dif}^2} = 173; \sum {x_{dif}} = 37; n=10 (são os mesmos indivíduos)
s^2= \frac{\sum {x_{dif}}^2 - \left (\frac{\sum{x_{dif}}^2}{n}\right )}{n-1}
s^2=\frac{173-\left (\frac{37^2}{10}\right)}{10-1}
s^2=4,01

Valor de tCalculado

t= \frac{3,7}{\sqrt{\frac{4,01}{10}}} \Rightarrow t=5,84

No exemplo 1, n= 10, portanto, devemos verificar os valores críticos com nove graus de liberdade. Desta forma, encontramos os valores 2,26 (5% ou α=0,05) e 3,25 (1% ou α=0,01).
O valor encontrado (calculado) de tcalc= 5,84 é maior do que os valores da tabela.
Optamos pela rejeição de H0 (hipótese nula) em nível de 5% de probabilidade (α=0,05).
Verificamos ainda que o valor de tcalc é superior ao valor a 1% de probabilidade, portanto a diferença é altamente significativa.
Conclui-se que há alteração a massa das lagartas influenciada pela adição da dieta, a 5 e 1% de probabilidade.

Cálculo Usando R

Cabe antes explicar a função que permite o caluclo do teste t-student como segue:

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

x
Um conjunto de dados não vazio, geralmente usa-se a função x1=c(valor1, valor2,...valorn)

y
Um conjunto de dados opcional (o padrão é y=NULL), geralmente usa-se a função x2=c(valor1, valor2,...valorn)

paired
Valor lógico, que indica se o teste t será realizados com dados pareados ou não pareados. O padrão é paired=T ou paried=TRUE.

conf.level
Nível de confiança do intervalo.

alternative
Uma sequência de caracteres especificando a hipótese alternativa, deve ser uma de "two.sided" (padrão), "greater" ou "less". Você pode especificar apenas a letra inicial.
alternative = "greater" é a alternativa de que x tem uma média maior que y.

Script
#dados pareados – dependentes
#atribui a variável diff os valores das diferenças do quadro 1
diff=c(4, 2, 1, 6, 2, 3, 7, 5, 2, 5)
#usa a função t.test para calcular a valor de t para este conjunto de dados
#Realiza o teste t-student e exibe os valores de t calculado, grau de liberdade e p-value
t.test(x = diff, conf.level = 0.95)
#Atribui a variável variancia o valor da função var, que calcula a variância dos conjunto de dados diff. Ao final da linha tem um ; que permite informar ao R que é o fim da instrução e em seguida há a variável variancia. Este processo premite exibir o valor da variância co conjunto de dados diff
variancia=var(diff); variancia
Resolução
One Sample t-test
data: diff t = 5.8421, df = 9, p-value = 0.0002462
alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 2.2673 5.1327
sample estimates:
mean of x
3.7
> variancia=var(diff); variancia
[1] 4.011111

Amostras Independentes

Neste caso os dados são tratados de forma diferente, ou seja, possuem o mesmo valor n, mas não pertencem ao mesmo tratamento ou não há comparação antes e depois.
O teste t utilizado nesta situação pressupõe variâncias diferentes, mesmo que as duas amostras possuam valores n iguais.
Para amostras independentes o valor t-student calculado é dado pela fórmula:
t= \frac{\bar x_1-\bar x_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}
Onde: \bar x_1 e \bar x_2= médias das amostras; s²2 e s²2= variâncias das amostras; e n1 e n2= número de observações das amostras.

Exemplo 2

Quadro 2. Dados de dois tratamentos de duas dietas usadas para alimentação de insetos.

Inseto

Tratamento 1

Tratamento 2

1

23,6

19,3

2

25,3

16,3

3

25,1

15,3

4

28,3

22,6

5

32,3

23

6

28,3

28,6

7

22

24,6

8

18,3

19,5

9

19,3

18,5

10

26,3

20,1

Exemplo 2. Resolução

Procedimento:

  • Elabora-se as hipóteses;
  • Estima-se a média aritmética de cada tratamento;
  • Estima-se a variância de cada tratamento e;
  • Aplica-se o teste t-student.

Hipóteses
H0 ⇝ não há diferença estatística na massa dos insetos para as duas dietas a ser administradas.
H1 ⇝ há diferença estatística na massa dos insetos para as duas dietas a ser administradas.

Cálculos:

Médias e Variância

Tratamento 1
Média:\bar x= \frac{248,8}{10} \Rightarrow \bar x=24,88 Variância:s^2= \frac{6355,2 - \left (\frac{{248,8}^2}{10}\right )}{10-1} \Rightarrow 18,3396
Tratamento 2
Média:\bar x= \frac{207,8}{10} \Rightarrow \bar x=20,78 Variância:s^2= \frac{4461,66 - \left (\frac{{207,8}^2}{10}\right )}{10-1} \Rightarrow 15,9529

Valor de tCalc

t_{calc}=\frac{|\bar x_{t1}- \bar x_{t2}|}{\sqrt{\frac{s_{t1}^2}{n_{t1}}+\frac{s_{t2}^2}{n_{t2}}}}
t= \frac{|24,88-20,78|}{\sqrt{\frac{18,3396}{10}+\frac{15,9529}{10}}} \Rightarrow t=2,21

Grau de liberdade

GL = (n_{t1}-1) + (n_{t2}-1) \Rightarrow (10-1)+(10-1)=18

Tabela
O próximo passo e recorrer à tabela do teste t-student e compara-se o valor do t calculado com o valor crítico da tabela em função de α com o valor do graus de liberdade.
No exemplo 2, GL= 18, portanto, devemos verificar os valores críticos com nove graus de liberdade. Desta forma, encontramos os valores 2,10 (5% ou α=0,05) e 2,88 (1% ou α=0,01).
O valor encontrado (calculado) de tcalc 2,21 é maior que os valores da tabela. v Optamos pela rejeição de H0 (hipótese nula) em nível de 5% de probabilidade (α=0,05).
Conclui-se que há diferença entre as dietas na massa dos insetos a 5% de probabilidade e que a dieta do tratamento 1, permite um crescimento maior que tratamento 2.

Teste t-studente, curva de rejeição

Figura 1. Curva de rejeição para o exemplo 2

Calculando com R Studio
Script
#dados pareados - independentes
T1=c(23.6, 25.3, 25.1, 28.3, 32.3, 28.3, 22, 18.3, 19.3, 26.3)
T2=c(19.3, 16.3, 15.3, 22.6, 23, 28.6, 24.6, 19.5, 18.5, 20.1)
t.test(T1,T2,conf.level = 0.95, alternative = "greater")
varianciaT1=var(T1); varianciaT1
varianciaT2=var(T2); varianciaT2
Resolução
Welch Two Sample t-test
data: T1 and T2
t = 2.214, df = 17.913, p-value = 0.02002
alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 0.8879801 Inf
sample estimates:
mean of x mean of y
24.88 20.78
> varianciaT1=var(T1); varianciaT1
[1] 18.33956
> varianciaT2=var(T2); varianciaT2
[1] 15.95289

Dados Não-Pareados

Definições

Para que possamos determinar se duas amostras não são pareadas basta observar se na≠nb.
Desta forma, determina-se se a amostras (tratamentos) possuem variâncias iguais ou diferentes.
Como?
Toma-se as variâncias dos dois tratamentos (amostras) e divide a maior pela menor variância.
h=\frac{s_{maior}^2}{s_{menor}^2}
Se h ≤ 4 ⇝ Amostras com variâncias iguais (homocedásticas)
Se h > 4 ⇝ Amostras com variâncias diferentes (heterocedásticas)

Amostras homocedásticas

A aplicação do teste t-student para este caso é realizada quando comparamos as médias aritméticas de duas amostras independentes, nas quais as variâncias apresentam valores aproximadamente iguais.
Ainda neste caso, o procedimento metodológico consiste em se utilizar uma variância ponderada, considerando também o número de graus de liberdade de cada uma das amostras.
Calcula-se a Variância ponderada (p), através da fórmula:
s_p^2=\frac{(n_{t1}-1) \times s_{t1}^2+(n_{t2}-1) \times s_{t2}^2}{n_{t1}+n_{t2}-2}
Onde: nt1 e nt2 = número de elementos das amostras; s²t1 e s²t2 = variâncias dos tratamentos (amostras).
Para variâncias iguais o valor t-student calculado é dado pela fórmula:
t_{calc}=\frac{|\bar x_{t1}- \bar x_{t2}|}{\sqrt{\frac{s_p^2}{n_{t1}}+\frac{s_p^2}{n_{t2}}}}
de: \bar x_{t1} e \bar x_{t1}= médias das amostras; s²p = variância ponderada; e nt1 e nt2= número de observações das amostras.

Quadro 3. Dados de dois tratamentos de duas dietas usadas para alimentação de insetos. Nesse caso um inseto do tratamento 2 morreu.

Inseto

Tratamento 1

Tratamento 2

1

23,6

19,3

2

25,3

16,3

3

25,1

15,3

4

28,3

22,6

5

32,3

23

6

28,3

28,6

7

22

24,6

8

18,3

19,5

9

19,3

18,5

10

26,3

-

Exemplo 3. Resolução

Procedimento:

  • Elabora-se as hipóteses;
  • Verifica-se se as amostras são homo ou heterocedásticas;
  • Estima-se a média aritmética de cada tratamento;
  • Sendo homocedástica: Estima-se a variância ponderada para os dois tratamentos e;
  • Aplica-se o teste t-student.

Hipóteses
H0 ⇝ não há diferença estatística na massa dos insetos para as duas dietas a ser administradas.
H1 ⇝ há diferença estatística na massa dos insetos para as duas dietas a ser administradas.

Estimando o valor de h
h=\frac {18,3399}{17,2888} \Rightarrow 1,0255
h≤4, desta forma, as variâncias são homocedásticas

Como as variâncias são iguais, calcula-se a variância ponderada:

s_p^2=\frac{(10-1) \times 18,3396+(9-1) \times 17,8828^2}{10+9-2} \Rightarrow s_p^2=18,1246

O valor da s²p deve ser um valor entre a menor e maior variância, por ser uma média ponderadas das duas variâncias dos tratamentos

Valor de tCalculado

t_{calc}=\frac{|24,88-20,86|}{\sqrt{\frac{18,1246}{10}+\frac{18,1246}{9}}} \Rightarrow t=2,06

Grau de liberdade:
n_{t1}+n_{t2}-2

Tabela
O próximo passo e recorrer à tabela do teste t-student e compara-se o valor do t calculado com o valor crítico da tabela em função de α com o valor do graus de liberdade.
No exemplo 3, GL= 17, portanto, devemos verificar os valores críticos com nove graus de liberdade. Desta forma, encontramos os valores 2,11 (5% ou α=0,05) e 2,90 (1% ou α=0,01).
O valor encontrado (calculado) de tcalc 2,06 é menor que os valores da tabela.
Optamos por aceitar a H0 (hipótese nula) em nível de 5% de probabilidade (α=0,05).
Conclui-se que não há diferença entre as dietas na massa dos insetos a 5% de probabilidade.

Calculando com R Studio
Script
#dados não pareados - Homocedástica
T1Homo=c(23.6, 25.3, 25.1, 28.3, 32.3, 28.3, 22, 18.3, 19.3, 26.3)
T2Homo=c(19.3, 16.3, 15.3, 22.6, 23, 28.6, 24.6, 19.5, 18.5)
t.test(T1Homo,T2Homo, conf.level= 0.95, var.equal = T)
Resolução
Two Sample t-test
data: T1Homo and T2Homo
t = 2.0574, df = 17, p-value = 0.05532
alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.1025537 8.1514426
sample estimates: mean of x mean of y
24.88000 20.85556

Variâncias Desiguais (Heterocedásticas)

Caso os dados não pertençam às amostras não pareadas, o teste T será aplicado baseando-se na diferença entre as médias das duas amostras, podendo as mesmas apresentarem tamanhos diferentes (n1 e n2).
Supõe-se, neste caso, que as amostras são independentes e que apresentam variâncias desiguais.
Há uma regra prática que identifica essa desigualdade a ponto de justificar tal procedimento.
Se a relação entre as variâncias apresentarem valor maior que quatro, isto justifica a conduta sugerida.

Para variâncias iguais o valor t-student calculado é dado pela fórmula:
t_{calc}=\frac{|\bar x_{t1}- \bar x_{t2}|}{\sqrt{\frac{s_{t1}^2}{n_{t1}}+\frac{s_{t2}^2}{n_{t2}}}}
de: \bar x_{t1} e \bar x_{t1}= médias das amostras; s²t1 e s²t2 = variâncias de cadas tratamento; e nt1 e nt2= número de observações das amostras.

Exemplo 4

Quadro 4.Dados de dois tratamentos de duas dietas usadas para alimentação de insetos. Nesse caso um inseto do tratamento 1 morreu.

Inseto

Tratamento 1

Tratamento 2

1

23,6

19,3

2

25,3

16,3

3

25,1

15,3

4

28,3

22,6

5

32,3

23

6

28,3

28,6

7

22

24,6

8

18,3

19,5

9

19,3

18,5

10

26,3

-

  • Elabora-se as hipóteses;
  • Verifica-se se as amostras são homo ou heterocedásticas;
  • Estima-se a média aritmética de cada tratamento;
  • Sendo heterocedástica: Estima-se as variâncias para os dois tratamentos e;
  • Aplica-se o teste t-student.

Hipóteses
H0 ⇝ não há diferença estatística na massa dos insetos para as duas dietas a ser administradas.
H1 ⇝ há diferença estatística na massa dos insetos para as duas dietas a ser administradas.

Estimando o valor de h
h=\frac {10,9973}{2,4300} \Rightarrow 4,5257
h>4, desta forma, as variâncias são heterocedásticas

Como as variâncias são deiguais, não há necessidade de calcular a variância ponderada:

Valor de tCalculado

t_{calc}=\frac{|26,48-20,77|}{\sqrt{\frac{10,9973}{10}+\frac{2,43}{9}}} \Rightarrow t=3,34

Grau de liberdade:
GL = \frac{\left(\frac{s_{t1}^2}{n_{t1}} + \frac{s_{t2}^2}{n_{t2}} \right )^2}{\frac{\left (\frac{ s_{t1}^2}{n_{t1}}\right)^2}{n_{t1}-1}+\frac{\left (\frac{ s_{t2}^2}{n_{t2}}\right)^2}{n_{t2}-1}} \Rightarrow GL = \frac{\left(\frac{10,9973}{10} + \frac{2,43}{9} \right )^2}{\frac{\left (\frac{10,9973}{10}\right)^2}{10-1}+\frac{\left (\frac{ 2,43}{9}\right)^2}{9-1}} \Rightarrow GL=13,0571 \Rightarrow GL \simeq 13

Tabela
O próximo passo e recorrer à tabela do teste t-student e compara-se o valor do t calculado com o valor crítico da tabela em função de α com o valor do graus de liberdade.
No exemplo 3, GL ≅ 13, portanto, devemos verificar os valores críticos com nove graus de liberdade. Desta forma, encontramos os valores 2,16 (5% ou α=0,05) e 3,01 (1% ou α=0,01).
O valor encontrado (calculado) de tcalc 3,34 é menor que os valores da tabela.
OptOptamos pela rejeição de H0 (hipótese nula) em nível de 5% de probabilidade(α=0,05).
Conclui-se que há diferença entre as dietas na massa dos insetos a 5% de probabilidade e que a dieta do tratamento 1, permite um crescimento maior que tratamento 2.

Calculando com R Studio
Script
#dados não pareados - Heterocedásticos
T1Hetero=c(23.6, 25.3, 25.1, 28.3, 28.3, 28.3, 22, 20.3, 19.3, 26.3)
T2Hetero=c(19.3, 19.3, 19.6, 22.6, 23, 22.3, 21.5, 19.5, 19.8)
t.test(T1Hetero,T2Hetero, conf.level= 0.95, var.equal = F)
Resolução
Welch Two Sample t-test
data: T1Hetero and T2Hetero
t = 3.3437, df = 13.075, p-value = 0.005246
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.386408 6.440258
sample estimates:
mean of x mean of y
24.68000 20.76667

Tabela de t-student


Referências

Beasley, C.R.. 2004. Bioestatística Usando: R Apostila de Exemplos para o Biólogo. Disponível em: https://cran.r-project.org/doc/contrib/Beasley-BioestatisticaUsandoR.pdf

Mello, M.P. & Paternelli, L.A. Conhecendo R: Uma visão mais que estatística Viçosa: UFV, 222 p.

Zar, J.H. 1999. Biostatistical Analysis, 4th Edition. New Jersey: Prentice Hall. 663 p.


Material pertencente ao curso de Estatística aplicada À Entomologia
Copyright © Methodos Consultoria Ambiental Ltda ME

Como citar este artigo:
Rodrigues, William Costa, 2016. Teste t-student. Estatística na Mão. Disponível em: http://estatisticanamao.agroamb.com.br/estatisticanamao/artigos.aspx?ID=8?ID=8. [Acesso em: 24.09.2018].



Topo