Ponderando a pertinência do p: problemas e precauções

(na análise de dados phonéticos)

Ronaldo Lima Jr.

Universidade de Brasília | CNPq

“I want to break p

Objetivo da análise quantitativa

O grande problema do pesquisador, e consequente objetivo da estatística inferencial, é inferir ____________ (desconhecidos) de uma ____________ com base nos ____________ (conhecidos) de uma ____________.

Objetivo da análise quantitativa

O grande problema do pesquisador, e consequente objetivo da estatística inferencial, é inferir parâmetros (desconhecidos) de uma população com base nos dados (conhecidos) de uma amostra.

  • Muita responsabilidade!

O que é o valor de p?

É a p____________ de se observar dados ____________ que os coletados caso a h____________ seja ____________.

O que é o valor de p?

É a probabilidade de se observar dados tão ou mais extremos que os coletados caso a hipótese nula seja verdadeira.

Exemplo

  • Jogo de cara ou coroa
  • Cara eu ganho, coroa você ganha
  • Qual é a probabilidade de uma moeda justa cair cara?
    • Chance de 1:2 \(\rightarrow\) \(1/2 = 0.5\) \(\rightarrow\) \(50\%\)
  • Qual é a probabilidade de caírem 3 caras em 3 jogadas se a moeda for justa?
    • Opções: Ca-Ca-Ca, Ca-Ca-CO, Ca-CO-Ca, Ca-CO-CO, CO-Ca-Ca, CO-Ca-CO, CO-CO-Ca, CO-CO-CO
    • 8 opções \(\rightarrow\) \(1/8 = 0.125\) \(\rightarrow\) probabilidade de 12,5% de caírem 3 caras em 3 jogadas se a moeda for justa

Opção Caras p
Ca-Ca-Ca 3 0.125
Ca-Ca-CO 2 0.125
Ca-CO-Ca 2 0.125
Ca-CO-CO 1 0.125
CO-Ca-Ca 2 0.125
CO-Ca-CO 1 0.125
CO-CO-Ca 1 0.125
CO-CO-CO 0 0.125
  • Qual é a probabilidade de caírem 2 caras?
    • \(0.125 \times 3 = 0.375 \rightarrow 37.5\%\)
  • E de caírem 2 ou mais caras?
    • \(0.125 \times 4 = 0.5 \rightarrow 50\%\)

3 jogadas

6 jogadas

12 jogadas

50 jogadas

100 jogadas

  • Se cara eu ganho e caem 100 caras em 100 jogadas, o que você deduz?
    • Ronaldo está roubando – a moeda é adulterada
  • E se caírem 99 ou 100 caras?
  • E se caírem 98 ou mais caras?
  • E se caírem 90 ou mais caras?
  • 50?
  • 51?
  • Qual é o seu limite? A partir de quantas caras em 100 jogadas você deduziria que estou roubando? escreva este número.
    • \(H_1\): Ronaldo está roubando – a moeda é adulterada
    • \(H_0\): Ronaldo não está roubando – a moeda é justa

  • Qual é a probabilidade de caírem 90 ou mais caras em 100 jogadas?
    • sum(dbinom(90:100, 100, 0.5))
    • 1.531645e-17 \(\rightarrow 0.000000000000001531645\%\)

  • Qual é a menor probabilidade que deveríamos usar para inferir que a \(H_0\) é falsa?
  • Quão pequena deve ser a probabilidade de aparecerem tantas caras assim a ponto de você inferir que estou roubando e que a moeda é adulterada?
  • Tradicionalmente: \(5\%\) (\(p < 0.05\))
  • A partir de quantas caras em 100 jogadas a probabilidade de aparecer essa quantidade de caras ou mais é menor que \(5\%\)?
sum(dbinom(58:100, 100, 0.5))
[1] 0.06660531
sum(dbinom(59:100, 100, 0.5))
[1] 0.04431304

  • O seu número anotado de quantidade de caras a partir da qual você deduziria que estou roubando foi maior que 59?
    • Se sim, você foi mais rígido que a tradição arbitrária de \(p<0.05\)

O que é o valor de p?

  • É a probabilidade de se observar dados tão ou mais extremos que os coletados caso a hipótese nula seja verdadeira.

O que NÃO é o valor de p?

  • não é a probabilidade da \(H_0\) ser verdadeira (é a probabilidade dos dados diante da \(H_0\))
  • não prova que a \(H_1\) seja verdadeira, apenas indica a decisão de rejeitar a \(H_0\) (e aceitar, por responsabilidade do pesquisador, a \(H_1\))
  • não indica a magnitude ou importância de um efeito – um p muito baixo não indica um efeito muito alto
    • consequentemente, não existe valor de p “marginalmente significativo” ou “aproximando significância”
    • \(p = 0.06\) não indica tendência de efeito/de diferença

5 críticas ao valor de p

(e.g., Wagenmakers 2007, Nuzzo 2014, Halsey 2015, Kruschke 2015)

  1. decisão categórica que valor de p impõe

5 críticas ao valor de p

(e.g., Wagenmakers 2007, Nuzzo 2014, Halsey 2015, Kruschke 2015)

  1. decisão categórica que valor de p impõe
  2. arbitrariedade do 0,05 como valor limite para decisão

2. Arbitrariedade de \(\alpha = 0.05\)

  • Basta diminuir \(\alpha\)?
    • Quanto menor o \(\alpha\), menor as chances de Erro de Tipo I, mas maior as chances de Erro de Tipo II

5 críticas ao valor de p

(e.g., Wagenmakers 2007, Nuzzo 2014, Halsey 2015, Kruschke 2015)

  1. decisão categórica que valor de p impõe
  2. arbitrariedade do 0,05 como valor limite para decisão
  3. possibilidade de se manipular os dados a fim de se alcançar um valor de p abaixo de 0,05 (p-hacking)

3. p-hacking

  1. Por falta de conhecimento

3. p-hacking

  • Por falta de conhecimento
    • Teste unicaudal vs bicaudal

3. p-hacking

  • Por falta de conhecimento
    • Teste unicaudal vs bicaudal
    • HARKing (Hypothesizing After Results are Known)

3. p-hacking

  • Por falta de conhecimento
    • Teste unicaudal vs bicaudal
    • HARKing
    • Comparações pareadas múltiplas

3. p-hacking

  • Por falta de conhecimento
    • Teste unicaudal vs bicaudal
    • HARKing
    • Comparações pareadas múltiplas
    • Coletas múltiplas (mesmo indivíduo, mesmo item, etc.)

3. p-hacking

  • Por falta de conhecimento
    • Teste unicaudal vs bicaudal
    • HARKing
    • Comparações pareadas múltiplas
    • Coletas múltiplas (mesmo indivíduo, mesmo item, etc.)
  • Por decisões do pesquisador \(\rightarrow\) Vide Lima Jr. e Garcia (2021)

Ex.: Diferentes aproximações de p para modelos de efeitos mistos

  • Satterthwaite’s method
lmertTest::mod1 = lmer(distancia ~ gravacao + (gravacao|falante))
summary(mod1)

Fixed effects:
            Estimate Std. Error       df t value Pr(>|t|)    
(Intercept)  1.16050    0.12993 15.49896   8.932 1.67e-07
recording    0.14390    0.07027  9.81783   2.048   0.0683   

  • t-statistics and the normal distribution function
sjPlot::tab_model(mod1)

Fixed effects:
            Estimate Std. Error       df t value Pr(>|t|)    
(Intercept)  1.16050    0.12993 15.49896   8.932 1.67e-07
recording    0.14390    0.07027  9.81783   2.048   0.048 
  • conditional F-test with Kenward-Roger approximation
sjPlot::tab_model(mod1)

Fixed effects:
            Estimate Std. Error       df t value Pr(>|t|)    
(Intercept)  1.16050    0.12993 15.49896   8.932 1.67e-07
recording    0.14390    0.07027  9.81783   2.048   0.071  

3. p-hacking

  • Por falta de conhecimento

    • Teste unicaudal vs bicaudal
    • HARKing
    • Comparações pareadas múltiplas
    • Coletas múltiplas (mesmo indivíduo, mesmo item, etc.)
  • Por decisões do pesquisador \(\rightarrow\) Vide Lima Jr. e Garcia (2021)

  • Por conduta antiética

5 críticas ao valor de p

(e.g., Wagenmakers 2007, Nuzzo 2014, Halsey 2015, Kruschke 2015)

  1. decisão categórica que valor de p impõe
  2. arbitrariedade do 0,05 como valor limite para decisão
  3. possibilidade de se manipular os dados a fim de se alcançar um valor de p abaixo de 0,05 (p-hacking)
  4. existência de estudos com valor de p abaixo de 0,05 mas com baixo poder estatístico e/ou tamanho de efeito pequeno

Simular população de 100 mil alunos com seus resultados em um teste

population = rbeta(100000, 5, 2)

Simular população de 100 mil alunos com seus resultados em um teste

population = rbeta(100000, 5, 2)

mean(population)
sd(population)

hist(population)

mean(population)
[1] 0.7138192
sd(population)
[1] 0.1601712

Extrair amostras – 3 turmas de 20 aprendizes cada

sample1 = sample(x = population, size = 20)
sample2 = sample(x = population, size = 20)
sample3 = sample(x = population, size = 20)


class mean SD
class1 0.76 0.14
class2 0.65 0.16
class3 0.64 0.18

ANOVA

summary(aov(data = sample.data, test ~ class))
            Df Sum Sq Mean Sq F value Pr(>F)  
class        2 0.1713 0.08563   3.175 0.0493 *
Residuals   57 1.5374 0.02697                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Porém…

TukeyHSD(aov(data = sample.data, test ~ class))
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = test ~ class, data = sample.data)

$class
                     diff        lwr         upr     p adj
class2-class1 -0.10611853 -0.2310947 0.018857652 0.1111846
class3-class1 -0.11937757 -0.2443538 0.005598608 0.0640790
class3-class2 -0.01325904 -0.1382352 0.111717136 0.9647293

Qual é o poder estatístico* dessa análise?

* Valor de 0–1 que indica a probabilidade de identificar um efeito caso esteja presente

  • A análise do poder estatístico (de uma ANOVA) envolve 5 valores:
    • \(k\): a quantidade de grupos
    • \(n\): a quantidade (média) de indivíduos em cada grupo
    • \(f\): o tamanho do efeito (no caso de ANOVAs, calculamos o \(\etaˆ2\))
    • \(\alpha\): o nível de significância (ou o valor de p)
    • poder
  • Informamos 4 desses valores para que o quinto seja calculado
    • Antes de se conduzir um estudo para saber o \(n\) ideal
    • Depois de conduzido para descobrir o poder

  • Para calcular o \(\etaˆ2\):
library(lsr)
etaSquared(aov(data = sample.data, test ~ class))
         eta.sq eta.sq.part
class 0.1002268   0.1002268


  • Sugestões de Cohen:
    • \(0.1\): tamanho de efeito pequeno
    • \(0.25\): tamanho de efeito médio
    • \(0.4\): tamanho de efeito grande

  • Para calcular o poder:
library(pwr)
pwr.anova.test(k = 3, n = 20, f = 0.1002268, sig.level = 0.0493)

     Balanced one-way analysis of variance power calculation 

              k = 3
              n = 20
              f = 0.1002268
      sig.level = 0.0493
          power = 0.09451187

NOTE: n is number in each group
  • Por que apenas \(9,5\%\) de probabilidade de detectar um efeito caso haja um efeito?

  • Para calcular o \(n\) ideal para se obter um poder de \(80\%\):
pwr.anova.test(k = 3, f = 0.1, sig.level = 0.05, power = 0.8)

     Balanced one-way analysis of variance power calculation 

              k = 3
              n = 322.157
              f = 0.1
      sig.level = 0.05
          power = 0.8

NOTE: n is number in each group
  • Seriam necessários 322 aprendizes em cada turma para se obter \(80\%\) de probabilidade de detectar um efeito caso haja um
    • Factível?
    • Então o que fazer?

E se conseguíssemos 322 aprendizes em cada turma?

sample4 = sample(x = population, size = 322)
sample5 = sample(x = population, size = 322)
sample6 = sample(x = population, size = 322)


class mean SD
class4 0.72 0.15
class5 0.70 0.16
class6 0.73 0.15

ANOVA

summary(aov(data = sample.data2, test ~ class))
             Df Sum Sq Mean Sq F value Pr(>F)
class         2  0.087 0.04351    1.83  0.161
Residuals   963 22.900 0.02378               
  • Agora sim, temos \(80\%\) de probabilidade de detectar um efeito caso exista um, e não detectamos efeito, porque de fato sabemos que não há um efeito nesta população

5 críticas ao valor de p

(e.g., Wagenmakers 2007, Nuzzo 2014, Halsey 2015, Kruschke 2015)

  1. decisão categórica que valor de p impõe
  2. arbitrariedade do 0,05 como valor limite para decisão
  3. possibilidade de se manipular os dados a fim de se alcançar um valor de p abaixo de 0,05 (p-hacking)
  4. existência de estudos com valor de p abaixo de 0,05 mas com baixo poder estatístico e/ou baixo tamanho de efeito
  5. o valor de p apresenta apenas a probabilidade dos dados diante de uma \(H_0\), mas não é capaz de informar sobre a probabilidade da \(H_1\) e do efeito

5. Exemplo de olhar para outras questões além do valor de p

Resultado de um modelo linear que buscou verificar a influência das vogais /e ɛ/ e do tempo (24 coletas mensais) sobre a distância (de Mahalanobis) das vogais em relação à média de /e/ da primeira coleta de um aprendiz argentino de PB-L3:

lm(data = MD.e, MahalDist ~ Vowels + Coleta)
  
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  7.32433    0.62195  11.776  < 2e-16 ***
Vowelsɛ      1.56590    0.54227   2.888  0.00398 ** 
Coleta       0.05736    0.03919   1.464  0.14362    
  • Pelos valores de p, há efeito de vogal =)
  • mas não de tempo =(

Distâncias previstas pelo modelo:

  • Será?

Dados que geraram as distâncias e o modelo:

  • Será que realmente as vogais estão separadas?

Dados das distâncias por vogal ao longo do tempo

  • Será que realmente não houve efeito de tempo?

Com linhas de um modelo linear

Com linhas que permitem flutuação (loess)

Zoom nas linhas:

Linhas previstas por splines de um GAM (Generalized Additive Model) bayesiano:

  • Sem valores de p reportados
  • A história fica bastante incompleta olhando-se apenas para o valores de p do modelo linear
  • A melhor escolha aqui é de um modelo que permita flutuação da linha

Outras lições:

  • O mundo é muito complexo, as relações são complexas, e as investigadas são desconhecidas
  • Há associações (correlações) espúrias

Correlações espúrias





O quarteto de Anscombe (1973)

\(\bar{X}\) de x = 9

\(s\) de x = 3,3

\(\bar{X}\) de y = 7,5

\(s\) de y = 2

Corr de x e y = 0,816

Regressão linear: \(y = 3+0,5x\)

\(R^2=0,67\)

Datasaurus dozen


Datasaurus dozen

Outras lições:

  • O mundo é muito complexo, as relações são complexas, e as investigadas são desconhecidas
  • Há associações (correlações) espúrias
  • Provavelmente há diversas variáveis não investigadas envolvidas na causalidade investigada
  • Sempre devemos assumir que há variáveis de confusão não observadas
  • Nem sempre sabemos as direções das causalidades

DAGs

  • Directed Acyclic Graphs (Grafos Acíclicos Direcionados)

Propaganda

Incerteza e rigor: explorando questões de dedução, intuição e probabilidade na busca científica por causalidades

VI Encontro Intermediário do GT de Fonética e Fonologia da ANPOLL (UFPR–11 e 12 de setembro de 2024)

Alternativas para o valor de p:

  • Diminuir o foco no valor de p e não depender apenas dele para a inferência. Investigar e reportar:
    • tamanho do efeito
    • intervalos de confiança
    • poder estatístico
  • Priorizar modelos estatísticos em vez de testes de hipótese
    • com efeitos mistos para coletas repetidas
  • Utilizar modelos estatísticos que nem mesmo utilizam valores de p e que investiguem a probabilidade da hipótese de trabalho diante dos dados (estatística bayesiana - stay tuned for 2025!)

Objetivo da análise quantitativa (retomando)

O grande problema do pesquisador, e consequente objetivo da estatística inferencial, é inferir parâmetros (desconhecidos) de uma população com base nos dados (conhecidos) de uma amostra.

  • Muita responsabilidade!
    • Reportar com cautela (modalizando)
    • Investigar e reportar mais informações
    • Acrescentar gradiência (dúvida) às inferências
    • Conhecer bem o que representa e quais são as limitações do valor de p e reportá-lo de acordo com esse conhecimento
    • Pensar na significância linguística!

ronaldolimajr.github.io

ronaldo.junior@unb.br