Como comparar médias de duas variaveis em grupos spss

25-03-2020

No SPSS, podemos comparar a mediana entre 2 ou mais grupos independentes pelas seguintes etapas:

Abra o conjunto de dados e identifique as variáveis independentes e dependentes para usar mediana teste.
Agora, vá para analisar, testes não paramétricos e amostras independentes.
Então você verá a seguinte caixa de diálogo.

Também perguntado, como você interpreta a mediana no SPSS?

Etapa 2: clique em “Analisar”, passe o mouse sobre “Estatísticas descritivas” e clique em “Frequências”. Etapa 3: Clique em “Estatísticas” e marque as caixas “média”, “modo” e “ mediana . ” Clique em “Continuar” duas vezes (selecione “nenhum” como o tipo de gráfico na segunda janela).

Posteriormente, a questão é: você pode comparar medianas? Testes válidos de medianas são: teste de humor e teste de permutação de diferenças em medianas . Mas o método de permutação está correto E se e somente E se os parâmetros de escala são iguais, então o princípio da permutabilidade de dados é mantido. Caso contrário, as observações não podem ser trocadas entre os grupos e o teste não faz sentido.

Da mesma forma, o que é teste de mediana em estatísticas?

O teste de mediana é um não paramétrico teste que é usado para teste se dois (ou mais) grupos independentes diferem na tendência central - especificamente se os grupos foram retirados de uma população com o mesmo mediana . A hipótese nula é que os grupos são retirados de populações com o mesmo mediana .

Por que testamos Kruskal Wallis?

O Kruskal - Wallis H teste (às vezes também chamado de "ANOVA unilateral nas classificações") é um método não paramétrico baseado em classificação teste que pode ser usado para determinar se há diferenças estatisticamente significativas entre dois ou mais grupos de uma variável independente em uma variável dependente contínua ou ordinal.

30 perguntas relacionadas com respostas encontradas

Em qual estatística o Teste de Mediana para Amostras Independentes se baseia? dados de frequência de uma amostra para avaliar a relação entre duas variáveis na população. Cada indivíduo na amostra é classificado em ambas as variáveis, criando uma matriz de distribuição de frequência bidimensional.

Como as suposições agora foram verificadas, o teste de Mann-Whitney pode ser conduzido. Se o valor p estiver abaixo do risco alfa geralmente aceito de 5 por cento (0,05), a hipótese nula pode ser rejeitada e pelo menos uma diferença significativa pode ser assumida. Para os tempos de chamada, o valor p é 0,0459 - menor que 0,05.

Método direto do teste U de Mann Whitney Nomeie a amostra com as classificações menores “amostra 1” e a amostra com as classificações maiores “amostra 2”. Faça a primeira observação na amostra 1. Repita a Etapa 2 para todas as observações na amostra 1. Some todos os seus totais das Etapas 2 e 3.

Para iniciar o teste: Excel 2007: Selecione qualquer célula no intervalo que contém o conjunto de dados a ser analisado, clique em Comparar grupos na guia Analisar e clique em Mann Whitney. Se o conjunto de dados for organizado usando o layout da tabela: Clique em Hipótese alternativa e selecione a hipótese alternativa para testar. Clique em OK para executar o teste.

No menu iniciar, clique no “menu SPSS”. Selecione “estatísticas descritivas” no menu de análise. Após clicar no menu de estatísticas descritivas, outro menu aparecerá. A partir desta janela, selecione a variável para a qual deseja calcular as estatísticas descritivas e arraste-as para a janela de variáveis.

Para calcular a média dos dados agrupados, a primeira etapa é determinar o ponto médio (também chamado de marca de classe) de cada intervalo ou classe. Esses pontos médios devem então ser multiplicados pelas frequências das classes correspondentes. A soma dos produtos dividida pelo número total de valores será o valor da média.

Use a média para descrever a amostra com um único valor que representa o centro dos dados. Muitas análises estatísticas usam a média como uma medida padrão do centro de distribuição dos dados. A mediana e a média medem a tendência central.

SPSS: Analisar: Estatísticas descritivas. Estatísticas descritivas podem ser usadas para resumir os dados. Se seus dados forem categóricos, tente os procedimentos de frequências ou crosstabs. Se seus dados estiverem em nível de escala, tente resumos ou descritivos. Se você tiver várias perguntas de resposta, use conjuntos de várias respostas.

Para calcular a média, você soma os valores e divide pelo número de casos. Se você está marcando “Não sei” como 0, sua média seria (-1 + 1 + 2 + 2 + 0) / 5 ou 4/5. Se você descartar Não sei, sua média seria (-1 + 1 + 2 + 2) / 4 ou 4/4.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

MATERIAL DIDÁTICO

CURSO DE ESTATÍSTICA APLICADA PARA INICIANTES

MÓDULO 2

Comparação de duas médias e correlações no SPSS

AUTOR: EDUARDO FEDERIGHI BAISI CHAGAS

MARÍLIA

2016

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

SUMÁRIO

1. Significância estatística (valor de p)

2. Tamanho da Amostra

3. Intervalo de Confiança

4. Testes Estatísticos para comparação de uma média

5. Testando diferenças entre médias: Teste “t”

6. Testes Estatísticos para comparação de duas médias pareadas

7. Testes Estatísticos para comparação de duas médias independentes

8. Teste de Estatísticos de Correlação entre duas variáveis quantitativas

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

1. SIGNIFCÂNCIA ESTATÍSTICA e VALOR DE “p”

Embora os resultados descritivos da pesquisa digam muito sobre a amostra

estudada, a maioria dos pesquisadores tem se preocupado somente com o “valor de p”,

pois, supõe-se que valores significativos do ponto de vista estatístico permitem fazer

inferências sobre a população de onde a amostra se originou.

Na verdade o “valor de p” não nos diz se é possível ou não inferir sobre a

população a partir de dados de uma amostra, ele apenas nos diz qual a probabilidade de

erro ao assumirmos os resultados observados como verdadeiros. A força ou poder de

um estudo inferir sobre uma população a partir do estudo de uma amostra depende da

qualidade de procedimentos metodológicos associado ao cálculo do Tamanho da

Amostra, que por sua vez é determinado pelo desenho do estudo que se pretende

realizar.

O “valor do p” ou “p-value” é conhecido na estatística como nível descritivo e

está associado ao que chamamos de testes de hipóteses. O papel fundamental da

hipótese na pesquisa científica é sugerir explicações para os fatos. Uma vez formuladas

as hipóteses, estas devem ser comprovadas ou não através do estudo com a ajuda de

testes estatísticos.

Num teste estatístico são formuladas duas hipóteses chamadas hipótese nula

(H0) e hipótese alternativa (H1). Hipótese nula é aquela que é colocada à prova, ou seja,

é a hipótese que será confrontada pelo teste estatístico. Por outro lado, a hipótese

alternativa é aquela que será considerada como aceitável, caso a hipótese nula seja

rejeitada.

A H0 está associada a uma igualdade entre médias ou proporções que podem

indicar a não associação (independência) entre fatores de interesse. Por exemplo, num

estudo sobre fatores de risco para o diabetes tipo 2, uma hipótese nula poderia ser que

“a proporção de diabéticos tipo 2 entre obesos é igual à proporção entre não obesos“ ou

“a chance da doença é a mesma para obesos e não obesos”. Isto implicaria em dizer que

“não existe associação entre obesidade e diabetes tipo 2”.

Outro exemplo, desta vez considerando a igualdade de médias, pode ser

descrito por um estudo sobre tempo de recuperação de pacientes que realizaram cirurgia

de joelho. Supondo que desejamos comparar três procedimentos cirúrgicos diferentes,

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

uma possível hipótese seria que “o tempo médio de recuperação é o mesmo nos três

procedimentos cirúrgicos”, ou seja, “o tipo de procedimento cirúrgico não influencia no

tempo de recuperação do paciente”.

Todo teste de hipótese possui erros associados a ele, pois, partem do princípio

que os dados coletados de uma determinada amostra pode não refletir o verdadeiro

comportamento observado na população devido a variabilidade da amostra. Um dos

mais importantes é chamado “erro do tipo I” que corresponde à rejeição da hipótese

nula quando esta for verdadeira, ou seja, apontar que existem diferenças significativas

entre as médias ou proporções, quando na verdade elas não existem.

No exemplo do Diabetes Tipo 2, a probabilidade do erro do tipo I seria a

probabilidade de concluir que há associação com a obesidade, quando na verdade não

há, ou seja, concluir uma associação que não existe (que é devida ao acaso).

No exemplo do tempo de recuperação, o erro do tipo I corresponderia a dizer

que o tipo de procedimento cirúrgico influencia no tempo de recuperação quando na

realidade o tempo médio é o mesmo nos três procedimentos.

A probabilidade do erro do tipo I chama-se nível de significância e é expressa

através da letra grega α (alfa). Os níveis de significância usualmente adotados são 5%,

1% e 0,1%. Vales destacar que nada impede que o pesquisador adote um nível de

significância de 10%, porém isto implica em maior chance de cometer o erro do tipo I.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Formalmente, o nível descritivo (p) é definido como o “menor nível de

significância (α) que pode ser assumido para se rejeitar H0”, porém esta interpretação

não é simples até mesmo para os estatísticos. Considerando, de maneira muito

generalizada, que os pesquisadores ao rejeitarem a hipótese nula costumam dizer que

existe “significância estatística” ou que o resultado é “estatisticamente significante”,

poderíamos definir o nível descritivo (p) como a “probabilidade mínima de erro ao

concluir que existe significância estatística”.

Importante ressaltar que o nível de significância (α) é um valor arbitrado

previamente pelo pesquisador, enquanto que o nível descritivo (p) é calculado de acordo

com os dados obtidos. Fixado α e calculado o “p”, a pergunta é: “será que posso dizer

com segurança que o resultado é estatisticamente significante?”.

Para responder à esta questão é necessário avaliar se a probabilidade de erro é

“aceitável” ou não, isto é, se o “valor do p” é pequeno o suficiente para concluir que

existe “significância estatística” dentro de uma margem de erro tolerável. Mas saber “o

que é pequeno ou grande” depende do nível de significância adotado, portanto a decisão

do pesquisador sempre estará baseada na comparação entre os dois valores. Se o valor

do p for menor que o nível de significância (α) adotado deve-se concluir que o resultado

é significante, pois, o erro está dentro do limite fixado.

Por outro lado, se o valor de p for superior à α significa que o menor erro que

podemos estar cometendo ainda é maior do que o erro máximo permitido, o que nos

levaria a concluir que o resultado é não significante, pois, o risco de uma conclusão

errada seria acima do que se deseja assumir. Segue abaixo um esquema que resume a

regra de decisão descrita.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

A grande vantagem de se utilizar o nível descritivo é a possibilidade de

“quantificar” a significância, ou seja, no lugar de uma resposta do tipo “sim ou não”

temos a informação de “quanto”. Considere os exemplos da tabela abaixo:

Note que no 1º exemplo os dois resultados são “significantes”, porém o valor

de 0,0002 expressa uma significância muito maior do que 0,048. Além disso, este

último valor é muito próximo ao nível usual de 5%, o que pode causar dúvidas ou

ressalvas na tomada de decisão.

No 2º exemplo temos dois resultados não significantes. O 2º valor (0,987)

praticamente não expressa significância estatística nenhuma, pois, o erro é de quase

100%. Já o 1º (0,085) embora não seja significante ao nível de 5% é um valor bastante

indicativo. Portanto, é muito mais valioso e informativo expressar as conclusões através

do valor exato do p em vez de apenas menor ou maior que o nível de significância (α)

fixado.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Deste modo, considerando que o valor de p nos diz qual a chance de erro ao

inferir sobre uma população a partir dos resultados de uma amostra, vale dizer também

que isto só é possível quando os procedimentos para obtenção da amostra foram

adequados. Caso contrário, aumentamos as chances de cometer erro do tipo II, que

representa a probabilidade de detectar diferenças significativas quando elas existem.

O erro do tipo II ocorre quando o pesquisado aceita a hipótese nula (H0),

quando não verdade deveria rejeitá-la, ou seja, utilizando o exemplo dos fatores de risco

para o diabetes tipo 2, assumir que não existe associação entre diabetes tipo 2 e

obesidade, quando na verdade existe. O erro do tipo II, também chamando de Beta (β),

ocorre principalmente quando o estudo apresenta uma amostra pequena.

O Beta exerce influência sobre o Poder do estudo, ou seja, a força do estudo

em detectar as diferenças quando elas realmente existem. O Poder (P) é representado

pela expressão matemática P=1-β. Desta forma, quanto menor a margem de erro do

tipo II assumida pelo pesquisador maior o Poder do estudo em detectar diferenças

quando elas existirem.

Deste modo, as inferências baseadas nos valores de p são válidas somente

quando o pesquisador se assegura de que sua amostra foi extraída da população por

procedimento aleatório e que o tamanho da amostra foi calculado baseado em

parâmetros representativos da população que se pretende estudar. Informações para

melhor compreensão dos procedimentos para obtenção de uma amostra e a

determinação de seu tamanho serão discutidas no próximo capítulo.

Embora a análise do valor de p esteja condicionada a pressupostos

relacionados aos procedimentos metodológicos de estimativa e obtenção da amostra,

sabemos que grande parte dos estudos não leva em consideração este cuidado

metodológico. Mas e agora, o que fazer?

Bom é óbvio que não podemos inferir sobre a população a partir de uma

amostra de conveniência sem procedimentos e tamanho de amostras apropriadas, porém

devemos lembrar que os elementos que foram incluídos no estudo sofreram algum

efeito da intervenção ou apresentaram alguma associação com as variáveis de estudo.

Deste modo, o pesquisador pode e devem discutir os fatores relacionados com o

comportamento observado nos elementos amostrais estudados.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Além disso, principalmente em amostras de tamanho reduzido que apresentam

baixo poder de estudo é muito frequente que os valores de p não sejam suficientes para

rejeitar a hipótese nula, porém ao se observar os resultados o pesquisador verifica que

sua amostra apresentou algum efeito, e neste momento surge uma questão importante.

Embora os resultados não tenha significado estatístico será que o efeito observado tem

significado clínico para os elementos estudados?

De fato, não se pode acreditar cegamente em tudo que os testes estatísticos

mostram. O que o clínico deve se perguntar ao interpretar os resultados de uma pesquisa

é “os resultados obtidos são relevantes do ponto de vista clínico?”.

Muitas vezes um resultado “estatisticamente significante” pode não ser

“clinicamente importante”. Por exemplo, um teste de comparação de médias pode

detectar uma diferença de 2mmHg na Pressão Arterial (PA) como sendo “altamente

significante” apesar desta diferença não ter nenhuma implicação clínica. Portanto, a

importância em termos biológicos não deve ser julgada pelos estatísticos, mas sim pelos

profissionais da área em que a pesquisa está sendo feita.

Por outro lado, existe também a situação inversa. Um resultado que não seja

“estatisticamente significante” pode ser muito importante, não devendo ser

desconsiderado. Portanto, não se deve fechar os olhos para um resultado que não seja

significativo, é preciso levar em conta também a importância do objeto que está sendo

estudado.

2. TAMANHO DA AMOSTRA

Há com frequência uma ênfase excessiva ao cálculo do tamanho de amostra em

detrimento da concepção cuidadosa de um plano amostral, que são as estratégias a

serem adotadas para garantir que a amostra a ser estudada seja representativa do

universo real do fenômeno a ser estudado, mas vale lembrar que, o cálculo do tamanho

da amostra não garante um resultado significante.

Para o planejamento do tamanho da amostra o investigador precisa estabelecer

algumas definições como: tipo de estudo que pretende realizar (ex. estudo de

prevalência, ensaio clínico, coorte, caso-controle); o tipo de medida que deve utilizar

(ex. medidas contínuas, categorizadas, prevalência, incidência); o tipo de análise (ex.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

diferenças entre médias, diferença entre proporções, cálculo de risco); a margem de erro

que pode assumir para o estudo (ex. o nível de significância e o poder do teste

estatístico que pretende aplicar).

Na homepage do Laboratório de Epidemiologia e Estatística

(www.lee.dante.br) está disponível um serviço que calcula tamanhos de amostra para

alguns dos desenhos de pesquisa médica/biológica mais frequentes, além de oferecer

textos de apoio para compreensão de cada item envolvido no cálculo e referências

bibliográficas para orientarem interessados num estudo autônomo.

FATORES QUE AFETAM O TAMANHO DAAMOSTRA

• Objetivo da amostra - Estudos descritivos costumam exigir amostra com menor

número de participantes.

• Tipo de variável - As variáveis qualitativas frequentemente requerem amostras

maiores que as variáveis quantitativas, porém variáveis quantitativas que apresentam

grande variabilidade também exigem amostras maiores.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

• Delineamento do estudo - Estudo pareado requer uma amostra com metade do

número de sujeitos, quando comparados aos estudos não-pareados.

• Valor estimado para erro alfa (erro tipo I) - Corresponde ao erro máximo que o

pesquisador aceita cometer ao aplicar o teste estatístico para aceitar ou rejeitar a

hipótese nula. É o erro máximo que ele aceita para um erro falso-positivo. Na área das

ciências da saúde é usual utilizar 5%. Quanto menor o erro alfa estipulado pelo

pesquisador, maior será o tamanho estimado para a amostra.

• Poder do teste estatístico (1–erro β) – Corresponde à probabilidade do estudo

detectar uma diferença real entre os grupos estudados. Traduz a probabilidade de o

pesquisador cometer um erro falso-negativo. Na área das ciências da saúde é arbitrado

em 80%, 85% ou 90%, que corresponde a um erro beta de 20%, 15% e 10%,

respectivamente. Quanto maior o tamanho da amostra, maior será o poder do estudo em

detectar uma diferença ou um efeito real.

• O tamanho da diferença - Corresponde ao tamanho da verdadeira diferença que se

deseja discriminar como significativa, entre as médias da variável considerada no

estudo. Pequenas diferenças exigem amostras maiores. Pode ser determinado por

estudos anteriores ou quando possível por valores interpretados com clinicamente

significativos.

• O tamanho da população – Para pequenas populações o tamanho da amostra é

diretamente proporcional ao tamanho da população. Para grandes populações, o

tamanho da amostra não é influenciado pelo tamanho da população, pois a mesma

deverá ser considerada como ilimitada.

• Dos recursos e do tempo disponível – É outro fator limitante que, não menos

importante, pode influenciar no tamanho da amostra.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

ETAPAS PARA O CÁLCULO DO TAMANHO DA AMOSTRA

a. Primeiro passo - Escolher a fórmula apropriada dependendo do tipo de estudo

(analítico ou descritivo) e do tipo de erro (alfa ou beta).

b. Segundo passo - Especificar os valores dos parâmetros que serão utilizados. São

eles:

• Variância esperada (s2) - Deve ser obtida com base em conhecimentos prévios sobre

o estudo a ser realizado. No caso de variáveis contínuas, esta pode ser estimada com

base em estudos semelhantes publicados na literatura, ou pela realização de um estudo

piloto previamente executado.

• Erro alfa (zα) - Usualmente, na área das ciências da saúde, é estimado em 5% ou 1%.

• Erro beta (zβ) - Usualmente, é considerado em 20%, 15% ou 10%. Quanto menor o

erro beta estipulado, maior o poder do teste.

• Diferença estimada entre os grupos ( d ) - Corresponde à diferença mínima a ser

detectada entre a média da amostra ( x ) e a verdadeira média da população (µ).

• Variância das proporções esperadas (p) - Se o parâmetro a ser estudado é uma

proporção, digamos, a proporção de sucesso para um determinado tratamento, e

assumindo-se que os grupos são iguais no tamanho, o pesquisador deve determinar a

proporção média (p) no estudo, ou seja, no grupo inteiro. A fórmula para calcular a

variância das proporções é p = p(1- p).

Nas fórmulas, valores do erro alfa e do erro beta, arbitrados pelo pesquisador,

devem ser introduzidos com base nos valores de zα e zβ, determinados na tabela de

valores críticos da distribuição normal gaussiana, conforme o Quadro abaixo, sendo zα,

rotineiramente, bicaudal, e zβ, unicaudal.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

No Quadro abaixo é mostrado os valores calculados para (zα+zβ)2 e

(zα/2+zβ)2, segundo Snedecor & Cochran,1967. Estes podem ser utilizados em

fórmulas para o cálculo do tamanho da amostra.

- Fórmulas para cálculo do tamanho de amostras para descrição de variáveis

quantitativas e qualitativas em uma população

- Fórmulas para cálculo do tamanho de amostras para comparação de dois grupos

segundo variáveis quantitativas e qualitativas e segundo pareamento dos casos.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

- Fórmula para cálculo do tamanho amostral para correlação linear entre variáveis

quantitativas.

3. INTERVALO DE CONFIANÇA

Médias, medianas, modas são chamadas estimativas pontuais, pois,

correspondem a um único valor que estima características de um grupo sob estudo.

Existem também as estimativas por intervalos que são expressas por um limite inferior e

um superior entre os quais se acredita estar o verdadeiro valor do parâmetro.

Uma das utilidades dos intervalos é dar a idéia da dispersão ou variabilidade

das estimativas. Um intervalo muito grande indica que a estimativa calculada não é tão

acurada quanto a outra com intervalo menor, ou seja, quanto maior a amplitude do

intervalo menor a confiabilidade da estimativa.

Existem vários métodos para expressar intervalos, porém o mais conhecido e

talvez o mais correto seja o “INTERVALO DE CONFIANÇA” que permite incorporar

uma probabilidade de erro. Esta probabilidade de erro é inferida a partir de um

conhecimento do modelo de distribuição de frequências do fenômeno estudado.

O modelo que mais habitualmente se ajusta à ocorrência de fenômenos

biológicos é o de DISTRIBUIÇÃO NORMAL, cujo intervalo de confiança envolve

para sua construção o conhecimento da variância (que permite o cálculo do desvio

padrão).

Os intervalos podem ser construídos com diferentes coeficientes de confiança,

sendo em geral mais utilizados os intervalos de confiança de 95% ou 99%. A cada

coeficiente corresponde um valor crítico da distribuição, que é uma medida de distância

da estimativa pontual que se expressa em unidades de desvios padrão.

Para gerar os INTERVALOS DE CONFIANÇA para MÉDIA no SPSS clicar

em Analyze<Descriptive Statistics<Explore. Na caixa de dialogo que abrir inserir no

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

item DEPENDENT LIST a variável QUANTITATIVA de interesse. No item DISPLAY

selecionar o item STATISTICS. Clicar na opção STATISTICS e na caixa de dialogo

EXPLORE: STATISTICS estará selecionada a opção DESCRIPTIVES-CONFIDENCE

NTERVAL FOR MEAN: ( )%. No item que contém o valor 95 poderá ser inserido o

valor de INTERVALO DE CONFIANÇA de interesse, porém o mais usual é o de 95%.

5% TrimmedMean - Esta é a média que seria obtida se 5% da parte inferior e

superior de valores da variável forem suprimidos. Se o valor de5% TrimmedMean é

muito diferente da média, isto indica que há alguns valores aberrantes. No entanto, você

não pode assumir que todos os valores extremos foram removidos da média aparada.

Além de informar sobre a variabilidade/dispersão de estimativas pontuais, os

intervalos de confiança podem também expressar a “significância estatística” dos testes

referentes às comparações de MÉDIAS.

Por exemplo, é possível comparar os INTERVALOS DE CONFIANÇA para

MÉDIA de IDADE entre os SEXOS. Porém para fazer isto teremos que recorrer

novamente ao recurso SPLIT FILE e inserir a variável SEXO.

Nos resultados apresentados no quadro abaixo é possível observar que o

INTERVALO DE CONFIANÇA da IDADE para o sexo MASCULINO não contém o

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

INTREVALO DE CONFIANÇA do sexo FEMININO. Isto indica que com 95% de

confiança existe diferença entre as MÉDIAS de IDADE.

O INTERVALO DE CONFINÇA também pode ser representado graficamente

pelo gráfico ERROR BAR (barra de erros). Remover a opção inserida no SPLIT FILE,

clicar em Graphs<LegacyDialogs<Error Bar. Na caixa de dialogo ERROR BAR

selecionar SIMPLE e no item DATA IN CHART ARE selecionar SUMMARIES FOR

GROUPS OF CASES, e clicar em DEFINE.

Na caixa de dialogo que se abrir inserir no item VARIABLE a variável

QUANTITATIVA e no item CATEGORY AXIS a variável QUALITATIVA que

divide os grupos de análise. Em seguida clicar em OK. É possível observar que os

INTERVALOS DE CONFIANÇA da IDADE para os SEXOS não se cruzam, o que

confirma a diferença entre os grupos.

Descriptives

SEXO Statistic Std. Error

MASCULINO IDADE (anos) Mean 23,212

,4752

95% Confidence Interval for

Mean

Lower Bound 22,273

Upper Bound 24,151

FEMINIO IDADE (anos) Mean 21,114

,2658

95% Confidence Interval for

Mean

Lower Bound 20,592

Upper Bound 21,637

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Há situações, por exemplo, num teste de comparação de duas MÉDIAS, onde

INTERVALO DE CONFIANÇA analisado é da diferença entre as MÉDIAS. Nesta

situação quando o INTERVALO DE CONFIANÇA da diferença das MÉDIAS contém

o valor zero indica que a diferença não é significante, ou seja, que não existe diferença

entre as médias. Porém se não contém o valor zero as médias são diferentes,

Por exemplo, ao realizar medidas repetidas da GLICEMIA antes e depois de

uma intervenção foi calculada a diferenças entre os dois momentos, que é chamado de

delta variação (∆). Neste exemplo é possível verificar que o INTERVALO DE

CONFIANÇA contém o valor zero, ou seja, as MÉDIAS são iguais.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Apesar do Intervalo de Confiança poder ser utilizado para análise de dados

qualitativos isto será discutido no próximo módulo.

4. TESTE “t” PARA UM ÚNICO GRUPO

Vamos supor que o pesquisador tenha realizado um estudo descritivo com o

propósito de investigar a média da população para uma variável quantitativa. Após ter

calculado os parâmetros da estatística descritiva ele gostaria de saber se está média

difere ou não da população de onde os dados se originaram (supondo que se conheça

está média), de outras populações, da média observada em outros estudos publicados ou

ainda de valores de referência para a variável investigada.

Um recurso estatístico para isto é o “teste t para um único grupo”. Utilizando

a planilha de dados utilizaremos com exemplo a variável IMC. Sabendo que os valores

de IMC que representam um estado nutricional normal (eutrófico) variam entre 18,5 a

24,9 Kg/m

, e a média entre estes valores é de 21,7 Kg/m

, vamos testar se a média de

IMC da amostra estuda difere da média considerada normal para os valores de IMC,

com também dos limites inferiores e superiores.

Clicar em Analyze< Compare Means < One-Sample T test. Na caixa de

dialogo que abrir inserir em Teste Variables (s): a variável quantitativa de interesse, em

nosso caso o IMC. Em Teste Value inserir o valor a ser confrontado, em nosso exemplo

o valor de 21,7 Kg/m

. Como agora já temos informações sobre a análise do Intervalo

de Confiança (IC) podemos clicar no item Options e selecionar o IC de interesse. Em

seguida clicar em Continue e depois em OK.

No Output serão produzidos dois quadros. O primeiro, “One-Sample

Satatistic”, contém a estatística descritiva com o tamanho da amostra (N), a média

(Mean), o desvio-padrão (Std. Deviation) e o erro padrão da média (Std. Error Mean).

Statistic Std. Error

DIFERENÇA GL2-GL1 Mean ,0000

,93666

95% Confidence Interval for

Mean

Lower Bound -1,8404

Upper Bound 1,8404

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

No segundo quadro, “One-Sample Teste”, é apresentado os resultados do teste

estatístico. Na parte superior do quadro é apresentado o valor testado (Test Value) e

embaixo o valor do “t crítico” (t), o grau de liberdade (df), o valor de “p” para a

estatística bicaudal ( para obter o valor de “p” (Sig. (2-tailed)) para a estatística

unicaudal basta dividir o valor de “p” bicaudal por 2), a média da diferença (Mean

Difference) e o Intervalo de Confiança da Diferença (95% Confidence Intervalo f the

Difference) com os valore inferior (Lower) e superior (Upper).

O resultado indica que existe uma diferença significativa entre a média de IMC

da amostra estuda e o valor de referência de 21,7 Kg/m

, pois, o valor de “p” é 0,0001,

ou seja, existe pouca probabilidade desta diferença estar associada ao acaso. Assim é

possível dizer que a média do IMC é significativamente maior que o valor de referência

de 21,7 Kg/m

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

5. TESTANDO DIFERENÇAS ENTRE MÉDIAS: TESTE “t”

Em situações onde se possui dois grupos de comparação e se pretende analisar

(comparar) as diferenças entre as médias, a forma mais simples de se fazer um

experimento é manipular uma só variável de duas maneiras e medir somente uma saída.

A manipulação da variável independente, ou seja, a variável que categoriza os grupos,

em geral envolve ter uma condição experimental e um grupo-controle.

O teste “t” para analisar este cenário e existem dois tipos de teste “t”:

- Teste “t” para amostras independentes: esse teste é utilizado quando existem duas

condições experimentais em sujeitos diferentes em cada grupo de comparação, ou seja,

amostras não pareadas.

- Teste “t” para amostras dependentes: esse teste é utilizado quando existem duas

condições experimentais aplicadas nos mesmos sujeitos em momentos diferentes, ou

seja, amostras pareadas. Está situação se caracteriza por medidas repetidas de um

mesmo grupo, porém em momentos diferentes e em condições diferentes.

Os dois testes têm fundamentação semelhante:

- Duas amostras de dados são coletadas e a média das amostras é calculada. Estas

médias podem diferir muito ou pouco;

- Se as amostras vêm da mesma população esperamos que suas médias não fossem

diferentes (diferença das médias é ZERO). Embora seja possível que as médias difiram

pelo acaso, grandes diferença devem ocorrer com pouco frequência (distribuição normal

– Histograma).

- Se a diferença entre as médias for maior do que esperamos considerando o erro padrão

é possível presumir que:

a) Que as médias das amostras da população variam muito somente por acaso e temos,

por acaso, coletado dados atípico desta população;

b) As duas amostras vêm de populações distintas, mas os valores são típicos de suas

respectivas populações originais, o que representa um diferença real entre as médias.

Tanto o teste “t” dependente ou independente são teste paramétricos baseados

na distribuição normal e devem analisar dados normalmente distribuídos e medidos

pelos menos em escala de medida intervalar. O teste “t” independente, que compara

grupos de sujeitos diferentes, também deve considerar que ass variâncias populacionais

são iguais, o que é analisado pelo teste de Levene que avalia a Homogeneidade das

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Variâncias, e que os escores (dados) são independentes, ou seja, os grupos são

excludentes.

6. TESTES ESTATÍSTICOS PARA COMPARAÇÃO DE DUAS MÉDIAS

PAREADAS.

Quando o pesquisador pretende comparar duas médias obtidas de uma mesma

amostra em condições diferentes e a variável analisada é quantitativa e com distribuição

normal recomenda-se o a aplicação do teste “t” pareado.

Para analisar a distribuição de normalidade recomenda-se utilizar o teste de

Shapiro-wilk quando a amostra for pequena (<30) ou o teste de Kolmorogov-smirnov

quando a amostra é grande (≥ 30). Porém os pesquisadores podem discordar em relação

o que é uma amostra pequena ou grande, assim amostras com até 50 elementos

amostrais podem requerem o teste de Shapiro-wilk.

A equação do teste “t” pareado comparar a diferença média entre das

observações da amostra (D) com a diferença da que devemos esperar encontrar entre as

médias populacionais (µ

) e, então, leva em conta o erro padrão das diferenças (S

/√n).

t= D- µ

/ S

/√n

Se a H0 for verdadeira é esperado que não exista diferença entre as médias.

Isto faz sentido, porque em um delineamento de medidas repetidas a diferença entre as

duas condições de medida podem ser causadas somente por dois fatores: 1) a

manipulação (experimento) da variável independente; ou 2) qualquer outro fator

individual que possa modificar a forma com que o sujeito e não controlado que possa

influenciar a medida.

Desta forma em estudos experimentais de medidas, tanto de medidas repetidas

amostras dependentes, quanto de amostras independentes estão condições estão

associadas a dois tipos de variação. A situação 1 refere-se a variação sistemática que

ocorre devido a influência do pesquisador e representado o efeito que se está

investigando. A situação 2 refere-se a variação não-sistemática que resulta de fatores

aleatórios.

Em estudos de medidas repetidas a principal variação é produto da variação

sistemática e pouco do efeito é atribuído a variação não-sistemática. Esse se deve

porque o mesmo elemento amostral é submetido às duas condições experimentais e as

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

diferenças nas médias da variável quantitativa se deva principalmente pela exposição as

diferentes condições experimentais.

Desta forma, na equação acima a diferença entre as médias (D) representa o

efeito (variação sistemática) e desvio padrão (S

) a variação não-sistemática. Assim

quanto maior o desvio-padrão e menor o tamanho da amostra, maior será o erro padrão

da média (S

/√n) e menores a chances de se observar diferenças significativas entre as

médias.

Assim se a manipulação experimental criar qualquer tipo de efeito, a variação

sistemática (Diferença) será bem maior do a variação não-sistemática e o valor de “t”

será no mínimo maior que 1. Por outro lado, se a manipulação experimental não for bem

sucedida, a variação causada por diferenças individuais (não-sistemática) será bem

maior do que o efeito da intervenção produzindo um valor de “t” menor que 1.

Para produzir o teste “t” no SPSS clicar em Analyze < Compare Means <

Paired-Sample T Teste. Supondo que se pretenda analisar o efeito da intervenção

sobre os valores de glicemia de jejum, onde foram realizadas medidas de glicemia em

duas condições. A glicemia Pré representa a medida antes da intervenção com

orientações sobre exercício físico e a glicemia Pós a medida de glicemia 6 meses após o

início das orientações sobre exercício físico.

Na caixa de dialogo que abrir selecionar o par de variáveis que será analisada

na lista de variáveis e inserir em Paired Variables. Em Options é possível alterar o

Intervalo de Confiança para a média da diferença. Após inserir as variáveis clicar em

OK.

No Output o primeiro quadro (Paired Sample Statistic) apresenta a estatística

descritiva com valores de média (Mean), tamanho da amostra (N), o desvio-padrão (Std.

Deviation) e o erro padrão da média (Std. Error Mean).

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

No segundo quadro (Paired Sample Correlations) o SPSS apresenta a

correlação de Pearson que analisa a relação entre os dois médias. Quando medidas

repetidas são usadas, é possível que as condições experimentais se correlacionem.

Valores significativos quanto a correlação indicam que as variações entre as momentos

são semelhantes entre os elementos da amostra. Valores de correlação (Correlation)

próximo de 1 indicam alta correlação e próximo de 0 (zero) baixa correlação. Ainda no

quadro de correlação é apresentado o valor de “p” (Sig) que indicam se a correlação é

significativa. No caso abaixo é possível observar que as condições pré e pós apresentam

baixa correlação (r=0,043) e não são significativas, pois, o valor de “p” (0,345) é maior

0,05.

No terceiro quadro (Paired Samples Test) o Output do SPSS apresenta a

diferença da média (Mean) onde valores positivos indicam uma redução da média e

valores negativos indicam aumento. Ainda no item Paired Differences é apresentado o

desvio-padrão da diferença entre as médias (Std. Deviation) e o erro padrão das

diferenças entre os escores dos participantes em cada condição (Std. Error Mean). Além

disso, é possível verificar o Intervalo de Confiança (95% Condidence Intervalo of the

Difference). Como IC 95% da média da diferença não inclui o valor zero é possível

dizer que existe diferença significativa entre as médias.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Na continuidade deste quadro temo o valor do teste “t” e o grau de liberdade

(df) que será importante para calcular o tamanho do efeito. O valor de “p” (p=0,0001)

para o teste “t” bicaudal (Sig.(2-tailed)) é inferior a 0,05, o que indica que a

probabilidade das diferenças estarem relacionadas ao acaso é muito baixo, portanto a

diferenças entre as médias são reais e consideradas estatisticamente significativas.

O valor de “p” quanto é menor que 0,0001 costuma-se apresentar o valor de

0,0001. No caso do teste acima o valor de p é igual a 8.275102872521461E-6, que

representa o valor de 0,0000008275102872521461. Lembre ainda que para obter o valor

de “p” para o teste unicaudal basta dividir o valor do teste bicaudal por 2.

Embora o teste “t” para amostras pareadas tenha apresenta significância

estatística, isso não quer dizer que nosso efeito seja importante em termos práticos. Para

descobrir se o efeito é importante, precisamos calcular o Tamanho do Efeito. Cohen

(1988, 1992) classificou o tamanho do efeito em:

- r = 0,10 (efeito pequeno): nesse caso o efeito explica 1% da variância total;

- r = 0,30 (efeito médio): neste caso o efeito explica 9% da variância total;

- r = 0,50 (efeito grande): neste caso o efeito explica 25% da variância total.

Para calcular o Tamanho do Efeito “r” (Rosnow & Rosenthal, 2005, p.328)

que utiliza a seguinte equação:

r = √ t

/ (t

+ df)

Utilizando os resultados da análise acima onde t=4,506 e df= 491. O grau de

liberdade (df) é calculado pela equação df=n-1, sendo “n” o tamanho da amostra.

r = √ 4,506

/ (4,506

+ 491)

r = √ 20,30/ (20,30 + 491)

r = √ 0,03970= 0,19 (efeito médio).

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Porém o que fazer se os dados da variável quantitativa de interesse não

apresentarem Distribuição Normal, mesmo após a tentativa de ajustar estes dados?

Felizmente existe uma opção não-paramétrica para comparar medidas repetidas

em duas condições diferentes quando os dados quantitativos não apresentam

Distribuição Normal, ou mesmo, quando se tem variáveis em escala de medida discreta

ou ainda variáveis qualitativas em escala de medida ordinal. A opção não-paramétrica

para está situação é o teste dos postos com sinais de Wilcoxon, porém quando a

variável for qualitativa em escala ordinal é necessário que a variável apresente no

mínimo 3 categorias de resposta.

O teste de Wilcoxon para amostras pareadas funciona de forma semelhante ao

teste “t” para amostras pareadas, uma vez que ele tem por base as diferenças entre os

escores nas duas condições de comparação. Depois de calculadas, essas diferenças são

transformadas em postos, mas o sinal da diferença (positivo ou negativo) é atribuído a

cada posto. Quando a diferença é ZERO o dado é apresentado na análise descritiva, mas

excluído da análise.

Como podemos observar no quadro abaixo os valores de glicemia de jejum não

apresentaram Distribuição Normal para as condições pré e pós-intervenção para ambos

os testes, pois, os valores de “p” (Sig.) são inferiores a 0,05. Deste modo, é

recomendado que se realize o teste não-paramétrico.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Para realizar o teste dos postos com sinais de Wilcoxon no SPSS clicar em

Analyze < Nonparametric Tests < Legacy Dialogs < 2 Related Sample. Na caixa de

dialogo que abrir selecionar o par de variáveis relacionadas as condições de medida e

inserir Test Pairs. O teste de Wilcoxon está pré-selecionado e em Test Type é possível

selecionar outro tipos de teste que serão discutidos no próximo módulo.

Se clicar em Exact que tem o método Método Assintótico (Asymptotic only)

pré-selecionado e é um método preciso para amostras grandes. Quando se tem amostras

pequenas recomenda-se o uso do teste Exact. O método de Monte Carlo é uma outra

opção para amostras pequenas e produz o Intervalo de Confiança para o valor de

significância.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Em Options é possível selecionar a estatística descritiva e a distribuição do

quartil. Após selecionar as opções desejadas retornar a caixa de dialogo principal e

clicar em OK.

No Output o teste de Wilcoxon além da estatística descritiva selecionadas,

apresenta um quadro (Ranks) com os resultados dos postos negativos (Negative Ranks),

postos positivos (Positive Ranks), Iguais (Ties) e total. Também apresenta a média dos

postos positivos e negativos (Mean Ranks), e a soma dos pontos (Sumo f Ranks). Na

base da quadro é possível observar as letra “a”, “b” e “c” que indicam o significado dos

postos negativos, positivos e iguais.

No quadro Test Statistics

é apresentado os resultados do teste de Wilcoxon. O

valor de “t” é convertido em “escore-z” e a vantagem dessa abordagem é que ela

permite que o valor exato da significância seja calculado com base na distribuição

normal. Em Asymp. Sig. (2-tailed) é apresentado o valor de “p” correspondente a

estatística bicaudal. O teste de Wilcoxon indica que existe uma diferença significativa

entre as condições pré e pós-intervenção, pois, o valor de “p” é menor que 0,05,

indicando que a probabilidade (chance) de as diferenças estarem relacionados ao acaso

ser menor que 5%.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

O Tamanho do Efeito também pode ser calculado para o teste de Wilcoxon

pelo valor de “r” utilizando o “escore-z” e o número de observações (N). Com a amostra

tem 492 elementos amostrais que foram medidos duas vezes temos no exemplo dado

984 observações.

r= escore-z / √N

r= -5,631/ √ 984

r= -5,631/ 31,36

r= 0,17 (efeito médio)

7. TESTES ESTATÍSTICOS PARA COMPARAÇÃO DE DUAS MÉDIAS

INDEPENDENTES

O teste “t” para amostras independentes deve ser utilizado quando se pretende

comparar dois grupos de elementos amostrais diferentes. Deste modo, que faz parte de

um grupo não poderá fazer parte do outro grupo. Além disso, o teste “t” independente

também é baseado na distribuição de normalidade, de modo que, os dados quantitativos

devem ser testados quanto a aderência ao pressuposto de Distribuição Normal.

Para avaliar a Distribuição de Normalidade deveremos utilizado o teste de

Shapiro-wilk quando a amostra for pequena (<30) ou o teste de Kolmorogov-smirnov

quando a amostra é grande (≥ 30). Porém aqui, além da Distribuição normal, também

será necessário testar a Homogeneidade das Variâncias pelo teste de LEVENE.

Vale destacar que diferente do teste “t” pareado, que tem a variação aleatória

minimizada por medidas repetidas do mesmo sujeito, o teste “t” não pareado

(independente) se caracteriza por grupos diferentes, o que acentua a variação aleatória

por conta das diferenças individuais que não podem ser controladas.

O teste “t” independente, portanto é baseada nas diferenças entre as médias das

amostras, ou seja, a diferença entre pares de dados de grupos diferentes e espera-se que

a diferença entre os pares seja semelhante. Deste modo, o teste “t” independente é

representado pela divisão entre as diferenças entre as médias das amostras pelo desvio

padrão da distribuição amostral (erro padrão da distribuição amostral).

Vale lembrar que para gerar a análise do teste “t” independente no SPSS é

necessário que a seja gerar uma variável qualitativa que identifique os grupos de

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

comparação. Está variável de codificar os grupos para permitir sua comparação da

variável quantitativa de interesse entre os grupos.

Para gerar as analises do teste “t” independente no SPSS clicar em Analyze <

Compare Means < Independent Sample T Test. Vamos supor que a hipótese nula

seja a de que não existe diferença entre o sexo masculino e feminino quanto as valores

de glicemia de jejum. Na caixa de dialogo que abrir inserir em Test Variable (s) a

variável quantitativa que se pretende comparar as médias. Em Grouping Variable inserir

a variável qualitativa que categoriza os grupos de comparação e em seguida clicar em

Define Groups. Em Define Groups inserir os códigos correspondentes as grupos de

comparação. Caso não tenha codificado a variável qualitativa na aba Variable View na

tabulação poderá utilizar a opção Cut point e o SPSS irá atribuir todos os casos maiores

ou iguais ao ponto de corte em um grupos e todos os caso menores que o ponto de corte

em outro grupo. Após codificar aos grupos em Define Groups clicar em Continue. De

volta a caixa de dialogo de origem você ainda poderá clicar em Options e modificar o

Intervalo de Confiança caso deseje. Inserir as variáveis e os códigos necessário clicar

em OK.

No Output do teste “t” independente são apresentados dois quadros. O primeiro

quadro (Group Statistics) é apresentado a estatística descritiva com o número de

observações por grupos (N), média (Mean), desvio-padrão (Std. Deviation) e erro

padrão da média (Std. Error Mean) para ambos os grupos de comparação.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

No segundo quadro (Independent Samples Test) são gerados dois valores de

“p” (Sig (2-lailed)), sendo um associado quando o pressuposto de Homogeneidade das

Variâncias é assumido e outro quando este pressuposto não é assumido. Para verificar

se o pressuposto de Homogeneidade das Variâncias foi atendido, basta observar o valor

de “p” (Sig) produzido em Levenes´s Test for Equality of Variances, onde valores de

“p” <0,05 indicam que o pressuposto não foi atendido devendo observar os valores

contidos na análise que não assume a igualdade das variâncias (Equal variances not

assumed). Por outro lado, se o teste de Levene apresentar valores de “p” ≥ 0,05 deverá

ser observado os valores contidos na análise que assume a igualdade das variâncias

(Equal variances assumed).

Em t-teste for Equality of Means é possível observar o valor de “t”, o grau de

liberdade (df), o valor de “p” (Sig (2-lailed)), a média da diferença (Mean Difference), o

erro padrão da diferença (Std. Error Difference) e o Intervalo de Confiança de 95% da

diferença (95% Confidence Intervalo of the Difference). No resultado do quadro abaixo

pode observar que a igualdade das variâncias foi assumida e o teste “t” gerou um valor

de “p” de 0,674 que indica que não existe diferenças significativas entre as média, ou

seja a probabilidade das diferenças estarem associadas ao acaso é maior que 5% (0,05).

Para calcular o Tamanho do Efeito (r) para o teste “t” independente, será

utilizado o valor de “t” (-0,420) e o grau de liberdade (df) para o teste que assume a

igualdade das variâncias (490).

r= √t

/ (t

+ df)

r= √-0,420

/ (-0,420

+ 490)

r= √0,1764 / (0,1764

+ 490)

r= √0,1764 / 490,1764

r= √0,0000359

r= 0,018 (sem efeito).

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Embora a Homogeneidade das Variâncias tenha sido atendida os dados de

glicemia de jejum não apresentaram distribuição normal, o que indica a necessidade do

uso de uma versão não-paramétrica para comparação entre dois grupos independentes.

As opções não-paramétricas para o teste “t” independente são o teste de Mann-

Whitney ou o teste de Soma dos Postos de Wilcoxon. Ambos os testes organizam os

valores (escores) do menor para o maior valor e em ordem crescente é atribuído o

postos independente do grupo de comparação.

Após a ordenação dos postos é determinado os postos reais. Quando existem

valores repetidos é calculada a média dos postos com no exemplo do quadro abaixo para

os valores de glicemia de jejum de Homens (1) e Mulheres (2).

SEXO GLICEMIA PRÉ (mg/dl) POSTO POSTO REAL

2 86 1 1

2 93 2 2

1 96 3 3

1 97 4 4

2 99 5 5

1 100 6 6,5

2 100 7 6,5

1 102 8 8,5

2 102 9 8,5

1 103 10 10,5

2 103 11 10,5

2 104 12 12

2 105 13 13

1 106 14 14

2 107 15 15

2 109 16 16

2 110 17 17

1 115 18 18

2 117 19 19

1 136 20 20

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Aqui abordaremos somente o teste de Mann-Whitney como opção não-

paramétrica para o teste “t” independente, que calcula o valor de “p” baseado na soma

dos postos e não nos valores exatos da variável quantitativa.

Para gerar a análise de Mann-Whitney no SPSS clicar Analyze <

Nonparametric Test < Legacy Dialogs < 2 Independent Sample. Na caixa de dialogo

que abrir o teste de Mann-Whitney está pré-selecionado, porém se não estiver você

poderá selecionar. Inserir em Test Variable List a variável quantitativa que se pretende

analisar. Em Grouping Variable inserir a variável qualitativa que define os grupos de

comparação e em seguida clicar em Define Groups para inserir os códigos atribuídos

para identificação dos grupos.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Na opção Exact por padrão o SPSS calcula a significância do teste de Mann-

Whitney utilizando um método que é preciso amostra grandes (Asymptotic only).

Porém em amostra pequenas é possível utilizar um teste de maior precisão na opção

EXACT. Outra opção para correção de amostras pequenas é o teste de Monte Carlo.

Após selecionar os parâmetros de análise voltar na caixa de dialogo inicial e

clicar e OK. No Output o SPSS produz o quadro Ranks que apresenta número de

elementos amostrais em cada grupo (N), a média dos postos (Mean Rank) e a soma dos

postos (Sumo of Ranks). Isto se refere a estatística descritiva que a média dos homens é

maior do que das mulheres. Lembre que também é possível a estatística descritiva da

variável quantitativa clicando em Options na caixa de dialogo inicial

No segundo quadro (Test Statistics

) contém os resultados da estatística de

Mann-Whitney U, de Wilcoxon W, escore-z e valor de “p” (Asymo.Sig. (2-tailed). Aqui

o valor de “p” indica que existe diferenças significativas entre os sexos em relação ao

valor de glicemia de jejum (p=0,0001). Vale lembrar que quando os grupos foram

comparados pelo teste “t” independente os valor de “p” (p=0,674) não foi identificado

diferenças significativas entre os sexo. Está situação destaca a importância de se optar

pó um teste não-paramétrico quando os dados quantitativos não apresentam distribuição

normal.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Como visto anteriormente o SPSS não calcula o tamanho do efeito (r), porém

ele fornece as informações necessárias. Para isto utilizamos o escore-z (Z) contido no

quadro Test Statistic

e o tamanho da amostra (N) com descrito na equação abaixo:

r= Z /√ N

r= -5,349/ √ 492

r = -5,349/ 22,18

r= 0,24 (efeito médio)

8. TESTE DE ESTATÍSTICOS DE CORRELAÇÃO ENTRE DUAS

VARIÁVEIS QUANTITATIVAS

O teste de correlação tem como propósito analisar se duas variáveis

quantitativas estão associadas e se elas variam conjuntamente. Para isto são utilizadas

duas medidas: a covariância e o coeficiente de correlação.

A covariância (cov) pode ser calculada pela equação abaixo, que é representa

pelo produto da diferença entre as variáveis “x” e “y”, dividido pelo tamanho da

amostra (n) menor 1. A diferença é representada pela diferença da média de cada

elemento. Para ilustrar o cálculo da covariância foi utilizado os dados de Frequência

Cardíaca (FC) e de Glicemia de Jejum (GL) do quadro abaixo.

cov (x,y) = ∑ (x

– x)*(y

– y)/ (n-1)

cov (x,y) = -2,5/ (20-1)

cov (x,y) = - 0,131

O coeficiente de correlação momento-produto de Pearson é calculado

dividindo a covariância pelo produto dos desvios-padrão das variáveis “x” e “y”,

representado na equação abaixo. Ainda utilizado os dados de FC e GL, com desvios-

padrão (S) de 13,12 e 10,28 respectivamente segue abaixo a equação e os cálculos do

coeficiente de correlção.

r = cov (x,y)/ S

x *

r = - 0,131/ (13,12 * 10,28)

r = -0,0009

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Os mesmos valores foram produzido no SPSS, porém no SPSS são

apresentados da seguinte maneira -0,0001 ou -9.750051169889752E-4 que representa -

0,000975. O coeficiente de correlação de Pearson está apresentado em Pearson

Correlation.

FC GL FC dif média GL dif média produto dif FC*GL DP FC DP GL

71 110 4,85 5,5 26,675 13,12 10,28

55 105 -11,15 0,5 -5,575 Média FC Média GL

74 115 7,85 10,5 82,425 66,15 115

85 100 18,85 -4,5 -84,825

57 117 -9,15 12,5 -114,375

70 102 3,85 -2,5 -9,625

75 102 8,85 -2,5 -22,125

72 99 5,85 -5,5 -32,175

65 136 -1,15 31,5 -36,225

72 107 5,85 2,5 14,625

42 96 -24,15 -8,5 205,275

48 86 -18,15 -18,5 335,775

58 109 -8,15 4,5 -36,675

64 106 -2,15 1,5 -3,225

68 100 1,85 -4,5 -8,325

59 103 -7,15 -1,5 10,725

97 93 30,85 -11,5 -354,775

48 103 -18,15 -1,5 27,225

65 97 -1,15 -7,5 8,625

78 104 11,85 -0,5 -5,925

-0,000975005

-2,5

covariância

-0,131578947

Correlação

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

O coeficiente de correlação varia de -1 a +1, onde -1 representa uma correlação

negativa, e +1 representa uma correlação positiva. O valor de 1, independente de

positivo ou negativo representa a correlação perfeita entre as variáveis “x” e “y”. Por

outro lado o valor ZERO representa ausência de correlação. Os coeficiente de

correlação pode ser interpretados da seguinte forma (DAWSON & TRAPP, 2001):

- 0, a 0,25 – inexistente a baixo

-0,25 a 0,50 – baixo a moderado

-0,50 a 0,75 – moderado a alto

- ≥ 0,75 – alto.

Para realizar a análise de correlação bivariada no SPSS clicar a Analyze <

Correlate < Bivariate. Na caixa de dialogo que abrir inserir em Variables as variáveis

quantitativas que se pretende analisar. O coeficiente de correlação de Pearson está pré-

selecionado em Correlations Coefficients. Neste item também está disponível os

coeficientes de correlação de Kendall-s tua-b e de Spearman, porém estes são versões

não-paramétrica que serão discutidas mais a frente. Em Testo f Signifcance existe a

opção do teste bicaudal (Two-tailed) ou unicaudal (One-tailed). Quando o item Flag

significant correlations estiver selecionado os coeficiente de correlação significativos

serão indicado com *, sendo * para p≤0,05 e ** para p≤0,001.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Ao clicar em Options poderá selecionar as opções Means and Standard

deviations (média e desvio-padrão), e a opção Cross-product deviation and covariances

que apresenta o desvio do produto cruzado e os valores de covariância. Após selecionar

os parâmetros desejados voltar a caixa de dialogo original e clicar em OK.

No Output o quadro Descriptive Statistics apresenta os valores de Média

(mean) e desvio-padrão (Std. Deviation) das variáveis. No quadro seguinte

(Correlations) são exibidos os valores do coeficiente de correlação de Pearson (Pearson

Correlation), o valor de “p” para o teste bicaudal (Sig. (2-tailed)), a soma dos quadrados

e produtos cruzados (Sum of Square and Cross-products) e os valores de covariância

(Covariance).

O valor de r= -0,064 indica uma correlação negativa e muita baixa devido a

proximidade de zero. Além disso é importante lembrar que não se deve basear suas

conclusões somente pelo coeficiente de correlação, é importante analisar o valor “p”

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

que indica a probabilidade deste coeficiente de correlação ter ocorrido por acaso na

amostra. Na análise de correlação de Pearson acima a significância foi de p=0,159, que

indica que a probabilidade deste valores de correlação terem ocorrido ao acaso é maior

que 5%.

Utilizando o R

para a interpretação

Embora não possamos tirar conclusões diretas sobre casualidade, podemos

levar o coeficiente de correlação um passo a frente elevando-o ao quadrado, o que é

conhecido como coeficiente de determinação (R

). O R

é uma medida da quantidade

de variação em uma variável que é explicada pela variação de outra variável. Se

convertermos este valor em porcentagem temos o percentual de explicação. Usando o

exemplo da FC e GL, se o objetivo da análise fosse utilizar os valores de FC para prever

os valores de glicemia observaríamos que a FC explica somente 0,4% (0,064

= 0,004 =

0,4%) da variação da GL.

Vale lembrar ainda que o teste de correlação de Pearson deva ser utilizado

somente quando os dados das variáveis quantitativas apresentam distribuição normal.

Como podemos observar na análise da distribuição de normalidade abaixo as variáveis

glicemia e frequência cardíaca não apresentam distribuição normal, portanto é

necessário a uso de uma versão não-paramétrica para analisar estes resultados.

A opção não-paramétrica para analisar a correlação de variáveis quantitativas

que não apresentam distribuição normal é o teste de Spearman que também organiza os

dados em postos. O caminho para gerar a análise de correlação de Spearman é o mesmo

da correlação de Pearson, exceto que no item Correlation Coefficients deverá ser

selecionado a opção Spearman.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

No Output os valores do coeficiente de correlação de Spearman estão

representado no item Correlation Coefficient (r=-0,071) e o valor de “p” (p=0,114) para

o teste bicaudal em Sig.(2-tailed). Elevando o valor de r ao quadrado temos o valor do

=0,0012. O teste de correlação de Spearman também pode ser utilizado em situações

que tem variáveis qualitativas em escala de medida ordinal.

Porém quando se tem amostras pequenas com dados quantitativos sem

distribuição normal ou dados qualitativos em escala ordinal com baixo número de

categorias de resposta, ou ainda uma das variáveis do tipo qualitativa o teste estatístico

para análise de correlação indicado é o teste de Tau de Kendall.

No SPSS seguir o mesmo caminho do teste de correlação de Pearson, porém

em item Correlation Coefficients selecionar a opção Kendall´s Tau-b, selecionar as

variáveis e clicar em OK. Os resultados são apresentados no Output semelhante ao teste

de Spearman.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Correlação Parcial

A correlação parcial é utilizada quando se pretende controlar o efeito de uma

terceira variável na relação entre duas variáveis. Vamos utilizar como exemplo as

variáveis, massa corporal, estatura e índice de massa corporal (IMC).

Inicialmente vamos explorar o comportamento destas variáveis através do

gráfico de dispersão matricial clicando na opção Graphs < Legacy Dialogs <

Scatter/Dot. Na caixa de dialogo que abrir selecionar a opção Matrix Scatter e clicar em

Define.

Na caixa de dialogo Scatterplot Matrix inserir na opção Matrix Variable as

variáveis de interesse e clicar na opção OK. Na análise do gráfico é possível observar

que a relação da estatura com a massa corporal e com o IMC é positiva.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Para analisar o coeficiente de correlação entre as variáveis deve ser realizado o

teste de correlação, porém antes verifique se os dados quantitativos têm distribuição

normal. O teste de normalidade indica que devemos utilizar um teste não-paramétrico

para analisar a correlação. Como temos um amostra grande (n=492; >30 elementos

amostrais) vou optar pelo teste de Spearman.

Considerando que a pergunta do pesquisador é analisar a relação da estatura

com o IMC, porém gostaria de considerar que a massa corporal também influencia o

IMC e saber o quanto da relação da estatura e IMC é influenciada pela massa corporal.

A princípio analisando a tabela abaixo observamos uma correlação positiva e

significativa (p=0,0001) entre IMC e Estatura (r = 0,252) e um R

=0,06 que indica que a

variação de estatura explica somente 6% da variação no IMC. A massa corporal

apresentou correlação significativa (p=0,0001) e positiva (r=0,861) com o IMC, para

um R

=0,741 que indica que 74,1% da variação no IMC é representado pela massa

corporal.

Desta forma para analisar a relação entre estatura e IMC, controlando o efeito

da variável massa corporal sobre a variável estatura deve ser utilizado a correlação

Parcial. No SPSS clicar em Analyze < Correlate < Partial. Na caixa de dialogo que

abrir selecionar as variáveis analisadas em Variables e a variável de controle em

Controlling for.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

Se inicialmente foi verificado um correlação positiva de 0,252 (p=0,0001) e um

=0,06 que indica que a variação de estatura explica somente 6% da variação no IMC.

Com o controle da influência da massa corporal é possível verifica que a correlação

permanece significativa (p=0,0001), porém agora está é negativa (r=-0,875), ou seja, o

aumento na estatura inicialmente contribuía com o aumento do IMC, mas agora o

aumento da estatura se relaciona com a redução do IMC. O R

de 0,765 indica agora

que o aumento da estatura explica 76,5% da redução do IMC, após o controle da

variável massa corporal pela análise da correlação Parcial.

Estatística Aplicada para Iniciantes – Módulo 2 – Estatística Analítica I

BIBLIOGRAFIA

1. BARROS, M. e REIS, R. Análise de dados em atividade física e saúde:

demonstrando a utilização do SPSS. Londrina: Midiograf, 2003.OLIVEIRA,

F.E.M. SPSS Básico para análise de dados. 1 ed. Rio de Janeiro: Editora Ciência

Moderna, 2007, 185p.

2. DAWSON, B.; TRAPP, R.G. Bioestatística básica e clínica. 3 ed.Rio de Janeiro:

McGraw-Hill, 2001.

3. DORIA FILHO, U. Introdução á bioestatística: para simples mortais. 11º ed.

reimpressão. Editora Elsevier: Rio de Janeiro, 1999.

4. FIELD, A. Descobrindo a estatística usando o SPSS. 2 ed. Porto Alegre:

Artmed, 2009, 689p.

5. FONTELLES, M.J.;et al. Metodologia da pesquisa: diretrizes para o cálculo do

tamanho da amostra. Revista Paraense de Medicina. v.24, n.2. 2010

6. GLANTZ, S.A. Princípios de Bioestatística. 7 ed. Porto Alegre: Artmed, 2014,

306p.

7. HOCHMAN, B.; NAHAS, F.X.; OLIVEIRA FILHO, F.S.; FERREIRA, L.M.

Desenhos de pesquisa. Acta Cirúrgica Brasileira, v.20; Supl. 2; 2005.

8. LINDENAU, J.D.; GUIMARÃES, L.S.P. Calculando o tamanho do efeito no

SPSS. Rev. HCPA, Secção de Bioestatística, v.32, n.3, 2012.

9. LUNET, N.; SEVERO, M.; BARROS, H. Desvio Padrão e Erro Padrão. Notas

Metodológicas. Arquivos de Medicina, 2006.

10. MIOT, Hélio Amante. Tamanho da amostra em estudos clínicos experimentais. J

Vas Bras. 2011; 10 (4); 275-278.

11. PAES, A.T. Itens essenciais em Bioestatística. ArqBrasCardiol. v.71,n.4, p. 575-

580, 1998.

12. RIBAS, J.R.; VIEIRA, P.R.C. Análise multivariada com o uso do SPSS. 1 ed.

Rio de Janeiro: Editora Ciência Moderna, 2011, 272p.

13. VIEIRA, S. Introdução à bioestatística. 4

ed. Editora Elsevier: Rio de Janeiro,

2008.

Como comparar médias de duas variaveis em grupos spss

Postagens relacionadas

Publicidade

ÚLTIMAS NOTÍCIAS

Toplistas

Publicidade

Populer

Publicidade

Sobre

Jurídica

Ajuda

Social