Regressão

O que é análise de regressão?


Uma análise de regressão gera uma equação para descrever a relação estatística entre um ou mais preditores e a variável de resposta e para predizer novas observações. A regressão linear geralmente usa o método de estimativa de mínimos quadrados comum que deriva a equação minimizando a soma dos resíduos quadrados.

Por exemplo, você trabalha para um fabricante de batatas fritas que examina os fatores que afetam a porcentagem de batatas quebradas por embalagem antes do envio (variável de resposta). Você está realizando a análise de regressão e inclui a porcentagem de batatas em relaçãeo a outros ingredientes e a temperatura de cozimento (Celsius) como preditores. A saída a seguir contém os resultados:




Os resultados da regressão mostram que os dois preditores são significantes devido a seus valores p baixos. Juntos, os dois preditores explicam 66,41% da variância das batatas fritas quebradas. Especificamente:
  • Para cada 1% de aumento da quantidade de batata, o percentual de batatas quebradas deve diminuir em 0,909%.
  • Para cada 1 grau de aumento da temperatura de cozimento, o percentual de batatas quebradas deve aumentar em 0,022%.
  • Para predizer o percentual de batatas quebradas para 50% de batata e temperatura de cozimento 175 °C, você calcula um valor esperado de 7,7% de batatas quebradas.
Os resultados da regressão identificam a direção, o tamanho e a significância estatística da relação entre um preditor e a resposta.
  • O sinal de cada coeficiente indica a direção da relação.
  • Os coeficientes representam a mudança média na resposta para uma unidade de mudança no preditor mantendo os outros preditores no modelo constantes.
  • O valor P para cada coeficiente testa a hipótese nula de que o coeficiente é igual a zero (sem efeito). Portanto, valores p baixos indicam que o preditor é uma adição significante ao modelo.
  • A equação prediz novas observações com valores especificados dos preditores.
OBSERVAÇÃO


Modelos com um preditor são conhecidos como regressão simples. Modelos com mais de um preditor são conhecidos como regressão linear múltipla.

O que é regressão linear simples?

A regressão linear simples examina a relação linear entre duas variáveis contínuas: uma resposta (y) e um preditor (x). Quando as duas variáveis são relacionadas, é possível predizer um valor de resposta com um valor preditor com precisão maior que o acaso.

A regressão fornece a linha que "melhor" ajusta os dados. Essa linha pode ser usada para:
  • Examinar como a variável de resposta muda quando o preditor muda.
  • Predizer o valor de uma variável de resposta (Y) para qualquer variável preditora (X)

O que é regressão linear múltipla?

A regressão linear múltipla examina as relações lineares entre uma resposta contínua e dois ou mais preditores.

Se o número de preditores for grande, então antes de ajustar um modelo de regressão com todos os preditores você deve usar técnicas de seleção de modelo stepwise ou melhores subconjuntos para remover preditores nào associados às respostas.

O que é regressão de mínimos quadrados comum?

Na regressão de mínimos quadrados comum (OLS), a equação estimada é calculada determinando-se a equação que minimize a soma do quadrado das distâncias entre os pontos de dados da amostra e os valores preditos pela equação.

Resposta x preditor

Com um preditor (regressão linear simples), a soma dos quadrados das distâncias de cada ponto até a linha é a menor possível.

Pressuposições que deve ser atendidas para regressão OLS

A regressão OLS fornece as estimativas mais precisas e não viciadas somente quando as suposições a seguir são atendidas:
  • O modelo de regressão e linear nos coeficientes. O método mínimos quadrados pode modelar curvatura transformando as variáveis (no lugar dos coeficientes). É necessário especificar a forma funcional correta para modelar qualquer curvatura.
    Modelo Quadrático


    Aqui, a variável preditora X é elevada ao quadrado para modelar a curvatura. Y = b
    o + b1X + b2X2

  • Os resíduos têm média zero. A inclusão de uma constante no modelo forçará a média a ser igual a zero.
  • Todos os preditores são não correlacionados com os resíduos.
  • Os resíduos não são correlacionados) entre si (correlação serial).
  • Os resíduos possuem variância constante.
  • Nenhuma variável preditora é perfeitamente correlacionada (r=1) com outra variável preditora. Também é melhor evitar correlações imperfeitamente altas (multilinearidade).
  • Os resíduos são distribuídos normalmente.

Como a regressão OLS só fornece as melhores estimativas quando todas as pressuposições são atendidas, é muito importante testá-las. Abordagens comuns incluem gráficos de resíduos, testes de qualidade do ajuste e visualização da correlação entre preditores usando o fator de Inflação da variância (VIF).

Fonte: Minitab