linear regression correlation coefficient

STAT. 555

DATE: 9/026/09

JOSE CINTRON,MBA

Linear regression Linear regression attempts to model the

relationship between two variables by fitting a linear equation to observed data.

One variable is considered to be an explanatory variable, and the other is considered to be a dependent variable

Linear regression Before attempting to fit a linear model to

observed data, a modeler should first determine whether or not there is a relationship between the variables of interest.

This does not necessarily imply that one variable causes the other, but that there is some significant association between the two variables

Linear regression A linear regression line has an equation of

the form Y = a + bX, where X is the explanatory

variable and Y is the dependent variable.

The slope of the line is b, and a is the intercept (the value of y when x = 0).

If the goal is prediction, or forecasting, linear regression can be used to fit a predictive model to an observed data set of y and X values.

http://en.wikipedia.org/wiki/File:Linear_regression.png

Correlation Coefficient Correlation coefficient indicates the strength and

direction of a linear relationship between two random variables.

In general statistical usage, correlation refers to the departure of two random variables from independence.


Pearson product-moment correlation coefficient

A number of different coefficients are used for different situations.

The best known is the Pearson product moment correlation coefficient, which is obtained by dividing the covariance of the two variables by the product of their standard deviations.


Pearson product-moment correlation coefficient.

The correlation coefficient ρX, Y between two random variables X and Y with expected values μX and μY and standard deviations σX and σY is defined as:

FORMULA


Residual analysis

The analysis of residuals plays an important role in validating the regression model. If the error term in the regression model satisfies the four assumptions, then the model is considered valid.

Since the statistical tests for significance are also on these assumptions, conclusions resulting from these significance text are called into question.


This type of overlaid plot is useful for showing the relationship between the data and the predicted values from the regression function.

http://www.itl.nist.gov/div898/handbook/pmd/section6/ldcll/plots/gra1a.gif

Regression analysis Refers to techniques for modeling and

analyzing several variables, when the focus is on the relationship between a dependent variable and one or more independence variables.

More specifically, regression analysis helps us

understand how the typical value of the dependent variable changes when any one of

the independent variables is varied, while the other independent variables are held fixed.


The regression equation deals with the following variables:

The unknown parameters denoted as β; this may be a scalar or a vector of length k.

The independent variables X.The dependent variable, Y.

Regression equation is a function of variables X and β.


Regression analysis

Regression analysis is widely used for prediction (including forecasting of time-series data).

Use of regression analysis for prediction has substantial overlap with the field of machine learning.

Regression analysis is also used to understand which among the independent variables are related to the dependent variable, and to explore the forms of these relationships.


Media aritmeticaPorque la media aritmética de una muestra no

es un buen estimador de la media de la población?

Es sensible a los valores extremos. No es recomendable emplearla en distribuciones muy asimétricas. (Entiéndase asimetría cuando la información es dispersa en una muestra, valores muy asimétricos que no se parecen en nada) Si se emplean variables discretas o cuasi-cualitativas, la media aritmética puede no pertenecer al conjunto de valores de la variable.


Porque el error estándar de la media disminuye

Porque el error estándar de la media disminuye cuando el tamaño de la media aumenta?

El error estándar es una medición de dispersión de las medias de muestras alrededor de la media de población. Si la dispersión disminuye (se hace mas pequeña) entonces los valores tomados por la muestra tienden a agruparse mas cercanamente a u (miu). Por el contrario si la dispersión se incrementa (se hace mas grande) los valores tomados por la media de la muestra tienden a agruparse menos cercanamente alrededor de u (miu).


Porque el error estándar de la media disminuye

entonces: al disminuir el error estándar, el valor de cualquier media de muestra probablemente se acercara al valor de la media de la población, los especialistas describen este fenómeno de otra manera: al disminuir el error estándar se incrementa la precisión con la que se puede usar la media de la muestra para estimar la media de la población.


Porque la media de una distribución muestral

Porque la media de una distribución muestral parece una distribución normal en el caso de una muestra grande cuando la población de la distribución no es normal? Profesor esta respuesta la asimilo a lo que usted explico en clase referente a lo del profesor GOSSET. Que hacia referencia a demostraron que en este caso se obtiene una distribución diferente de la normal, aunque para tamaños lo bastante grandes se parecen bastante. Esta nueva distribución se conoce con el nombre de t de Student con n - 1 grados de libertad.


Porque la media de una distribución muestral

Esto significa que por cada medida de la muestra, n, en realidad tenemos una distribución diferente. Si la variable que estudiamos sigue una distribución normal con media m y desviación típica s conocida, entonces: sigue una distribución normal estándar. La distribución t de Student con n grados de libertad, que denotaremos por tn, es muy parecida a la distribución normal (0,1): es simétrica alrededor del cero, pero su desviación típica es un poco mayor que la dela normal (0,1), es decir, los valores que toma esta variable están un poco más dispersos. No obstante, cuanto mayor es el número de grados de libertad, n, más se aproxima la distribución tn de Student a la distribución normal (0,1).


Cual es la diferencia entre una distribución

Cual es la diferencia entre una distribución de probabilidad y una distribución de muestra? La diferencia básicamente radica en que la distribución de probabilidad la podemos concebir como una distribución teórica de frecuencia, es decir, es una distribución que describe como se espera que varíen los resultados. Dado que esta clase de distribuciones se ocupan de las expectativas son modelos de gran utilidad para hacer inferencias y tomar decisiones en condiciones de incertidumbre Y la distribución muestral es lo que resulta de considerar todas las muestras posibles que pueden ser tomadas de una población. Su estudio permite calcular la probabilidad que se tiene, dada una sola muestra, de acercarse al parámetro de la población. Mediante la distribución muestral se puede estimar el error para un tamaño de muestra dado.


Cual es la utilidad de la hipótesis nulaCual es la utilidad de la hipótesis nula y porque

utilizamos la hipótesis alterna? En la hipótesis nula generalmente se requiere rechazar y que no muestre diferencias respecto al valor de referencia o entre poblaciones. Plantea que no hay cambio en el estado de las cosas, además es la que contrastamos, los datos pueden refutarla y no debería ser rechazada sin una buena razón. Y usamos la hipótesis alterna porque niega la hipótesis nula, los datos pueden mostrar evidencia a favor lo que suele ser de interés principal en las investigaciones.


Cual es la diferencia entre un error tipo I y tipo II

Cual es la diferencia entre un error tipo I y un error tipo II?

Consiste en rechazar Ho cuando es cierta esto es, el investigador niega una hipótesis cierta. Y un error de tipo II Consiste en aceptar Ho cuando es falsa, esto es, admite como cierta una hipótesis cuando es falsa.


linear regression correlation coefficient

Education

regression model

cualquier media

media disminuyeentonces

media aritmeticaporque

media aumenta

independence variables

random variables x

function of variables