preparaciÓn de data y subsecuente anÁlisis en investigaciÓn de mercados

UNIVERSIDAD INTERAMERICANADEPARTAMENTO DE MATEMÁTICAS Y CIENCIAS APLICADAS

RECINTO DE SAN GERMÁNSAN GERMÁN, PUERTO RICO

PREPARACIÓN DE DATA Y SUBSECUENTE ANÁLISIS EN INVESTIGACIÓN DE MERCADOS

Trabajo sometido como requisito parcialCurso MATH 6400

Estadística Matemática AvanzadaProfesor: Dr. Balbino García Bernal

PorÁngel M. Carreras JusinoWilfredo Daleccio Torres

Rafael A. Vega Santana 5 de mayo de 2009

Capítulo 15

Codificar, editar y preparar la información para análisis

Objetivos• Ilustrar el proceso de preparar data para el análisis

preliminar.• Demostrar el procedimiento para asegurar la

validación de la data.• Ilustrar el proceso de editar y codificar data obtenida

a través de una encuesta.• Mencionar los procedimientos de data entry.• Ilustrar el proceso para detectar errores en data

entry.• Discutir técnicas usadas para la tabulación y análisis

de data.

Preparación de la data para análisis

• Es el proceso de convertir información de un cuestionario de manera que pueda ser leída por una computadora.

• Este proceso está compuesto normalmente por cinco pasos.

Paso # 1 Validación de la data

Proceso que determina -hasta donde sea posible- si las entrevistas, encuestas u observaciones fueron conducidas correctamente y están libres de fraude o vicios.

fraude “screening” procedimiento completado cortesía

Paso # 2 Editar y codificar data

a) Editar – proceso mediante el cual la data cruda es verificada en busca de errores cometidos ya sea por el entrevistador o por el encuestado.Importante en este proceso, establecer que las preguntas sean hechas y contestadas en la secuencia apropiada.

Paso # 2 Editar y codificar data A través del escaneo manual de cada

entrevista completada, el entrevistador puede verificar ciertas áreas de interés. 1. Hacer las preguntas apropiadas2. Registrar las respuestas apropiadamente3. Hacer las preguntas de “screening apropiadas

4. Respuestas a preguntas abiertas


b) Codificar – agrupar y asignar valor a varias respuestas del instrumento de encuestas. Entraña la asignación de valores numéricos a cada respuesta individual para cada pregunta de la encuesta. Un cuestionario bien planificado y construido puede reducir la cantidad de tiempo destinado a codificar mientras aumenta la precisión del proceso.


Codificar debe estar incorporado en el diseño del cuestionario. Ejemplo de respuestas codificadas son las que dan valor del 1 al 5 según el grado de acuerdo o desacuerdo con lo preguntado. EjemploSi el cuestionario no contiene este tipo de respuestas codificadas, el investigador deberá establecer un código maestro en el que asigne valores numéricos. Ejemplo

Paso # 2 Editar y codificar dataLas preguntas cerradas son normalmente precodificadas al momento del diseño del cuestionario.Las preguntas abiertas no permiten una lista exacta de respuestas potenciales. El investigador puede usar un proceso de 4 pasos para desarrollar códigos para las respuestas anticipadas. 1)generar una lista 2) consolidación Ejemplo 3) asignar un valor numérico por código 4) asignar un valor codificado a cada respuesta

Paso # 3 Data entrySon aquellas tareas envueltas con la entrada directa de la data codificada a un programa de computadoras específico que finalmente le permitirá al analista manipular y transformar la data cruda en información útil. Hay 4 formas de entrar data codificada a una computadora.

1)a través del teclado 3)bolígrafo de luz 2)pantalla táctil 4)escaneo óptico

Paso # 4 Detección de error

El primer paso en la detección de error es determinar si el programa usado para data entry y tabulación le permitirá al investigador desempeñar rutinas de editar errores. Estas rutinas pueden identificar tipos de datos incorrectos.

Paso # 4 Detección de error

Otra forma de detección de error es que el investigador revise una representación impresa de la data entrada. Una manera adicional es producir una tabla con lista de datos en columnas.

Ejemplo

Paso # 5 Tabulación de data

Tabulación es el simple proceso de contar el número de observaciones (casos) que son clasificados dentro de ciertas categorías. Se usan dos formas de tabulación en los proyectos de investigación de mercadeo.

Tabulación en una direcciónTabulación cruzada


Tabulación en una dirección – indica el número de encuestados que dieron una posible contestación a cada pregunta del cuestionario. Es la categorización de variables simples en el estudio.

Ejemplo1 2


Tabulación cruzada – Provee categorización de los encuestados tratando dos o más variables simultáneamente. Es la principal forma de análisis de data en la mayoría de los proyectos de investigación de mercados.

Ejemplo1 2

Capítulo 16

Análisis de Datos

Objetivos

• Entender la media, mediana y moda como medidas de tendencia central.

• Entender el rango y la desviación estándar de una distribución de frecuencia como medidas de dispersión.

• Entender como graficar medidas de tendencia central.

• Entender la diferencia entre muestra independiente y muestra relacionada.

• Explicar la prueba de hipótesis y los tipos de errores.

El análisis y el mercado

• En el mercado a menudo se realizan encuestas de todo tipo y con diferentes propósitos.

• Los dueños de negocios y compañías o hasta incluso los gerentes se presentan con problemas en los cuales no tienen una respuesta clara que formular.

• El rol del estadístico en fundamental para el negocio y resuelve o previene situaciones.

El análisis y el mercado

• A continuación explicaremos varios términos importantes en el análisis de datos y su aplicación al mercado.

Datos utilizados

• Restaurante Deli Depot– emparedados de cortes fríos y calientes, sopas,

yogurt, galletas, café, refrescos y más.– Localizado en una zona donde hay otros

restaurantes de comida rápida.• Encuesta mediante entrevista con 17

preguntas.

Datos utilizados

• Los variables se clasificaron en tres categorias:– Performance Perceptions Variables (X1-X6)– Classification Variables (X7-X10)– Selection Factor Ranking (X12-X17)

Cuestionario

Gráficas-Ejemplos

Medidas de Tendencia Central

• Las tablas de distribución de frecuencia son fáciles de leer y proveen información básica de gran importancia.

• En ocasiones cuando la cantidad de detalles es abundante y resumir los mismos es de gran utilidad para los investigadores.

• En estas situaciones la estadística descriptiva es de gran utilidad.

Medidas de Tendencia Central

• Media– Es el promedio de los valores en la distribución.

• Moda– Es el valor que más aparece en la distribución.

• Mediana– Es el valor del centro de la distribución cuando se

encuentra ordenada.

Ejemplo

Medidas de Dispersión• En ocasiones las medidas de tendencia central no pueden

mostrarte toda la información acerca de la distribución de los encuestados.

• Por ejemplo: Con la información recopilada sobre la actitud de los consumidores hacia un nuevo producto podemos calcular la moda, mediana y media sobre la distribución de las contestaciones. Pero por otra parte te gustaría saber si los demás encuestados tienen mas o menos la misma opinión que la mayoría.

• Una manera de contestar esta pregunta es usando las medidas de dispersión.

Medidas de Dispersión

• Rango– Distancia entre el valor menor y valor mayor en un conjunto

de respuestas.• Desviación estándar

– La distancia promedio de los valores de distribución a la media.

• Varianza– La desviación cuadrada promedio a cerca de la media de la

distribución de valores.

Ejemplo

Prueba de Hipótesis

• Los investigadores pueden tener algunas suposiciones o teorías sobre la información recopilada y el presenta.

• A estas teorías le llaman hipótesis.• Ejemplo

– El número promedio de tazas de café que consumen los estudiantes durante los finales es mayor al número promedio de tazas de café que consumen en cualquier otros tiempo.

Muestra independiente y muestra relacionada

• Muestra independiente– Ejemplo: Los resultados de los consumidores de

café varones versus féminas.• Muestra relacionada

– Ejemplo: Los investigadores comparan el número promedio de tazas de café consumida por días y el número promedio de refrescos consumido por día en varones .

Desarrollando la hipótesis

Ejemplo• Las hipótesis le permiten a

los investigadores hacer comparaciones entre dos grupos de encuestados y determinar si hay una importante diferencia entre ambos.

Número promedio de tazas consumidas en finales

Féminas 6.1

Varones 4.7

Tipos de Hipótesis

Nula Alternativa• Establece que NO hay

diferencia entre la media de cada grupo en comparación

• Establece que SI hay diferencia entre la media de cada grupo en comparación

Significancia Estadística

Error tipo I Error tipo II• El error hace que se rechace

la hipótesis nula cuando está es cierta; la probabilidad de alpha.

• El error falla en rechazar la hipótesis nula cuando la hipótesis alternativa es cierta; la probabilidad de beta.

Nivel de significancia• Usualmente los investigadores en el

mercado están dispuesto aceptar un nivel de siginificancia de .10, .05, .01

Analizando la relación de datos entre muestras

t-test z-test• Se utiliza cuando la muestra

es menor de 30 y la desviación estándar es desconocida.

• Se utiliza cuando la muestra es mayor de 30 y la desviación estándar es desconocida.

Ejemplo

Bibliografía utilizada

• Hair, Bush, Ortimnau (2003) “Marketing Research within a Changing Information Environment” Second Edition HF 5415. 2. H258 2003

preparaciÓn de data y subsecuente anÁlisis en investigaciÓn de mercados

Education