lineamientos para experimento

28

Upload: ciler-leonit-alberto-pizarro

Post on 02-Sep-2015

222 views

Category:

Documents


0 download

TRANSCRIPT

  • 1

    CONTENIDO

    Presentacin....................................................................................... 3

    1. Introduccin....................................................................................... 5

    2. Que queremos decir por "datos"?.................................................... 5

    3. Programas de cmputo para el manejo de datos................................ 8

    4. Estructura de bases de datos.............................................................. 10

    5. Diseo de un sistema de introduccin de datos................................. 12 5.1 Entender la estructura de los datos............................................ 12 5.2 Identificar los tipos de informacin que ser colectada............ 12 5.3 Especificar las unidades de medida y la precisin.................... 13

    6. Introduccin y verificacin de datos.................................................. 13 6.1 Estrategia para la introduccin y chequeo de datos.................. 13 6.2 Guas para la introduccin de datos.......................................... 14 6.3 Guas para el chequeo de datos................................................. 16

    7. Auditora de cambios......................................................................... 18

    8. Organizacin de los datos para el anlisis......................................... 18

    9. Anlisis.............................................................................................. 20

    10. Copias de Seguridad.......................................................................... 20

    11. Archivo.............................................................................................. 21

    12. Apndice: Recomendaciones sobre la organizacin de los datos...... 23

  • 2

  • 3

    Presentacin La presente publicacin es parte de una serie de guas biomtricas producidas originalmente en idioma ingls, por el Centro de Servicios Estadsticos (SSC) de la Universidad de Reading, Reino Unido, para el Departamento para el Desarrollo Internacional (DFID) del Gobierno. La serie est dirigida a personal tcnico involucrado en la presentacin y ejecucin de proyectos en recursos naturales, con el propsito de ayudar a los investigadores a identificar sus necesidades estadsticas y biomtricas. El SSC y el DFID aprobaron la solicitud de la Universidad Nacional (UNA, Costa Rica) para proceder a la traduccin, edicin, publicacin y distribucin de las guas en idioma castellano, con el propsito de extender sus beneficios a proyectos e investigadores de pases hispanohablantes, fundamentalmente del rea de Centro Amrica y el Caribe. La traduccin y edicin de la versin castellana estuvo a cargo del Dr. Jorge Camacho-Sandoval, Escuela de Ciencias Agrarias, Universidad Nacional; los Drs. Gilberto Pez y Christoph Kleinn del Centro Agronmico Tropical de Investigacin y Enseanza (CATIE, Costa Rica) realizaron la revisin tcnica de la versin castellana. La aprobacin final estuvo a cargo del M.Sc. Carlos Barahona del SSC. Adems el CATIE ha financiado la traduccin, publicacin y distribucin de las cinco primeras guas. La UNA y el CATIE agradecen al SSC y el DFID por haber acogido su iniciativa para la difusin de las guas en castellano y por haber ofrecido todas las facilidades para ello.

    UNIVERSIDAD NACIONAL CATIE

  • 4

  • 5

    1. Introduccin Los proyectos de investigacin frecuentemente comprenden la recoleccin de grandes volmenes de datos. stos tienen que ser luego procesados y analizados y los resultados y sntesis deben ser preparados para su publicacin en algn formato. Para que sta secuencia ocurra de manera gil, el proyecto requiere un sistema de manejo de datos bien definido. La presente publicacin ofrece algunas guas sobre los componentes de tal sistema. Las principales etapas del proceso de manejo de datos en un proyecto de investigacin es como sigue: Los datos "crudos" tienen que ser introducidos a la computadora y

    revisados; Los datos tienen que ser luego organizados de una forma apropiada para

    el anlisis (a menudo de diferentes formas, dependientes del anlisis); Los datos tienen que ser archivados de manera que permanezcan

    disponibles a travs de las diferentes fases de un proyecto y con posterioridad.

    La mayora de los ejemplos en sta gua se refieren a proyectos que involucran datos experimentales ms que datos de encuestas. Los experimentadores muchas veces no estn conscientes del valor de un manejo cuidadoso de los datos hasta que es demasiado tarde para su proyecto y la investigacin ha sufrido las consecuencias. Esperamos que stas guas ayudarn a los investigadores a planificar los aspectos relativos al manejo de datos de su proyecto desde el principio.

    2. Que queremos decir por "datos"? Al nivel ms simple, "datos" son los valores que se registran en cuadernos de campo, libros de registros o instrumentos de captura de datos, que son introducidos a la computadora y luego analizados. Un ejemplo de un conjunto de datos sencillo - un cuadro de filas y columnas - se muestra a continuacin.

  • 6

    Un conjunto simple de datos

    Parcela Repeti-

    cin Trata-miento

    Nmero de Flores

    Peso total (kg)

    Peso del Fruto (kg)

    Peso del grano(g)

    101 1 4 26 25.2 6.6 1.7 102 1 2 28 32.2 8.8 2.4 ... ... ... ... ... ... ...

    416 4 8 26 19.7 4.9 5.3

    La informacin en ste cuadro es ciertamente necesaria para el anlisis, pero est incompleta. Tambin es necesaria informacin adicional del protocolo, la cual de detalles de, por ejemplo, los tratamientos, el tipo de diseo, el plano de campo y las unidades usadas para las mediciones, tanto para el anlisis como para el archivo. Tal informacin es algunas veces llamada metadatos, pero cualquiera que sea el nombre usado, debe ser considerada como una parte integral e igualmente importante que los datos presentados en el cuadro. Ahora estamos en el mundo de los multimedia, as que mapas y fotografas pueden ser considerados como parte de los "metadatos", lo mismo que reportes, conferencias y otras formas de presentacin. En la mayor parte de sta gua se usar el trmino "datos" en un sentido relativamente reducido, pero volveremos a su significado ms amplio que comprende el material mencionado, en la seccin de archivo. En general, uno puede considerar que la tarea de manejo de datos es simple si todos los datos que van a ser computarizados han sido tomados en un tipo simple de unidad, por ejemplo parcelas o animales. La tarea es compleja cuando los datos han sido tomados de cierto nmero de unidades o niveles diferentes. En un estudio en fincas de productores, por ejemplo, a menudo habr datos de entrevistas al nivel de finca y medidas de respuesta al nivel de parcela, animal o rbol. Algunas veces la complejidad de la tarea de manejo de datos vara para diferentes partes del proyecto. Un ejemplo es un proyecto regional que consista de una prueba de variedades en cada lugar, donde los datos tienen que ser asociados a cada uno de los sitios. En tal proyecto, el conjunto de variedades frecuentemente no es el mismo en cada lugar. El registro de los datos en cada lugar es simple, en un cuadro sencillo como el mostrado arriba por ejemplo. Sin embargo, en la oficina de coordinacin regional pueden ser necesarios cuatros conjuntos adicionales de datos, como sigue:

  • 7

    Datos sobre cada localidad, nombre, ubicacin tipo de suelo Nmero de sitio

    Nombre de sitio

    Pas Latitud Longitud Altitud (metros)

    Tipo de suelo

    ...

    1 Santa Marta

    Colombia 11:15 N 74:13 200 C ...

    2 Punta Gorda

    Honduras 16:05 N 88:49 50 D ...

    ... ... ... ... ... ... ... ... 46 Punta

    Carreras Argentina 53:35 S 70:55 21 D ...

    Datos de cada experimento en cada sitio: fecha de siembra, problemas de

    insectos Nmero de

    sitio Nmero de experimento

    Ao Fecha siembra

    Estrs Problemas de plagas

    ...

    1 1 1997 12 de Junio medio menor ... 1 2 1997 16 de Junio ninguno ninguno ... 1 3 1998 2 de Julio ninguno ninguno ... 2 1 1997 19 de Junio severo mayor ... ... ... ... ... ... ... ...

    Datos sobre cada variedad usada en el proyecto: nombre, origen tipo

    Cdigo de Variedad

    Nombre de Variedad

    Origen Tipo ...

    12 OFT226 Costa Rica erecto ... 14 PLO2279 Guatemala rastrera ... ... ... ... ... ...

    Datos de produccin de cada uno de los sitios

    Nmero de sitio

    Nmero de experimento

    Cdigo de variedad

    Produccin ... ...

    1 1 6 4.1 ... ... 1 1 14 2.9 ... ... ... ... ... ... ... ...

    En ste ejemplo, la oficina de coordinacin podra necesitar el uso de tcnicas que estn incorporadas en los sistemas de manejo de bases de datos relacionales (DBMS) para combinar la informacin de diferentes cuadros de datos y de esa manera disponer de un anlisis global considerando todos los sitios.

  • 8

    En general, cuando las tareas de manejo de datos son complejas, un programa de manejo de bases de datos debe ser usado por el proyecto. Esto permite que toda la informacin sea almacenada de una manera estructurada. El equipo del proyecto debe decidir si el mismo programa de cmputo es usado para todas las tareas, es decir, introduccin de datos, revisin, manejo y anlisis.

    3. Programas de cmputo para el manejo de datos Los diferentes tipos de programas usados para el manejo de datos incluyen los siguientes: Programas de manejo de bases de datos (DBMS): por ej. Access, dBase,

    EpiInfo, Paradox, DataEase; Programas estadsticos, por ej. Genstat, MSTAT, SAS, SPSS,

    Statgraphics, Systat; Hojas de clculo, por ej. Excel, Lotus-123; Procesadores de palabras, por ej. Word, WordPerfect; o editores de texto

    como Edit. Los programas estadsticos, de manejo de bases de datos y hojas de clculo tienen facilidades comunes para el manejo de datos. Todos manejan "rectngulos" de datos, como se mostraron en la seccin anterior. En estos rectngulos, cada fila se refiere a un caso o registro, tal como un animal o una parcela, y cada columna se refiere a una medida o variable, como cdigo de tratamiento o rendimiento. En general, los programas de bases de datos son muy buenos para la manipulacin (conteos, ordenamiento, seleccin) de muchos registros o filas. Tambin tienen capacidad de manejar estructuras jerrquicas de datos, tales como datos observacionales recolectados tanto al nivel de finca como al nivel de campo de cultivo, en donde los agricultores tienen ms de un campo. Los programas estadsticos estn diseados primeramente para procesar las medidas, es decir, disponen de poderosas herramientas para operar con los valores dentro de variables o columnas de datos. Las hojas de clculo hacen un poco de todo aunque con limitaciones. Nuestra visin general sobre los programas de computacin para manejo de datos se presenta a continuacin.

  • 9

    La transferencia de datos entre programas es ahora lo suficientemente simple, de manera que no es necesario usar el mismo programa en las diferentes etapas del trabajo.

    La tarea introduccin de datos a la computadora debera ser

    conceptualmente separada de la tarea de anlisis. Esto podr ayudar cuando se piensa acerca de que programas se necesitan para la digitacin, para propsitos de revisin, para manejar los archivos de datos y para el anlisis.

    Los programas de manejos de bases de datos (DBMS) deberan ser

    usados mucho ms de lo que se hace actualmente. Muchos proyectos de investigacin involucran tareas de manejo de datos que son suficientemente complejas como para garantizar el uso de programas de bases de datos relacionales, tales como Access.

    Los programas de hojas de clculo son, ostensiblemente, el tipo de

    programa ms simple de usar. A menudo son automticamente escogidos para la introduccin de datos porque son familiares, populares y flexibles, pero su gran flexibilidad significa que pueden resultar en una pobre introduccin y manejo de datos. En consecuencia, deberan ser usados con gran cuidado. Los usuarios deberan aplicar la misma disciplina y rigor que es obligatoria con programas de introduccin de datos ms estructurados.

    Se debe dar mayor consideracin a programas alternativos para la

    introduccin de datos. Hasta hace poco, las alternativas eran ms difciles de aprender que las hojas de clculo, pero eso est cambiando. Algunos programas estadsticos, por ejemplo el SPSS, tienen mdulos especiales para la introduccin de datos y son, por consiguiente, candidatos para ser usados en las etapas de introduccin y revisin de datos.

    Si se usa un "paquete" para la introduccin de datos que no dispone de

    facilidades para la verificacin de los mismos, se debe definir los mecanismos a travs de los cuales se se va a realizar dicha verificacin.

    Un "paquete" estadstico - y no una hoja de clculo - debe ser usada

    normalmente para el anlisis.

  • 10

    4. Estructura de bases de datos Como se seal en la seccin 2, la tarea de manejo de datos puede ser simple o compleja. En trminos de bases de datos esta distincin corresponde a si las matrices de datos son planas o estructuradas, es decir, ligados entre si de varias maneras. La estructura de la base de datos es plana si todos los datos se dan en un solo nivel y pueden ser mantenidos en una matriz de la base de datos. Algunos ejemplos familiares son: una lista de direcciones, el ndice de libros en una biblioteca y una lista de referencias. Los proyectos experimentales usualmente requieren varias matrices, relacionadas entre s, para mantener todos los datos. Por ejemplo, un experimento conducido regionalmente en varios sitios puede producir un archivo plano para almacenar la informacin de los sitios, tal como el promedio de precipitacin en el sitio, la temperatura mxima o la ubicacin del sitio respecto a la poblacin ms cercana. En este caso, las filas en el archivo de datos pueden ser los sitios, mientras que las columnas pueden corresponder a diferente informacin de cada sitio (como en el ejemplo de la seccin 2). Un segundo archivo plano es usado para almacenar la informacin de cada parcela. Las filas de ste archivo incluirn un cdigo para identificar la parcela en particular, mientras que las columnas pueden corresponder a la informacin de cada parcela, tales como el momento en que ocurri la floracin en ms del 50% de la parcela, la produccin de la parcela o el nmero de plantas vivas en ella. An otro archivo plano podra ser necesario para almacenar la informacin recolectada a lo largo del tiempo en cada parcela. En ste caso las filas podran corresponder a las muestras, con varias filas en cada fecha para las parcelas muestreadas en esa fecha particular. Las dos primeras columnas daran la fecha de muestreo y el cdigo de identificacin de la parcela, mientras que las otras columnas contendran las medidas, como peso de las vainas o estado de la planta.

  • 11

    Cuando stos tres archivos planos son considerados en conjunto, forman una estructura jerrquica, que se ilustra en la siguiente figura.

    La informacin de sitio se ubica en el nivel superior de esta estructura, la informacin de parcela se ubica en el nivel siguiente mientras que la informacin correspondiente a cada muestra se ubica al nivel ms bajo. La informacin en los diferentes niveles de la jerarqua se relaciona mediante variables clave (o campos clave). La variable clave es un campo o combinacin de campos nico, que puede ser usada para identificar un registro particular. Un registro - y solo uno - puede tener un valor particular para la variable clave. Muchos "paquetes" de manejo de bases de datos no permiten introducir un nuevo registro si el valor para la variable clave es el mismo que el de un registro existente. En el caso de datos experimentales de recursos naturales, el campo clave es tpicamente uno que combina el cdigo de la parcela con la fecha (asumiendo que hay un mximo de una medida para cada variable por da de muestreo). Los valores en el campo clave en un nivel de la estructura relacionan un registro con otro registro (o registros) en otro nivel con los mismos valores en los correspondientes campos clave. Estas relaciones o vnculos entre matrices de la base de datos, definen su estructura. La posibilidad de almacenar estructuras de bases de datos es lo que hace a los DBMS importantes para los investigadores.

  • 12

    5. Diseo de un sistema de introduccin de datos En el diseo de un sistema adecuado de introduccin de datos, se tienen que considerar varios aspectos de los datos. Estos son discutidos a continuacin.

    5.1 Entender la estructura de los datos

    Pocos proyectos generan datos sencillos; la mayora tienen una estructura compleja, con ms de un archivo plano, los cuales tienen que estar relacionados de una manera claramente definida, como se describi en la seccin previa. Es esencial que tanto componentes planos de la base de datos como las relaciones entre ellos estn completamente especificadas, para asegurarse que la informacin rena los requerimientos de la base de datos de totalidad, integridad y mnima redundancia (o duplicacin) de la informacin. Los programas informticos modernos de manejo de bases de datos relacionales hacen sta tarea bastante fcil. Las hojas de clculo, por el contrario, hacen la tarea ms difcil.

    5.2 Identificar los tipos de informacin que ser colectada

    Trate de prever el rango completo de los diferentes tipos de datos que sern colectados, por ejemplo los datos de la parcela pueden consistir de la produccin total de todas las plantas de la parcela, el nmero de plantas con vainas para cosecha, el peso total de las vainas y el nmero de plantas muertas. A menudo los datos tendrn que ser colectados en la misma parcela en diferentes momentos de muestreo. Las fechas de esos registros deben registrarse, tambin debe haber espacio disponible en la hoja de registro para anotaciones sobre la parcela o la finca en ese momento especfico. Tal informacin secundaria ser valiosa en la etapa de anlisis para explicar cualquier comportamiento curioso de los datos. Se requieren cdigos para distinguir entre la informacin proveniente de diferentes tipos de parcelas. Algunas parcelas, por ejemplo, pueden ser fundamentalmente para evaluar incidencia de enfermedades, mientras que otras pueden ser bsicamente para medir produccin. Se pueden usar adecuadamente abreviaturas o siglas como cdigos.

  • 13

    5.3 Especificar las unidades de medida y la precisin

    Asegrese de que el sistema de bases de datos especifique claramente las unidades de medida usadas para todas las variables cuantitativas. Los cambios en instrumentos de medicin, o en el personal de investigacin de campo o en los mtodos de recoleccin de datos, pueden traer consigo cambios en las unidades de medida. Se deben tener en consideracin tales cambios en la etapa inicial de diseo de la base de datos, de manera que puedan ser incorporados en el sistema de registro de datos. Especifique claramente la precisin (nmero de lugares decimales) a la cual todas las mediciones van a ser registradas. El nmero de dgitos significativos debe coincidir con la precisin real de los instrumentos de medida o de registro.

    6. Introduccin y verificacin de datos Se considera inicialmente que los datos son registrados en libros de campo o formularios de encuestas. Primero se discuten las estrategias generales que pueden ser adoptadas para la introduccin y revisin de los datos y luego se dan guas separadas sobre stos dos aspectos.

    6.1 Estrategia para la introduccin y chequeo de datos

    Cuando se planifica una estrategia para la introduccin de datos, se debe distinguir con claridad entre las actividades de introduccin, chequeo y manejo de datos y las de anlisis de datos. El objetivo final debe ser un archivo completamente documentado de datos revisados, correctos y confiables que puedan ser sujeto del escrutinio cientfico, sin provocar ninguna duda a investigadores en el futuro. Desgraciadamente, muchos importantes proyectos de investigacin no alcanzan ese objetivo. El proceso de introduccin de datos normalmente involucrar a una persona capacitada quien disea el sistema, mientras que personal de menor calificacin, digitadores o personal de campo por ejemplo, realizan la digitacin. el chequeo o revisin de datos es realizado tanto en el momento de la introduccin como posteriormente. Si el proyecto es pequeo, la misma persona puede planificar el sistema, introducir los datos y realizar el chequeo, pero an as es til tener una estrategia clara para las actividades.

  • 14

    Cuando planifique el sistema, intente hacer el proceso de introduccin de datos tan simple como sea posible. En un experimento repetido, por ejemplo, nunca debe ser necesario introducir los nombres de las variedades o largos cdigos de tratamientos para cada parcela. Una sola letra o nmero es generalmente suficiente. Luego, el sistema de introduccin de datos puede insertar automticamente el cdigo completo o los nombres completos pueden estar en un archivo separado, tal como se deline en la seccin 2. La simplificacin del proceso de introduccin acelerar la tarea, la har menos tediosa y en consecuencia, menos propensa al error. La fase de chequeo lgico debe ser hecha por personal entrenado, que entienda la naturaleza de los datos. Usualmente esta fase, involucra anlisis preliminares, grficos, etctera. En la prctica, las etapas de introduccin y chequeo de datos son diseadas usualmente al mismo tiempo. Sin embargo, la forma que el chequeo de datos es abordado depende de quin introduce los datos. Debe esperarse que personal poco entrenado introduzca exactamente lo que ve en los libros de campo u hojas de datos, el chequeo lgico (sacar los machos preados o las temperaturas mnimas mayores que las mximas, por ejemplo) deben ser realizadas por personal cientficamente entrenado, despus de que la (doble) entrada de datos est completa. De esa manera se pueden tomar decisiones razonadas acerca de lo que hay que hacer. Si los investigadores introducen ellos mismos los datos, la entrada y el chequeo puede hacerse de manera conjunta.

    6.2 Guas para la introduccin de datos

    Estas guas pueden ser resumidas como "Haga la entrada de datos expedita, simple y completamente" Los datos deben ser introducidos en su forma "cruda", es decir, a partir

    de los libros de campo u hojas de registro, cuando sea posible. Por consiguiente, deben ser introducidos en el mismo orden en que fueron colectados. La copia o transcripcin de datos previo a su introduccin debe evitarse al mximo.

    Todos los datos deben ser introducidos. Introducir "solamente las

    variables importantes, de manera que puedan ser analizadas rpidamente", limita las posibilidades del chequeo, el cual puede hacer uso de relaciones entre variables. A menudo cuando se usan "atajos", la entrada completa de los datos debe volver a comenzar desde el inicio, o (ms frecuentemente) las variables remanentes nunca son introducidas.

  • 15

    No se deben realizar clculos manuales antes de la introduccin de los

    datos. Se pueden usar programas informticos para transformar los datos a unidades apropiadas para el chequeo y el anlisis, por ejemplo gramos por parcela a kilogramos por hectrea, o para calcular promedios de medidas repetidas, etctera.

    Cada una de las variables introducidas debe dar un nmero nico de

    registro. En experimentos de campo ste puede ser generalmente el nmero de parcela o subparcela.

    En experimentos de campo, la posicin de cada parcela debe ser

    introducida. Esto facilita que los datos (y los residuos durante el anlisis) puedan ser dispuestos en cuadros o grficos segn su posicin en el campo, lo que es muy til para efectos de chequeo. Cuando las parcelas estn regularmente espaciadas, sin intervalos, la posicin puede ser derivada del nmero de parcela. De otra manera, se deben introducir dos columnas adicionales con las coordenadas.

    Los datos deben ser introducidos expeditamente, es decir, tan pronto

    como sea posible despus de ser colectados. Por ejemplo, cuando las medidas se realizan a lo largo de una temporada, normalmente deben ser introducidas tal como son realizadas. Esto acelera todo el proceso porque la tarea de entrada de datos al final del experimento o la encuesta no es tan grande ni desalentadora. Esto tambin ayuda al chequeo, ya que algunos de ellos pueden indicar cambios inusuales con respecto a valores previos y valores singulares o extraos pueden ser verificados inmediatamente. Se puede informar de cualquier problema a quienes recolectan la informacin en el campo, lo que ayuda a mantener la calidad de los datos.

    Las sugerencias mencionadas se aplican an cuando existen complicaciones en los datos. Algunas complicaciones tpicas que requerirn una cuidadosa reflexin son las siguientes: Experimentos de cultivos asociados, en los cuales las parcelas tienen

    diferente nmero de variables medidas, dependiendo de si la parcela tiene un solo cultivo o una combinacin de ellos.

    Experimentos agroforestales, en donde los datos son frecuentemente

    registrados en diferentes subunidades de cada parcela.

  • 16

    Medidas "caras", tal como datos de sonda de neutrones, que pueden ser colectados solo para algunos de los tratamientos o solo en algunas de las repeticiones.

    Medidas repetidas, en donde los datos, incidencia de enfermedades por

    ejemplo, se obtienen a lo largo de una temporada. Estudios con animales, en donde el orden de toma de datos puede ser

    diferente en cada ocasin.

    6.3 Guas para el chequeo de datos

    El objetivo es que los datos que van a ser analizados sean de una calidad tan alta como sea posible. Consecuentemente, el proceso de chequeo de los datos se inicia en la etapa de recoleccin de los mismos y continua hasta, y durante, el anlisis.

    6.3.1 Chequeo durante la recoleccin de los datos

    Los datos deben ser recolectados y registrados cuidadosamente.

    Considere cuales chequeos pueden ser incorporados en la rutina de recoleccin de datos. Por ejemplo, los mejores y peores animales podran tener un comentario corto para verificar, y quizs explicar, su naturaleza excepcional. Esto confirmar que no fueron escritos con errores.

    Considere la recoleccin de algunas variables adicionales,

    especficamente para ayudar al proceso de chequeo. Por ejemplo, en un experimento de frijoles, el nmero de plantas con vainas que son cosechadas pueden servir en el chequeo de la produccin. Puede ser relativamente barato tomar fotos areas (usando un globo o un cometa) para registrar el estado de cada parcela. Cuando esto no es posible, registrar el "estado" de la parcela o an el de cada surco de plantas dentro de la parcela (en una escala de 1 a 9) puede ser importante.

    6.3.2 Chequeos durante la introduccin de datos

    Si es posible, use programas de computadora para la introduccin de

    datos que dispongan de facilidades para el chequeo. Reconozca que ignorar las guas para la introduccin de datos

    mencionadas con anterioridad, puede ser contraproducente para el

  • 17

    chequeo de los mismos. Por ejemplo, cambiar el orden de los datos, transformar la produccin a kilogramos por hectrea o calcular e introducir solo las medias de lecturas hechas sobre varios especmenes, puede conducir a errores durante la copia o clculo. Esto tambin hace ms difcil comparar los registros computarizados con los originales.

    No confe en la comparacin visual de los datos computarizados con los

    registros originales. Aunque se usa a menudo, no es un mtodo confiable para encontrar errores de introduccin.

    Considere usar la doble entrada de datos, con la segunda introduccin

    hecha por una persona diferente. Esto no toma mucho ms tiempo que una comparacin visual y es una mucho mejor forma de validacin. Los programas modernos de entrada de datos tienen facilidades para un sistema de doble entrada con comparacin inmediata y subsecuente de valores.

    Disee chequeos adicionales si su programa lo permite. El ms simple es

    el chequeo del rango, pero otros chequeos lgicos pueden ser usados. Por ejemplo, para un cultivo particular, el peso del grano podra ser siempre menos de la mitad del peso de la espiga.

    6.3.3 Chequeos posteriores a la introduccin de datos

    La transformacin de los datos puede ayudar en el proceso de chequeo.

    Puede ser ms fcil ver que valores son extraos si estn transformados en unidades que nos son familiares, tales como kg/ha.

    Los anlisis iniciales son una continuacin del proceso de chequeo y

    deben incluir una observacin de los resmenes de los datos. Algunas cosas tiles que se pueden producir en sta etapa son:

    Valores extremos, in particular las observaciones con valores

    mximos y mnimos: Grficos de caja; para comparar grupos de datos y destacar valores

    extremos - "outliers";

    Grficos de dispersin; especialmente si usa colores diferentes para cada tratamiento;

    Cuadros o tablas de datos; en el orden de los tratamientos.

  • 18

    Con datos experimentales, el anlisis de varianza (ANDEVA) inicial

    debe tambin ser considerado como parte del proceso de chequeo. Particularmente con datos experimentales, es difcil hacer todo el chequeo sin tener en cuenta la estructura de los datos - un valor "raro" para un tratamiento puede ser aceptable para otro. Haga uso de programas para el anlisis que le permitan desplegar fcilmente los residuales de forma diversa.

    7. Auditora de cambios Una auditora de cambios es un registro completo de los cambios hechos a los datos y de las decisiones tomadas acerca de los datos y su anlisis, algo as como un libro de bitcora. De hecho, es el equivalente a la idea que se tena antes del cuaderno de notas del cientfico, el cual es tan relevante hoy como siempre. Una auditora de cambios, un libro de bitcora o un cuaderno de notas bien mantenido, facilita las tareas posteriores de escribir reportes sobre los datos o responder preguntas sobre los mismos. Es importante consignar cada cosa que se hace en el momento en que se hace, ya que los registros son siempre pobres si se hacen en una etapa posterior. Por ejemplo, cuando los errores se encuentran durante el chequeo y se introducen cambios en la copia principal de los datos, se debe introducir una observacin en la auditora de cambios. Introduzca notas tambin en los anlisis que realice (incluyendo los anlisis preliminares hechos con propsitos de chequeo) y anote los nombres e todos los archivos creados. Cada anotacin en el libro de bitcora debe estar fechada e inicializada. Realmente no hay nada nuevo aqu, simplemente estamos recordando un requisito fundamental del mtodo cientfico, el que uno debe asegurarse de que su trabajo de manejo de datos se pueda repetir, manteniendo buenos registros de lo que se hace.

    8. Organizacin de los datos para el anlisis Hemos recomendado que los datos sean introducidos en su forma original. Por lo tanto, la primera etapa en la fase de organizacin o manejo de los datos frecuentemente involucra clculos para reestructurar los datos en una forma apropiada para el anlisis. Esto puede ser realizado con el programa usado para la introduccin de datos o con el "paquete" estadstico que ser usado para el anlisis. Tenemos dos recomendaciones (ver Apndice) sobre la organizacin de los datos.

  • 19

    Se tiene que mantener un registro de todos los cambios en los datos. Este

    registro se convierte en parte de la base de datos y es mantenido en la auditora de cambios. Muchos "paquetes" permiten que los datos sean transformados y rearreglados visualmente, pero an as, generan un archivo correspondiente al registro de las transformaciones.

    Debe haber una "copia maestra" nica de los datos. Este es un principio

    estndar del manejo de datos, para preservar la integridad de los datos. Pueden surgir problemas si se mantienen mltiples copias de los mismos datos en diferentes formatos.

    La copia maestra incrementar su tamao conforme se acumulan los datos. An despus de que la introduccin bsica de datos se ha completado, se podrn detectar errores y, por supuesto, debern ser corregidos en la copia maestra. Esto es, desde luego, algo que cambia durante el transcurso de la introduccin, manejo y anlisis de datos. No solamente ste proceso debe ser documentado, sino que se debe desarrollar y utilizar, por parte de todos los analistas y otros usuarios, un sistema consistente de enumeracin de las sucesivas versiones. Desde nuestra perspectiva, la "copia maestra" debe ser generalmente almacenada utilizando un DBMS (Sistema para el manejo de Bases de Datos) . Solo algunas de las matrices de datos sern alteradas por cambios en los datos. Por ejemplo, el seor A, antroplogo, no est inmediatamente afectado por cambios en los registros experimentales hechos por la seorita B, biloga, pero debe estar al da de las adiciones a la lista de sitios acordadas por el Dr. C., el jefe. El seguimiento y la comunicacin de los cambios en la copia maestra de los datos deben ser actividades del manejo del proyecto, igual que el manejo presupuestario. Usualmente los anlisis y los informes estarn basados en extractos de la copia maestra de los datos. Cuando estn siendo producidos los resultados finales, para su presentacin o publicacin, es importante que sean correctos, consistentes y completos, en el tanto en que todos estn basados en la versin final de la copia maestra de los datos. Los anlisis provisionales podrn estar basados en datos provisionales y para evitar confusin e inconsistencias, los nombres de los archivos, los conjuntos de datos analizados y los resultados deben incluir un registro del nmero de la versin de la copia maestra de los datos de la cual derivan. En el apndice de sta gua se muestra como pueden surgir problemas si se mantienen mltiples copias de los mismos datos en diferentes formas, as

  • 20

    como la manera de evitarlos. Tambin se muestran algunas transformaciones comunes que se requieren antes del anlisis.

    9. Anlisis Desde la perspectiva del manejo de datos, el anlisis simplemente toma los datos crudos y produce sumarios. El proceso puede ser visto en dos etapas. La primera es la produccin de resultados para facilitarle al equipo de investigacin la comprensin de sus datos. La segunda es la preparacin de sumarios clave para ser presentados a otras personas en informes y seminarios. El "paquete" estadstico usado para el anlisis debe, en consecuencia, satisfacer los requerimientos de ambas etapas. Debe incluir capacidad para tabular y producir grficos, para facilitar el

    anlisis exploratorio de los datos. Un uso de stos es continuar el proceso de chequeo y asegurar, por lo tanto, que los sumarios presentados tengan sentido.

    Las facilidades de anlisis deben permitir la presentacin de los

    resultados en una forma que apoye al equipo de investigacin en la interpretacin de los datos.

    El "paquete" debe permitir que los resultados sean presentados de la

    forma ms cercana posible a los cuadros, grficos y otros sumarios que sern incluidos en cualquier informe.

    Nosotros encontramos que la mayora de los "paquetes" estadsticos actuales dispone de facilidades adecuadas para grficos exploratorios que le ayuden al investigador a entender sus datos, pero sus facilidades para grficos para presentaciones no son equivalentes a las de los programas especializados en grficos, al menos en su facilidad de uso. Si esto es importante en un estudio particular, el programa estadstico tiene que ser capaz de manejar el sumario de los datos de manera que puedan ser exportados fcilmente al programa de grficos.

    10. Copias de Seguridad Es esencial desarrollar un sistema para hacer regularmente copias de seguridad de los archivos de datos e instrucciones. Omitir este paso puede resultar en que partes importantes de los datos de investigacin se pierdan. Los administradores de proyectos deben establecer una rutina documentada

  • 21

    para hacer copias con regularidad y deben insistir en que todos los miembros del equipo de investigacin sigan dicha rutina. Existen varios tipos de soporte que se pueden usar para las copias de seguridad. Los ms comunes son disquetes, cintas y discos "zip". Las cintas y los discos "zip" tienen la ventaja de mayor capacidad de almacenamiento que los disquetes. Cualquiera que sea el que usted use, es recomendable tener al menos dos juegos de copias de seguridad y alternarlos para actualizar las copias. Tambin es importante asegurarse de que las copias de seguridad se conserven en un lugar adecuado y seguro.

    11. Archivo Los datos y programas de un proyecto de investigacin tienen que ser archivados de manera tal que estn seguros y puedan ser consultados por un usuario posterior. Para un ejemplo, vea la gua "Archivo de datos de proyectos - Lecciones de un estudio de caso". El soporte usado puede ser disquetes, cintas o discos compactos, igual que los usados para copias de seguridad. Aunque la copia de datos para el archivo viene al final del proyecto, la forma en que la informacin ser transferida al archivo debe ser planificada desde el inicio. Una planificacin cuidadosa ser til a lo largo del proyecto porque ayudar a promover una estructura y nomenclatura de archivos de computadora consistente y tambin impulsar el registro de todas las etapas del proyecto (ver la seccin 7). El archivo es ms que un lugar de almacenamiento permanente para los datos usados para el anlisis. Tiene que dar acceso a toda la informacin del proyecto o experimento. Durante la etapa operacional de un proyecto, la informacin acerca de la investigacin est parcialmente en la computadora, parcialmente en papel o en otro tipo de soporte (tal como fotografas) y parcialmente en las cabezas del equipo de investigacin. El archivo no necesita estar todo computarizado, pero tiene que incluir toda la informacin relevante, no efmera, que est en las mentes del equipo de investigacin. Cuando hay datos que no pueden ser archivados electrnicamente, las fuentes de informacin deben ser siempre registradas en el archivo. En ausencia de un esquema apropiado de archivo, el resultado usual es que los investigadores se van, llevando consigo la nica copia de su parte de los datos, con la esperanza de que el anlisis y el informe sern continuados posteriormente. Eventualmente la esperanza declina y los datos llegan a convertirse en una prdida efectiva para futuras investigaciones. Para evitar

  • 22

    este resultado, creemos que (i) al menos una copia completa del archivo debe ser dejada localmente, y (ii) el reporte final debe detallar la estructura del archivo y los pasos seguidos para asegurar su conservacin.

  • 23

    12. Apndice

    Recomendaciones sobre la organizacin de los datos

    Estas dos recomendaciones estn relacionadas. Suponga que hacemos lo contrario... Empezamos con los datos "crudos" en un archivo de la base de datos Access, llamado exp971.mdb. Transferimos los datos a un archivo de la hoja electrnica Excel, transformamos algunas variables y guardamos el archivo con el nombre exp972.xls. Se descubre un error en los datos y se corrige en ste ltimo archivo. Despus transferimos algunos de los valores a un "paquete" estadstico y lo guardamos en un nuevo archivo llamado exp97.gsh. Un segundo error se corrige en este tercer archivo. Ahora hay tres versiones diferentes de los datos. A menos que seamos extremadamente meticulosos en mantener un registro completo de los cambios hechos en cada paso del anlisis, es imposible conocer cual versin corresponde a la original. La integridad de los datos est as comprometida y ya no est claro cual archivo debe ser guardado en la base de datos. Este escenario es una pesadilla comn cuando, en el ao final del proyecto de investigacin, un anlisis combinado de una serie de experimentos hechos a lo largo de varios aos es frustrado. Una solucin puede ser la siguiente. TODAS las correcciones deben ser hechas a los valores en el archivo inicial, es decir en exp971.mdb del ejemplo anterior. No obstante, cuando se realizan las transformaciones por primera vez, las instrucciones necesarias para realizar las transformaciones deben ser guardadas. El hecho de que las instrucciones correspondientes a esas transformaciones se conserven, significa que ste archivo de instrucciones pueda ser ejecutado de nuevo para obtener el segundo archivo, en el caso del ejemplo exp972.xls. Las instrucciones para obtener exp97.gsh en el "paquete" estadstico se pueden ejecutar otra vez y el anlisis continua. La auditoria de cambios

  • 24

    incluye los nombres de dos archivos de instrucciones y el archivo contiene los datos originales ms los dos archivos de instrucciones. El potencial escenario de pesadilla descrito antes se refera a una situacin simple, en la cual los datos "crudos" estn en una matriz simple o archivo plano. El apego a los principios estndar de las bases de datos llega a ser an ms importante cuando los datos se encuentran en mltiples archivos. Por ejemplo, en una encuesta, puede haber informacin sobre comunidades en un archivo y de agricultores dentro de cada comunidad en otro archivo. Con los datos en un "paquete" de bases de datos, estos datos pueden ser relacionados con base en los valores de un campo de relacin, que en este caso sera el cdigo de la comunidad. Por ejemplo:

    Datos de Comunidades

    Cdigo Comunidad

    Nombre Poblacin Alcalde

    1 La Paz 52 Cardona, M 2 El Salto 84 Gmez, S 3 Sabana 62 Torres, L ... ... ... ...

    Datos de agricultores

    Cdigo Comunidad Nombre Agricultor Fecha Nacimiento 1 Lpez, M 14/03/42 1 Aguilar, H 21/09/49 2 Parra, J 11/02/45 3 Mndez, C 04/10/39 3 Moreno, J 15/04/44 ... ... ...

  • 25

    Los datos combinados aparecern as:

    Cdigo Comuni-

    dad

    Nombre Poblacin Alcalde Nombre Agricultor

    Fecha Nacimien-

    to 1 La Paz 52 Cardona,

    M Lpez, M 14/03/42

    1 La Paz 52 Cardona, M

    Aguilar, H 21/09/49

    2 El Salto 84 Gmez, S Parra, J 11/02/45 3 Sabana 62 Torres, L Mndez, C 04/10/39 3 Sabana 62 Torres, L Moreno, J 15/04/44 ... ... ... ... ... ...

    En un programa de bases de datos, los datos de comunidades y agricultores son almacenados separadamente, pero pueden ser visualizados en un solo cuadro como el de arriba. En este caso aunque los datos de cada comunidad parecen estar repetidos en el cuadro combinado, no estn repetidos en la base de datos. Modificar la informacin de las comunidades en la base de datos solo requiere un cambio. Por ejemplo, si la poblacin de la comunidad 1 se incrementa a 55 solo tenemos que hacer un cambio en la base de datos y no dos. Sin embargo esto solo es vlido mientras los datos permanezcan en la base de datos. Si los datos combinados son exportados a otro programa para el anlisis, la informacin de las comunidades en los datos exportados estar repetida. Si se hacen cambios a los valores de la poblacin en esta etapa, tendr que hacer el mismo cambio en tantos registros como agricultores existan en esa comunidad. Es fcil cometer errores en un archivo grande y la integridad de los datos est comprometida. La solucin mencionada con anterioridad es mantener una versin definitiva de la base de datos, en la cual se realicen todos los cambios que sean necesarios y de la cual se extraigan conjuntos de datos para el anlisis. Aunque organizar esto puede tomar algn tiempo inicialmente, es ms seguro y puede ahorrar tiempo en el largo plazo.

  • 26

    El Statistical Services Centre es una organizacin sin fines de lucro, adscrita al Departamento de Estadstica Aplicada, en The University of Reading, Reino Unido. El Centro emplea a su propio personal y realiza trabajo de entrenamiento y consultora para clientes fuera de la Universidad. Su personal asesora al DFID en aspectos biomtricos en proyectos de recursos naturales con el objetivo de apoyar su diseo e implementacin efectiva. El DFID financia la produccin de la versin en ingls de sta serie, con el propsito fundamental de ofrecer guas para la investigacin y apoyar al personal involucrado en proyectos del DFID. La versin en castellano de las guas es producida con autorizacin del SSC y del DFID, por la Universidad Nacional y el Centro Agronmico Tropical de Investigacin y Enseanza, Costa Rica, con el propsito de distribuirlas a investigadores y proyectos en pases hispanohablantes. Comentarios sobre las guas y sugerencias para nuevos temas sern bienvenidos. Ttulos Publicados: Guas Estadsticas para Proyectos de Recursos Naturales Investigacin en Fincas - Algunas Guas Biomtricas Guas para el Manejo de Datos de Proyectos Experimentales Guas para Planificar Encuestas Efectivas Archivo de Datos de Proyectos - Lecciones de un Estudio de Caso Prximos Ttulos: Guas para Presentacin Diseo de Experimentos Mtodos Modernos de Anlisis de Datos El Anlisis de Experimentos Combinados Las guas son producidas tanto en forma escrita como en formato electrnico accesible por computadora. Para obtener copias de las guas o informacin adicional, favor contactar a la UNA, el CATIE o al SSC.

  • Para informacin adicional: Statistical Services Centre, The University of Reading P.O. Box 240, Reading, RG6 6FN United Kingdom e.mail: [email protected] Unidad de Mtodos Cuantitativos y Anlisis de Datos. Escuela de Ciencias Agrarias, Universidad Nacional, Heredia 3000, Costa Rica. e.mail: [email protected]