Datos limpios, investigación sólida

Fuente de la imagen: mvc archivo propio

La tarde del martes la dediqué al curso de Extensión Universitaria en Introducción a las Metodologías de Investigación Digital en el Ámbito de las Humanidades (M. Velasco, 2025)[1], que llevo realizando desde hace unos meses. Esta mañana quiero poner en valor el artículo de C. Lewis (2025)[2], que considera la limpieza de datos como paso básico pero poco valorado, dentro del proceso de investigación, especialmente en el ámbito educativo. La autora define esta tarea como el conjunto de procedimientos que permiten dar orden y transformar la información sin procesar, convirtiéndola en un formato interpretable y analizable con facilidad. En el contexto de la investigación educativa, esta información inicial y sin tratar suele provenir de diversas fuentes, como encuestas, evaluaciones y pruebas. Lewis nos recuerda que, incluso cuando empleamos las herramientas de recopilación de información más avanzadas y cuidadosamente diseñadas, es casi inevitable que debamos realizar algún tipo de limpieza antes de poder utilizar esa información de manera efectiva, ya sea para compartirla con colegas o para avanzar en nuestra propia investigación. Uno de los principales problemas que señala la autora es la frecuente falta de estandarización en los procesos de limpieza de valores. A menudo, a pesar de nuestros mejores esfuerzos por establecer un flujo de trabajo ordenado y sistemático, muchas personas investigadoras terminamos realizando esta tarea de una manera que podría describirse como "un tanto aleatoria", falta de orden que implica una mayor inversión de tiempo y esfuerzo en etapas posteriores, pudiendo dificultar enormemente la comprensión del proceso por parte de otras personas, lo que, a su vez, afecta negativamente a la transparencia y la reproducibilidad de la investigación. En otras palabras, si no se documenta adecuadamente cada paso que damos al limpiar los registros, será muy difícil para alguien más (o incluso para nosotros mismos en el futuro) entender qué hicimos exactamente y por qué lo hicimos. Para evitar estos problemas, Lewis propone una serie de pasos y prácticas que nos ayudarán a establecer flujos de trabajo de limpieza de mediciones estandarizadas, reproducibles y que garanticen la fiabilidad de la información que obtenemos.

Fuente de la imagen: Hacia un modelo evaluativo más cualitativo (M. Velasco, 2023)

El artículo se desarrolla en torno a dos ideas. La primera se centra en los pasos preliminares, es decir, aquellas acciones que debemos llevar a cabo incluso antes de comenzar a limpiar los valores propiamente dichos. Estos pasos incluyen la creación de un diccionario que define la estructura que se espera que tengan los datos, especificando los nombres, las definiciones y los atributos de cada una de las variables que vamos a manejar, así como los valores que se consideran válidos para cada una de ellas. Igualmente, se destaca la importancia de elaborar un plan de limpieza, que describe cómo vamos a transformar los registros sin procesar en datos listos para su uso, facilitando el consenso entre todas las personas que participen en el proyecto de investigación. Lewis aboga por la necesidad de revisar exhaustivamente los archivos “Léame”, que suelen acompañar a las evidencias sin procesar y que pueden contener información valiosa, como errores detectados durante la fase de cosecha de información. Asimismo, subraya la importancia de mantener actualizada la base de datos de seguimiento de participantes, que contiene información de identificación de las personas que participan en la investigación y un registro del estado de finalización de los hechos recopilados, lo que posibilita verificar el tamaño de la muestra y detectar posibles mediciones desajustadas o duplicadas. Finalmente, se aprecia la necesidad de configurar una guía de estilo, documento que establece los estándares que el equipo de investigación debe seguir para organizar los valores del proyecto de manera coherente, incluyendo pautas sobre la estructura de las carpetas y el formato que deben tener los nombres de los archivos y las variables. La segunda idea principal del artículo se centra en las prácticas recomendadas para llevar a cabo la limpieza de "basura" de una manera que sea a la vez reproducible y confiable. Para lograr la reproducibilidad, es decir, la capacidad de obtener los mismos resultados si repetimos el proceso, Lewis apunta la importancia de utilizar código para sanear el "paquete", argumentando que la limpieza mediante programación es preferible a los métodos manuales, permitiendo documentar cada transformación de manera precisa, evitando errores humanos.

Fuente de la imagen: Profesorado, Alumnado, Datos y Nube (M. Velasco, 2018)

La autora recalca la necesidad de incluir comentarios explicativos en el código, que ayuden a recordar el razonamiento detrás de cada decisión y faciliten su comprensión por parte de otras personas. Adherirse a una guía de estilo de codificación, que establezca normas sobre cómo escribir y organizar nuestro patrón, también es fundamental para garantizar la coherencia y facilitar la lectura y comprensión del mismo. Lewis rememora la importancia de utilizar rutas de archivos relativas, que hacen que el algoritmo sea más portable, y de evitar las acciones aleatorias, utilizando mecanismos que garanticen la reproducibilidad de los resultados. Por último, se expresa la necesidad de registrar la información de la sesión de trabajo, lo que permite a otras personas conocer el entorno de software específico que se utilizó para ejecutar el sistema. Para garantizar la confiabilidad de la información que se obtienen después de la limpieza, Lewis propone una serie de prácticas adicionales. Entre ellas, se encuentra la revisión cuidadosa de las evidencias al importarlas, lo que propicia la detección de posibles problemas o cambios inesperados en su estructura. Asimismo, la creación de funciones para automatizar las tareas repetitivas se presenta como una estrategia eficiente para reducir la cantidad de código que tenemos que escribir y minimizar el riesgo de cometer errores, Insistiendo en la importancia de verificar los valores antes y después de cada transformación, asegurándonos de que el cambio se ha realizado correctamente y de que no se ha introducido ningún error nuevo. Antes de dar por finalizado el proceso de limpieza y exportar los datos, sugiere realizar una serie de comprobaciones finales para garantizar que no contienen errores. La gestión de versiones y la instrucción, junto con el mantenimiento de un registro de los cambios realizados, también se presenta como una práctica para rastrear el origen de la información y comprender la secuencia de transformaciones que se han aplicado. Por último, la autora reconoce el valor de las revisiones de código, realizadas por colegas con conocimientos de programación, para detectar posibles errores, sugerir mejoras y garantizar que éste sea fácil de entender y utilizar por otras personas. Fuente de la información: artículo de Crystal[3].

Fuente de la imagen: Terroir Digital: Innovando el Enoturismo Juntos (M. Velasco, 2025)

__________________

[1] Velasco-Carretero, Manuel (2025). Descubriendo el Secreto Digital de las Humanidades. Sitio visitado el 30/04/2025.

[2] Lewis, Crystal (2023). Creating a data cleaning workflow. cghlewis.com. Sitio visitado el 30/04/2025.

[3] En resumen, Crystal Lewis argumenta de manera convincente que la adopción de estas prácticas, basadas en su propia experiencia y en las recomendaciones de otras investigadoras e investigadores, puede mejorar sustancialmente nuestro flujo de trabajo de limpieza de datos. Al hacerlo, se obtienen datos más estandarizados, reproducibles y confiables, contribuyendo a aumentar la validez y la transparencia de la investigación, lo cual es esencial para el avance del conocimiento.