jueves, 9 de febrero de 2023

¿Big data y data mining es lo mismo?

Fuente de la imagen: mvc archivo propio
Si eres follower de este sitio sabes que son frecuentes las referencias directas e indirectas a los términos big data y data mining[1], pero ¿Existen diferencias en sus significados o realmente son similares? Siguiendo a E. Brynjolfsson, A. McAfee[2], I. Talgam y P. Kinnaird[3], en el sitio net—post, bajo el explícito título ¿Qué es el Big Data?[4] conceptualizaba big data (grandes datos), como magnos conjuntos de datos (información), estructurados en diversos y previsiblemente numerosos campos o filas, con un importante valor analítico, pero cuyo procesamiento o tratamiento es sumamente complicado utilizando herramientas informáticas (software) tradicionales, por lo que se necesitan otro tipo de soluciones informáticas, más potentes tanto en desarrollo como en procesamiento y compilación.

Las raíces se encuentran en el siglo pasado, siendo popularizado en la década de los noventa por expertos como J. Mashey[5]. Los rasgos del big data, van desde la capacidad de almacenar y generar datos, hasta su escalabilidad, pasando por la velocidad de procesamiento, variedad en cuanto al tipo y naturaleza del data, calidad y valor (fiabilidad), característica de los formatos, variabilidad[6] o la función relacional, en el sentido de combinación y metaanálisis de los datos. Para la doctrina consultada, la entrega de información en tiempo real es una de las características definitorias del análisis de big data. J. Manyika y otros[7] caracterizaron el ecosistema big data y sus componentes principales como técnicas para analizar datos[8], tecnologías de big data propiamente dichas[9] y la visualización[10].

En cuanto a data mining, en net—post, texto ¿Qué es Data Mining?[11] me apoyaba en A. Zanasi, V. Rolf y otros[12], para definirlo como el procedimiento mediante el cual se extraen, detectan patrones o modelos en grandes conjuntos de datos, involucrando métodos en la intersección del aprendizaje automático, las estadísticas y los sistemas de bases de datos. De esa definición se deduce que el término “minería” no es correcto ya que la finalidad no es la extracción de datos, sino de enfoques, modelos o patrones que siguen los datos analizados. En cualquier caso, se califica a data mining como subcampo interdisciplinario de la informática y las estadísticas, con el objetivo general de extraer información[13] de un conjunto de datos y transformar la información en una estructura comprensible para su uso posterior.

P. Smyth, G. Piatetsky y U. Fayyad[14] entienden data mining como el proceso de descubrimiento de conocimiento (tendencias, patrones ocultos…) en grandes bases de datos, tanto de los datos sin procesar como otros aspectos de administración de datos, preprocesamiento de datos, consideraciones de modelos e inferencias, métricas de interés, consideraciones de complejidad, procesamiento posterior de estructuras descubiertas, visualización y actualización en línea. La diferencia del data mining respecto al análisis de datos tradicional se encuentra en que este ultimo “analiza los datos” con independencia del tamaño de estos y data mining utiliza modelos estadísticos y de aprendizaje automático para descubrir patrones encubiertos en grandes volúmenes de información.

Siguiendo la doctrina referenciada, en data mining se pueden establecer las etapas de selección, reprocesamiento, transformación, procesamiento de datos e interpretación o evaluación. Otra clasificación podría ser: comprensión de datos, preparación de estos, modelado, evaluación y expansión; o el procedimiento simplificado de tres fases: preprocesamiento, esencial para eliminar datos superfluos (basura) y errores y donde se ensamblan conjuntos de datos de destino; procesamiento de datos, donde se detectan desde valores atípicos hasta datos inusuales, se buscan relaciones entre variables, se descubren agrupaciones y estructuras específicas, se clasifican, se detectan comportamientos o modelos y se representan estos outputs; finalmente la fase de validación de resultados.
_________________________
[1] Velasco Carretero, Manuel. Ética en torno a Big Data, Big Data y Social Business, Pensando en grande Detrás de una buena decisión. Sitios visitados el 09/02/2023.
[2] Brynjolfsson Erik; McAfee, Andrew. Big Data: The Management Revolution. Harvard Business Review. 2012.
[3] Kinnaird, Peter; Talgam-Cohen, Talgam. Big Data". XRDS: Crossroads, The ACM Magazine for Students. Association for Computing Machinery. 2012.
[4] Velasco Carretero, Manuel. ¿Qué es el Big Data? 2013. Sitio netpost. Visitado el 09/02/2023.
[5] Mashey, John. Big Data and the Next Wave of InfraStress. Usenix.1998.
[6] Estructura y fuentes inconstantes.
[7] Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles. Big Data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute. 2011.
[8] Pruebas A/B, aprendizaje automático y procesamiento de lenguaje natural.
[9] Inteligencia comercial, computación en la nube y bases de datos.
[10] Tablas, gráficos y otras visualizaciones de los datos.
[11] Velasco Carretero, Manuel. ¿Qué es Data Mining? 2010. Sitio netpost. Visitado el 09/02/2023.
[12] Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro, Cabena, Peter. Discovering Data Mining: From Concept to Implementation. Prentice Hall. 1997.
[13] Con métodos inteligentes.
[14] Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases. Kdnuggets.1997.