Limpieza de Datos: se limpia el "mugre", datos repetitivos, se buscan los faltantes y se eliminan los datos irrelevantes.
Integración de datos: Múltiples y heterogéneos datos son integrados en un solo bloque.
Selección de datos: donde los datos relevantes al análisis son seleccionados de la base de datos.
Transformación de datos: donde los datos son transformados o consolidados para operaciones de agregación o resumen.
Data Mining: Donde se aplica inteligencia a los datos transformados para obtener patrones.
Evaluación de patrones: donde se identifican los patrones que se desean dependiendo de los intereses de la compañía o quien esté a cargo del Data Mining.
Presentación de conocimiento: donde se visualiza el conocimiento generado por el DataMining, se muestran los patrones y tendencias encontradas de forma amigable al usuario final.
Con los resientes data-warehouse y Bases de Datos o sistemas OLAP, los pasos de limpieza de datos, integración, selección y transformación pueden ser ya omitidos, pues la estructura de un DataWarehouse conectado con OLAP en cualquier forma, asume estos procesos con un ETL previo.
Algunas fuentes consideran los pasos Data Mining, evaluación de patrones y presentación del conocimiento como un conjunto total definido en sí como megaconcepto Data Mining.
Bibliografía:
https://sites.google.com/site/jojooa/inteligencia-artificial/proceso-de-data-mining-mineria-de-datos
Interesante saber como las herramientas ETL intervienen de igual manera en la preparación de los datos, con respecto a esto, ¿qué tan fácil es la integración entre aplicaciones de BI y Data Mining para trabajar sobre las mismas bases de datos?
ResponderEliminar