domingo, 24 de noviembre de 2013

Modelos de Datos que genera la Minería de Datos Parte 2

Modelo Predictivo

Intenta predecir posibles hechos y tendencias  con este modelo de datos se podrían responder interrogantes como:
¿Qué tal se venderá el próximo año un producto X?
¿X tipo de persona, qué producto comprará?
¿Dónde se producirá el siguiente atentado terrorista?
¿Qué riesgo tiene cierta persona de contraer una enfermedad X en base a sus características?
¿Qué clientes tienen más riesgos de darse de baja de nuestra empresa?

Ejemplo:





Agrupamos los datos:



De aquí se infiere por algoritmo de aprendizaje de arboles de decisión:


Otras técnicas:



  • Regresión Lineal: que es una técnica estadística mediante el cual las fórmulas matemáticas se usan para predecir los resultados futuros, tales como los márgenes de beneficio, los valores de la casa, o las cifras de ventas.
  • Clasificador Bayesiano
  • Redes Neuronales
  • Máquina de Vectores Soporte 
Bibliografía



domingo, 17 de noviembre de 2013

Modelos de Datos que genera la Minería de Datos

Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos, hoy hablaremos de los descriptivos.


Modelo descriptivo: 

Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Cada modelo usa sus propias técnicas, por ejemplo acá veremos dos:


1) Reglas de asociación: Una regla de asociación entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta. Un ejemplo de algoritmo aplicado es el Apriori.

Ejemplo:

  • Los compradores de pañales también suelen comprar cerveza.
2) Clustering: Un cluster no es más que un "grupo", un grupo de datos en este caso, que comparten características comunes. Un ejemplo de algoritmo usado para descubrir clústeres es K-means.


Ejemplo:


      Segmentación de los clientes de un supermercado:

  • Clientes ocasionales que gastan mucho. Clientes ocasionales que gastan mucho.
  • Clientes habituales con presupuesto limitado. Clientes habituales con presupuesto limitado.
  • Clientes ocasionales con presupuesto limitado. Clientes ocasionales con presupuesto limitado.

Ejemplo:    



De esta tabla podemos inferir 3 Clusteres o grupos:
  • Cluster 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.
  • Cluster 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
  • Cluster 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.


Bibliografía:

domingo, 10 de noviembre de 2013

Tareas o pasos del Data Mining

Un proceso de Data Mining consta de ciertos pasos repetitivos, en varias fuentes encontrarán pasos comunes los cuales mostraremos a continuación:



Limpieza de Datos: se limpia el "mugre", datos repetitivos, se buscan los faltantes y se eliminan los datos irrelevantes.

Integración de datos: Múltiples y heterogéneos datos son integrados en un solo bloque.

Selección de datos: donde los datos relevantes al análisis son seleccionados de la base de datos.

Transformación de datos: donde los datos son transformados o consolidados para operaciones de agregación o resumen.

Data Mining: Donde se aplica inteligencia a los datos transformados para obtener patrones.

Evaluación de patrones: donde se identifican los patrones que se desean dependiendo de los intereses de la compañía o quien esté a cargo del Data Mining.

Presentación de conocimiento: donde se visualiza el conocimiento generado por el DataMining, se muestran los patrones y tendencias encontradas de forma amigable al usuario final.

Con los resientes data-warehouse y Bases de Datos o sistemas OLAP, los pasos de limpieza de datos, integración, selección y transformación pueden ser ya omitidos, pues la estructura de un DataWarehouse conectado con OLAP en cualquier forma, asume estos procesos con un ETL previo.

Algunas fuentes consideran los pasos Data Mining, evaluación de patrones y presentación del conocimiento como un conjunto total definido en sí como megaconcepto Data Mining.


Bibliografía:

domingo, 3 de noviembre de 2013

Introducción a la Minería de Datos como Herramienta de B.I


BI como su nombre lo explica, basándose en hechos llegamos  a una buena  toma de decisiones de forma inteligente, mediante la extracción de la información y el conocimiento a partir de datos. La minería de datos es una herramienta que extrae información de una gran cantidad de datos, información valiosa, la "gema oculta" que no se ve a simple vista. ta herramienta debe ser parte de BI, 

Una definición interesante es : 

“Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos” (Fayyad y otros, 1996).


Podríamos decir que Datamining es el conjunto de herramientas que facilitan el proceso de BI más eficiente como las siguientes:



- Business Intelligence o BI Software
- Indicador clave de rendimiento o KPI
- Dashboard
- Almacén de datos
- Data mart
- Tabla pivote

Y permite implementar técnicas como:

- Gestión de Rendimiento de Negocio
- Monitoreo de la actividad empresarial
- Benchmarking

Una referencia clara que diferencia los conceptos podemos encontrarla aquí:


"El objetivo del Data Mining es obtener conocimiento a través de los datos. Por otro lado, las herramientas de Business Intelligence (Inteligencia de Negocio), lo que buscan es una vez hemos analizado los datos y hemos conseguido tener conocimiento, ayudarnos a procesar los datos de las variables críticas de nuestro negocio para poder manejar nuestro cuadro de mando.
Algunas herramientas de Business Intelligence, como Business Objects, Qlick View, Delta Master, Arcplan o Micro Strategy entre otras, integran herramientas más o menos complejas de Data Mining."

La minería de datos es obligatoria para B.I?




No necesariamente, algunos consideran a la minería de datos como una simple tecnología, cuando la empresa dispone de un DataWareHouse eficiente y robusto las herramientas de B.I logran aplicar un proceso de ETL exitoso con sus propios algoritmos, sistemas y métodos,de igual forma sean estos procesos externos a la herramienta B.I. no necesariamente usan Data Mining,





Bibliografía:

http://www.oracle.com/technetwork/middleware/bi-foundation/data-mining-essbase-wp-129552.pdf