Como nosotros en este trabajo, estamos enfocando el proceso de Data Mining como parte de un proceso mucho mas complejo, definiremos desde esta perspectiva ¿qué es? y como funciona.

Cabe destacar que el término Data Mining es usado comúnmente por los estadísticos, analistas de datos, y por la comunidad de administradores de sistemas informáticos como todo el proceso del descubrimiento, mientras que el término KDD es utilizado mas por los especialistas en Inteligencia Artificial.

Desde nuestro punto de vista:

¿QUÉ ES EL DATA MINING?

Extracción de información oculta y predecible de grandes bases de datos utilizando particulares algoritmos y presentando modelos o determinados patrones a partir de datos.

MÉTODOS DEL DATA MINING

El componente Data mining del KDD envuelve la aplicación repetitiva de los métodos que utiliza. En esta sección presentaremos los métodos más utilizados en la actualidad. El Data Mining nos presenta los modelos o patrones obtenidos de los datos, ahora decidir si los modelos obtenidos son interesantes y útiles forma parte del proceso del descubrimiento en general en donde siempre el usuario es un parte muy importante que participa en todo el proceso y es quien decide al final si los modelos le son útiles o no.


TAREAS Y TÉCNICAS DEL DATA MINING

Las dos principales tareas del Data Mining pueden ser la predicción o la descripción. La predicción utiliza algunas variables o campos de datos para predecir el comportamiento futuro de otras variables. La descripción se centra en encontrar patrones que describan el comportamiento de los datos al usuario.

Las tareas principales son:

Análisis de dependencia: El valor de un elemento puede usarse para predecir el valor de otro. La dependencia puede ser probabilística, puede definir una red de dependencias o puede ser funcional.

Identificación de clases(Clustering): Es un método descriptivo que identifica un conjunto finito de categorías o clusters en base a semejanzas y diferencias de perfiles existentes en los datos. Se utilizan algoritmos de clustering Ejemplo: descubrir sub-poblaciones homogéneas de consumidores en una base de datos de marketing.

Clasificación: es encontrar una función que clasifique los datos en una serie de clases predefinidas. Ejemplos: clasificar las tendencias de los mercados financieros, una identificación automática de objetos de interés en bases de datos de imágenes.

Regresión: define la relación entra una o más variables y un conjunto de variables predictoras de las primeras Ejemplos: La estimación de la probabilidad de que cierto paciente morirá habiendo analizado los resultados de un listado de diagnósticos, predecir si los consumidores comprarán un determinados producto si se hace mucha propaganda, etc.

Componentes básicos de un algoritmo

Lenguaje de representación del modelo: Utilizado para describir los patrones descubiertos. Todos los algoritmos tienen una particular forma de representar los patrones, algunas son mas complicadas que otras. Es muy importante que el analista de datos conozca todas las particularidades de los diferentes algoritmos, como por ejemplo las suposiciones que el algoritmo hace acerca de los datos, por eso también los diseñadores de algoritmos deben poner bien en claro que suposiciones son las que hacen los diferentes algoritmos.

Evaluación del modelo: estima como un particular modelo se ajusta al criterio del proceso del Descubrimiento del conocimiento. Se evalúan; primero si la interpretación del modelo es clara, luego la credibilidad de las predicciones hechas por el modelo, su utilidad, etc. Criterios lógicos y estadísticos son utilizados para evaluar el modelo.

Búsqueda: el algoritmo debe buscar los parámetros que permitan optimizar la evaluación del modelo dados los datos y la representación del modelo.


Técnicas del Data Mining

La variedad de técnicas utilizadas para extraer los patrones o modelos de las bases de datos han sido desarrolladas por diversas disciplinas como la Estadística, la inteligencia artificial, bases de datos, visualización y representación del conocimientos por sistemas expertos.

Técnicas más comunes

Los árboles de decisión: esta es una clase de algoritmo utilizado por la inteligencia artificial que usa el principio de divide y conquista para clasificar casos. Es un algoritmo que continuamente se subdivide para representar casos que pertenecen a la misma clase Para decidir que criterio utilizará el árbol para subdividirse se utiliza siempre un test estadístico. Se construyen con gran rapidez y producen resultados de gran exactitud.

Redes neuronales: Genéricamente son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.

Reglas de asociación: las reglas de asociación son particularmente importantes cuando tratamos de encontrar asociaciones entre datos en una transacción. Un ejemplo de un resultado que nos da esta técnica es una declaración como esta "el 80% de las personas que compran pañales y leche también compran biberones".

Algoritmos de clustering: también llamados algoritmos de clasificación sin supervisión, es el proceso de agrupar objetos físicos o abstractos en clases que contienen objetos similares . Esta técnica permite construir particiones de grandes bases de datos utilizando el principio de divide y conquista para simplificar el diseño y la implementación.

Patrones secuenciales: El descubrimiento de patrones secuenciales es muy utilizado en la industria ventas al por menor, y también en el dominio de la medicina. El resultado de esta técnica se presenta como una lista de transacciones. Los algoritmos de patrones secuenciales son muy útiles a la hora de descubrir la tendencia de los datos como: El número de revistas deportivas vendidas a clientes con N° de crédito que van desde el 20.000 al 30.000 que viven en la ciudad 2 está creciendo.