|
Como nosotros en este trabajo, estamos enfocando el proceso de Data Mining como parte de un proceso mucho mas complejo, definiremos desde esta perspectiva ¿qué es? y como funciona. Cabe destacar que el término Data Mining es usado comúnmente por los estadísticos, analistas de datos, y por la comunidad de administradores de sistemas informáticos como todo el proceso del descubrimiento, mientras que el término KDD es utilizado mas por los especialistas en Inteligencia Artificial. Desde nuestro punto de vista:
Extracción de información oculta y predecible de grandes bases de datos utilizando particulares algoritmos y presentando modelos o determinados patrones a partir de datos.
El componente Data mining del KDD envuelve la aplicación repetitiva de los métodos que utiliza. En esta sección presentaremos los métodos más utilizados en la actualidad. El Data Mining nos presenta los modelos o patrones obtenidos de los datos, ahora decidir si los modelos obtenidos son interesantes y útiles forma parte del proceso del descubrimiento en general en donde siempre el usuario es un parte muy importante que participa en todo el proceso y es quien decide al final si los modelos le son útiles o no.
Las dos principales tareas del Data Mining pueden ser la predicción o la descripción. La predicción utiliza algunas variables o campos de datos para predecir el comportamiento futuro de otras variables. La descripción se centra en encontrar patrones que describan el comportamiento de los datos al usuario. Las tareas principales son: Análisis de dependencia: El valor de un elemento puede usarse para predecir el valor de otro. La dependencia puede ser probabilística, puede definir una red de dependencias o puede ser funcional. Identificación de clases(Clustering): Es un método descriptivo que identifica un conjunto finito de categorías o clusters en base a semejanzas y diferencias de perfiles existentes en los datos. Se utilizan algoritmos de clustering Ejemplo: descubrir sub-poblaciones homogéneas de consumidores en una base de datos de marketing. Clasificación: es encontrar una función que clasifique los datos en una serie de clases predefinidas. Ejemplos: clasificar las tendencias de los mercados financieros, una identificación automática de objetos de interés en bases de datos de imágenes. Regresión: define la relación
entra una o más variables y un conjunto de variables predictoras
de las primeras Ejemplos: La estimación de la probabilidad de que
cierto paciente morirá habiendo analizado los resultados de un
listado de diagnósticos, predecir si los consumidores comprarán
un determinados producto si se hace mucha propaganda, etc.
Lenguaje de representación del modelo: Utilizado para describir los patrones descubiertos. Todos los algoritmos tienen una particular forma de representar los patrones, algunas son mas complicadas que otras. Es muy importante que el analista de datos conozca todas las particularidades de los diferentes algoritmos, como por ejemplo las suposiciones que el algoritmo hace acerca de los datos, por eso también los diseñadores de algoritmos deben poner bien en claro que suposiciones son las que hacen los diferentes algoritmos. Evaluación del modelo: estima como un particular modelo se ajusta al criterio del proceso del Descubrimiento del conocimiento. Se evalúan; primero si la interpretación del modelo es clara, luego la credibilidad de las predicciones hechas por el modelo, su utilidad, etc. Criterios lógicos y estadísticos son utilizados para evaluar el modelo. Búsqueda: el algoritmo debe buscar
los parámetros que permitan optimizar la evaluación del
modelo dados los datos y la representación del modelo.
La variedad de técnicas utilizadas para extraer los patrones o modelos de las bases de datos han sido desarrolladas por diversas disciplinas como la Estadística, la inteligencia artificial, bases de datos, visualización y representación del conocimientos por sistemas expertos. Los árboles de decisión: esta es una clase de algoritmo utilizado por la inteligencia artificial que usa el principio de divide y conquista para clasificar casos. Es un algoritmo que continuamente se subdivide para representar casos que pertenecen a la misma clase Para decidir que criterio utilizará el árbol para subdividirse se utiliza siempre un test estadístico. Se construyen con gran rapidez y producen resultados de gran exactitud. Redes neuronales: Genéricamente
son métodos de proceso numérico en paralelo, en el que las
variables interactúan mediante transformaciones lineales o no lineales,
hasta obtener unas salidas. Estas salidas se contrastan con los que tenían
que haber salido, basándose en unos datos de prueba, dando lugar
a un proceso de retroalimentación mediante el cual la red se reconfigura,
hasta obtener un modelo adecuado. |