|
PROCESO DEL DESCUBRIMIENTO
DEL CONOCIMIENTO EN BASE DE DATOS La extracción de conocimiento es un proceso interactivo y repetitivo, no un sistema que automáticamente analiza los datos y nos da como resultado conocimiento útil. La interactividad del proceso se refiere a que el usuario debe entender y participar de todo el proceso porque es él quien te da una pista de cual va a ser el dominio de la aplicación, o sea sobre que aspecto de los datos el quiere trabajar. Para entender mejor la función de los usuarios que utilizan KDD, en este trabajo reconoceremos tres clases de usuarios: 1.el experto del dominio, que debe entender muy bien sobre el dominio de la aplicación; 2. el analista, que es el que ejecuta todo el proceso y que por eso debe tener mucho conocimiento sobre todos los pasos que tiene el proceso y 3. el usuario final, que no necesita poseer mucho conocimiento pero es el que después de terminado el proceso utilizará el conocimiento extraído. El éxito del proceso depende mucho de la interactividad y comunicación entre las diferentes clases de usuarios. Por ejemplo, es muy poco probable que el Analista encuentre conocimiento útil en una gran cantidad de datos sin que el Experto le diga que le será útil para un dominio específico.
Como vimos en el ejemplo, el analista en la tarea de descubrir conocimientos pasa por muchos pasos, pero el corazón del proceso es el análisis de datos para confirmar una posible hipótesis sobre los mismos, y algún tipo de herramienta para el análisis es usada para construir el modelo(los modelos que se construyen son generalmente de regresión o clasificación). En general, la idea es entender como ciertos grupos se comportan de una u otra manera, determinar que reglas rigen el comportamiento de un segmento que nos interesa de toda la población, como por ejemplo "productos que fueron parte de la promoción del día del padre" Las herramientas que se utilizan para el análisis pueden estar: - Basadas en algoritmos: incluyen técnicas estadísticas o la utilización de algoritmos como las redes neuronales, árboles de decisión, etc. - Basadas en la visualización: la hipótesis en este tipo de herramientas se presenta en forma de gráfico. El gráfico producido es de por si un modelo que el analista puede analizar Las técnicas de la visualización de datos se ha convertido en un método muy utilizado para descubrir patrones en los datos porque causan un impacto directo en el analista o usuario. Las técnicas de visualización se utilizan en algunos pasos previos del proceso del descubrimiento del conocimiento, se pueden utilizar para visualizar el modelo producido por un determinado algoritmo de Data Mining, o en la parte del pre-procesamiento para visualizar todos los datos en general. El analista tratar
de utilizar y combinar estas dos técnicas repetitivamente. Los
resultados de una técnica ayudan a mejorar las entradas que utilizará
la otra, y así sucesivamente. Para obtener mejores resultados
la relación entre estas dos técnicas es sumamente importante
en todo el proceso de KDD.
Debemos restringir los parámetros. Esto nos lleva a que antes del análisis de datos hay una fase previa, la interacción con los datos que nos llevará a formular la hipótesis. Ejemplo: En esta fase el arqueólogo de datos mira su paisaje de datos y decide donde empezará la excavación, basado en el conocimiento previo que tiene sobre los datos y su experiencia. Una vez en el sitio, sacará todo el polvo (limpieza de datos), y empezará a juntar las piezas que parecen congeniar y decidirá que hacer luego para confirmar su hipótesis. El arqueólogo decide también que datos utilizará para seguir explorando y que deberá ser ignorado. El analista utiliza técnicas de clustering para segmentar los datos, paramodelar utiliza diferentes tipos de algoritmos (analizando bien cual le conviene más), que pueden ser redes neuronales, regresión, etc. Una parte esencial de todo este proceso es el conocimiento previo que se tiene de los datos. Aquí interactúan las tres clases de usuarios compartiendo sus conocimientos y ayudándose mutuamente, tanto para definir el dominio de la aplicación, como para saber que algoritmo se utilizará finalmente, etc. En el ejemplo del Día del Padre, el analista utilizó sus conocimientos previos para saber que elementos de los datos debía analizar para encontrar el porcentaje con las cuales se incrementaron las ventas y así usar este criterio para evaluar la promoción. Está muy claro
hasta ahora que el análisis de los datos y el desarrollo del
modelo son fases que se complementan una a otra, y que el analista tiene
que ser capaz de saltar de una fase a otra repetitivamente. Generación del resultado En el más
simple de los escenarios, un análisis da como resultado un reporte
de algún tipo. Pero en los escenarios reales los resultados pueden
ser muy variados y complicados. Un buen gráfico que capture todas
las relaciones en el modelo puede ser muy apropiado. También
es bueno pensar en el resultado del KDD como una especificación
para la aplicación que se construye, que luego va a responder
una pregunta clave para el usuario final.
Descubrimiento de la Tarea El usuario viene con un problema o una
meta como si esta estuviera muy clara y bien enfocada, pero siempre
debemos hace una investigación posterior. El analista debe pasar
tiempo con el usuario y conocer su compañía para así
encontrar los elementos que necesita completar la tarea que se le asignó
y para definir bien sus aplicaciones. Cuanto más profundamente
el analista se cuestiona las cosas que emergieron al principio, y cuanto
más tiempo pasa analizando los datos crudos, es cuando encontrará
la meta real del descubrimiento. Este proceso puede consumir mucho tiempo
y es difícil, pero es mejor perder el tiempo en esto que perder
el tiempo tratando de contestar las preguntas equivocadas.
Como un complemento de pasar tiempo con el usuario , los analistas también deben pasar mucho tiempo analizando los datos crudos, para así conocerlos en su totalidad, ver como lucen, y ver que cubren estos datos y que no. Deben entender la estructura, calidad y que campo cubren los datos.
Los datos del cliente casi siempre tiene
problemas. Por ejemplo, se encuentran campos incompletos a los cuales
les faltan archivos, errores en las entradas de los datos, etc. El proceso
KDD no tendrá éxito si no se pone atención a esta
parte, el analista se debe esforzar por limpiar los datos. Sin la fase
del descubrimiento de datos, el analista no sabrá si los datos
le sirven para terminar su tarea o no. Usualmente los datos necesitan
de mucho trabajo antes de que puedan ser sometidos a un serio análisis. |