Category: Mineria Web

0

La minería web tiene como objeto descubrir información útil o el conocimiento (KNOWLEDGE) procedente de la estructura de hipervínculo web, contenido de la página y datos de usuario. Aunque la minería web utiliza muchas técnicas de minería de datos, no es meramente una aplicación de técnicas de minería de datos tradicionales, debido a la heterogeneidad y la naturaleza semi-estructurada o no estructurada de los datos de la web.

Muchas de las nuevas tareas de minería y algoritmos actuales  fueron  inventados en la pasada década.  Basados en los principales tipos de información utilizados en el proceso de minería. Las tareas de minería web se pueden clasificar en tres tipos: estructura web de minería o web structure mining, extracción de contenido web o web content mining y la minería de uso web o web usage mining.

Web Usage Mining o Minería de Uso Web

En este post, nos centramos en la minería de uso web o web usage mining, para dar respuesta a qué es y en qué consiste este proceso. En primer lugar, debemos tener en cuenta que la Web Usage Mining tiene como objeto de estudio al usuario que navega en una página, a diferencia de web content mining y web strutcture mining que están enfocadas al estudio de la estructura y contenido de la website en sí misma. Este tipo de minería -web usage mining- tiene como objetivo: captar, modelar y analizar  los patrones de comportamiento y los perfiles de los usuarios que interactúan con una web site.  Estos patrones aportan datos de gran interés ya que se pueden utilizar para tener una mejor comprensión del comportamiento de grupos de usuarios con necesidades o intereses comunes dentro de una Web.

De esta forma, gracias a esta información dada con este tipo de minería web, se pueden tomar decisiones en el entorno de la Web, tales como:

  • Mejorar la organización y estructura del sitio web
  • Crear experiencias personalizadas para los usuarios
  • Facilitar la navegación al usuario
  • Generar sugerencias dinámicas de productos o servicios (a través de un sistemas de recomendaciones)

webdatamining_itelligent

Web Usage Mining  se refiere a la detección y análisis automático de patrones en clickstreams, transacciones de usuario y otros datos asociados, recopilados o generados como resultado de las interacciones del usuario con los recursos web sobre uno o más sitios web.

Por tanto, el análisis de estos datos -información recopilada en torno a las conductas en la web de los usuarios-, puede ayudar al sector e-commerce (comercio electrónico) e inteligencia empresarial para:

  • Determinar el valor de la lifetime del cliente
  • Diseñar estrategias de cross-marketing para productos y servicios
  • Valorar la eficacia de las campañas promocionales
  • Optimizar la funcionalidad de las aplicaciones web-based
  • Ofrecer contenido más personalizado a los visitantes web
  • Y por último, encontrar la estructura lógica más eficaz para su espacio web

Fuentes y tipos de datos en web usage mining

Ya tenemos una breve idea de qué consiste la minería web usage pero,  si nos adentramos en términos técnicos, ¿qué fuentes y  tipos de datos podemos obtener de esta minería web?

La principal fuente de datos usados en la web usage mining son los ficheros de logs de los servidores, access log, application logs, etc. Otras fuentes de datos adicionales, también esenciales para la preparación de datos y descubrir patrones, son: los archivos del sitio y meta-datos, bases de datos  plantilla de aplicaciones y dominios inteligentes.

Los datos obtenidos a través de diversas fuentes se pueden clasificar en cuatro grupos principales.

  • USAGE DATA Es la principal fuente de datos de minería de uso web. Los datos recopilados de forma automática por la web y servidores representa el comportamiento de navegación de los visitantes. El  nivel más básico de la extracción de los datos la visita de una página (pageview) ya que se obtiene la información básica del visitante (user client) como puede ser la lectura de un artículo, la vista de un página de un producto o agregar un producto al carrito de la compra. A nivel de usuario, el nivel más básico de extracción de comportamiento es la sesión (session). Una sesión es una secuencia de páginas vistas por un único usuario durante una única visita.
  • CONTENT DATA Los datos de contenido en un sitio son la colección de objetos y las relaciones que se transmite al usuario. En su mayor parte, estos datos se componen de combinaciones de materiales de texto e imágenes.
  • STRUCTURE DATA La estructura de los datos representa el diseño de cómo se aprecia (view) la organización del contenido dentro de la web. En esta estructura de los datos también incluye la estructura del contenido dentro de una página.
  • USER DATA Las bases de datos para el sitio pueden incluir información adicional sobre el perfil de usuario. Estos datos pueden incluir información demográfica sobre los usuarios registrados , valoraciones de los usuarios sobre diversos objetos tales como productos o películas, compras anteriores o historias de estancia de los usuarios , así como otras representaciones explícitas o implícitas sobre los intereses del usuario.

Otras publicaciones en nuestro blog que pueden interesarte sobre Minería Web:

  • Minería web: de contenidos, de estructuras y de usos: donde se define qué es la minería web y se describen sus tres variantes: web content mining o minería del contenido de la web, web structure mining o mineria de la estructura de la web, y web usage mining o minería de uso web (registro de navegación de la web)
  • Aplicaciones prácticas de Minería Web: donde se incluyen algunos proyectos relacionados con la Minería Web en los que ITELLIGENT ha participado. Se tratan de ejemplo práctico en el sector automovilístico, Fotovolcaico y Termosolar, y Ayudas y Subvenciones.

Bibligrafía recomendada:

LIU, BING (2007): WEB DATA MINING Exploring Hyperlinks, contents and usage data. Berlín: Ed. Springer Science & Business Media.

0

Knowledge Discovery in Database

Data Mining (minería de datos) es también conocida como Knowledge Discovery in database (KDD). Es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc.  Los patrones deben ser válidos, potencialmente útiles y entendibles. La minería de datos es un campo multidisciplinar que incluye: aprendizaje automático, estadísticas, sistemas de base de datos, inteligencia artificial, Information Retrieval, visualización de la información, … El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Existen muchas técnica dentro de data mining. Existen muchas tareas de data mining. Algunos de los más comunes consisten en el aprendizaje supervisado, aprendizaje no supervisado, minería de asociación de reglas y minería de secuencia (1).

En resumen, la minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

10 VENTAJAS  DEL USO DE MINERÍA DE DATOS

  1. La minería de datos descubre información que no se esperaba obtener. Como muchos modelos diferentes son usados, algunos resultados inesperados tienden a aparecer. Las combinaciones de distintas técnicas otorgan efectos inesperados que se transforma en un valor añadido a la empresa.
  2. Enormes bases de datos pueden ser analizadas mediante la tecnología de data mining.
  3. Los resultados son fáciles de entender: personas sin un conocimiento previo en ingeniería informática pueden interpretar los resultados con sus propias ideas
  4. Contribuye a la toma de decisiones tácticas y estratégicas para detectar la información clave
  5. Te permite encontrar, atraer y retener a los clientes. Reduce el riesgo de perder clientes: ofrecer promociones especificas o productos especiales para retenerlos.
  6. Mejora la relación con el cliente: la empresa puede mejorar la atención al cliente a partir de la información obtenida.
  7. Permite ofrecer a tus clientes los productos o servicios que necesitan.
  8. Los modelos son confiables. Los modelos son probados y comprobados usando técnicas estadísticas antes de ser usado, para que las predicciones que se obtienen sean confiables y válidas.
  9. En su mayoría, los modelos se generan y construyen de manera rápida. El modelado a veces se torna más fácil puesto que muchos algoritmos han sido probados previamente.
  10. Abre nuevas oportunidades de negocios y ahorra costes a la empresa.

Sin embargo, también existen pequeños inconvenientes en el uso de técnicas de minería de datos, tales como:

  • La dificultad de recopilación de los datos. Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo.
  • Aunque cada vez menos, el requerimiento de una gran inversión también puede considerarse un inconveniente. En ocasiones, las tecnologías necesarias para llevar a cabo la recopilación de datos, no es tarea sencilla y consume muchos recursos que podrían suponer un coste elevado.

¿Quieres saber más sobre Data Mining o Minería Web?

Te recomendamos que eches un vistazo a estas dos publicaciones en nuestro blog:

O también, puedes leer este libro, como parte de la bibliografía consultada para este post: (1) LIU, BING (2007): WEB DATA MINING Exploring Hyperlinks, contents and usage data. Berlín: Ed. Springer Science & Business Media.

En este post incluimos algunos ejemplos de proyectos relacionados con la minería web en los que ITelligent ha participado. Estos proyectos pueden dar una estupenda idea de cómo se puede emplear la minería web que explicábamos en un post anterior.

Inteligencia Comercial para el sector Fotovoltaico y Termosolar

Este proyecto consistió en la obtención de inteligencia comercial para el sector fotovoltaico y termo-solar, el resultado fue un sistema que permite a sus usuarios obtener una ventaja competitiva gracias a que el sistema les permite monitorizar todos los proyectos de energía solar que se publican en España y disponer para cada uno de ellos de una información lista para ser aprovechada comercialmente.

ITelligent_Inteligencia_Comercial_Fotovoltaico_Termosolar

Para este proyecto se desarrolló un “pipeline” muy complejo que a continuación se describe:

  • Diariamente se extraen unos 4000 documentos de unas 70 webs de diversas administraciones públicas españolas.
  • Los 4000 documentos son clasificados automáticamente para detectar aquellos cuya temática sea sobre energía fotovoltaica y/o termo-solar (ej. solicitud de licencias de proyectos, declaraciones de impacto ambiental, concursos, …).
  • Cada uno de los documentos detectados en el paso anterior, son sometidos a un sistema automático de extracción de información para obtener determinada información relevante (ej. nombre del promotor del proyecto, ubicación del proyecto, potencia del proyecto, …).
  • La información obtenida en el paso anterior es enriquecida de forma automática con información adicional procedente de otras páginas web (ej. información catastral, geolocalización en mapa, etc.).
  • Por último los datos son agregados en un mashup que permite el filtrado y el acceso a toda la información de una forma muy amigable.

Sistema de Minería de Opinión para el sector Automovilístico

En este proyecto el cliente requería la monitorización de diversas páginas web de automóviles con contenidos subjetivos (comentarios) y la extracción de inteligencia de estos comentarios. El resultado es un sistema que permite determinar de cada automóvil del que se habla, de que elemento del mismo se habla (ej. seguridad, conducción, habitáculo) y si se habla positivamente o negativamente.

ITelligent_mineria_opinon_automovilistico

Inicialmente el cliente indicó las características que quería estudiar de los automóviles (ej. precio, habitáculo, servicio, seguridad, …) y las páginas web que deseaba monitorizar. Una vez definido lo anterior se desarrolló, en colaboración con los profesores de la Universidad de Sevilla doctores José Antonio Troyano y Fermín Cruz, el sistema que a continuación se describe:

  • Diariamente se extraen los datos de las distintas webs (comentarios y otros).
  • Los datos son procesados por un sistema de minería de opinión de última generación, que permite detectar de qué característica del coche se habla en un comentario y si se habla positivamente o negativamente.
  • El resultado del paso anterior es formateado según las especificaciones del cliente y enviado al mismo.

Inteligencia Competitiva para Ayudas y Subvenciones

En este proyecto el cliente necesitaba obtener todas las ayudas que diariamente se publican en España (sobre 30.000 ayudas al año), clasificarlas y obtener una ficha de cada una de las convocatorias, automatizando lo más posible con vistas a minimizar el esfuerzo manual. El cliente permite ofrecer a sus usuarios una información muy completa de todas las ayudas y subvenciones casi en tiempo real.

ITelligent_mineria_opinion_Ayudas y subvenconesl

Inicialmente el cliente definió como deberían ser clasificadas cada una de las ayudas localizadas, esta clasificación jerárquica permite posteriormente filtrar y crear alertas. Además para cada una de las convocatorias de ayudas se crea una plantilla con diversos campos (ej. plazo, objeto de la convocatoria, …), que permite disponer de una información homogenizada.

Para este proyecto se desarrolló un “pipeline” muy complejo que a continuación se describe:

  • Diariamente se extraen un número muy elevado de documentos de unas 80 webs de diversas administraciones públicas españolas.
  • Los documentos son clasificados automáticamente en función de las categorías definidas por el cliente (ej. I+D+i, urbanismo, juventud, …).
  • Cada uno de los documentos detectados como convocatorias son procesados para extraer determinada información con vistas a crear una ficha de cada convocatoria (ej. plazo de la convocatoria, objeto de la convocatoria,…).
  • La información es diariamente puesta a disposición del cliente junto a unas herramientas que permiten supervisar los resultados. Al mismo tiempo esta supervisión es utilizada como feedback para la mejora de los modelos de extracción y clasificación.

¿Qué es la Minería Web?

La minería web o web mining comprende una serie de técnicas encaminadas a obtener inteligencia a partir de datos procedentes de la web. Aunque las técnicas utilizadas tienen su raíz en las técnicas de data mining o minería de datos, presentan características propias debido a las particularidades que presentan las páginas webs. Algunas de estas particularidades son:

  • La mayor parte de los datos de la web tienen poca estructura (por ejemplo, tablas htmls) o casi ninguna (como pueden ser textos planos oPDFs).
  • Los volúmenes de datos son muy altos y en algunos casos crecen de forma exponencial, con la problemática asociada (big data).
  • Los datos (a nivel de páginas) están relacionados mediante links.
  • Los datos tienen formatos muy variados como htmls, PDFs, imágenes, video, etc.
  • Se mezclan datos fiables con otros de menor fiabilidad, dando lugar a inconsistencias.

Todo lo anterior ha provocado la adaptación y/o desarrollo de nuevas técnicas que permitan aprovechar el gran volumen de datos presente en internet.

¿Cómo clasificar la minería web en función de los datos que utiliza?

  • Minería de Contenidos: su objetivo es obtener “valor” de los datos que contienen las páginas web.  Esta minería presenta la mayor dificultad, debido entre otros: a la falta de estructura de los datos, a su diversidad (ej. imagenes, pdfs, etc.), a la dificultad de interpretar (ej. opiniones). El uso que se le da a los contenidos, una vez estructurados, pueden ser muy diversa: desde la detección de patrones de interés hasta la inteligencia comercial. Hasta el momento este tipo de minería se ha centrado principalmente en textos (algunas veces se habla de text mining), siendo muy utilizadas las técnicas de Procesamiento del Lenguaje Natural, aunque actualmente existe un gran interés en ampliar de una forma efectiva la minería de contenidos a otros formatos (principalmente videos e imágenes).
  • Minería de Estructuras: Internet, de forma implícita, presenta ciertas estructuras que pueden ser de interés para obtener información o inteligencia. Así, dentro de una web, las páginas se organizan de determinada forma -normalmente en una estructura jerárquica-, mientras que distintas web se relacionan entre ellas mediante links -normalmente formando grafos-. Además, las redes sociales han introducido nuevos elementos estructurales como por ejemplo los seguidores. Esta información “estructural” puede ser utilizada de diversas formas, desde ayudar a determinar la relevancia de una página en un buscador a la detección de líderes de opinión en redes sociales.
  • Minería de Uso: La forma en que un usuario interactúa con una página web, aporta datos de gran interés. Tradicionalmente se han utilizado los logs recopilados por los servidores para este tipo de minería (en estos casos se habla de log mining). Es posible, a partir de los datos de interacción, detectar patrones que puedan ser aprovechados con distinta finalidad, desde mejorar la compra en una web modificando la navegación, hasta la personalización de la publicidad.