Tag: Record Linkage

El Product Matching es un área perteneciente a Data Matching o Record Linkage encargada de identificar automáticamente aquellas ofertas, productos o entidades en general, que aparecen en la web procedente de diversas fuentes, aparentemente de forma distinta e independiente, pero que hacen referencia a una misma entidad real.

Actualmente, el Product Matching está experimentando un auge debido al incremento de compras online, lo cual ha propiciado la aparición de herramientas de comparación, monitorización y análisis de precios de los productos en venta. Desde el punto de vista de la implementación software, este proceso conlleva un arduo trabajo, ya que para un mismo producto, su descripción o nombre puede aparecer de distinta forma en páginas web diferentes, lo cual puede llevar a equívoco al motor de búsqueda obteniendo resultados incorrectos. Por tanto, se requiere de:

  • Un minucioso, exhaustivo y preciso proceso de búsqueda de productos a través de la web
  • Un filtrado de elementos candidatos, extracción de características, identificación y asociación de productos iguales y distintos
  • Un análisis de los parámetros o características que se requieren investigar entre estas entidades

Aproximación al estado del arte

El Product Matching debido a su relación con el Data Matching o Record Linkage comparte muchas de sus características. El Record Linkage se ha centrado principalmente, desde su nacimiento, en la fusión de distintas bases de datos en una única en la que se identifiquen aquellos elementos relacionados en ambas bases de datos, bien eliminando esas duplicaciones  y/o registrando nuevos enlaces. En las investigaciones realizadas hasta la fecha en el campo del Product Matching se pueden distinguir dos enfoques distintos:

  1. Uso de técnicas de similitud de textos (asociar a cada producto el título, descripción, características técnicas, etc.) para decidir si dos elementos de fuentes distintas hacen referencia a una misma entidad.
  2. Aplicar técnicas de aprendizaje automático para generar modelos que realicen la correspondencia entre productos.

Estos dos enfoques no son independientes entre sí. Normalmente, para el uso de técnicas de aprendizaje automático es necesario el uso de técnicas englobadas en el primer enfoque (Ej. tokenizado de textos, medidas de similitud, etc.) para obtener las entradas a los modelos que serán generados con el segundo enfoque.

Una nueva aplicación conocida como Content Based Image Retrieval (CBIR) ha surgido en el ámito del procesamiento de imágenes con el objetivo de resumir la información de una imagen en varias de sus características tales como el color, textura, forma o la combinación de éstas.

La forma de los objetos que se encuentran dentro de una imagen, es una de las características más usadas en las técnicas CBIR. Para obtenerla con necesarias técnicas de extracción morfológicas. Dentro de estas técnicas tiene una especial relevancia la basada en los Descriptores de Fourier. Dentro del campo de CBIR, también se deben destacar las técnicas de descomposición de imágenes en regiones locales de interés. Estas técnicas detectan, en una imagen, aquellos puntos más importantes y significativos pertenecientes a una región. Dichos puntos son denominados keypoints. En la literatura es posible encontrar una gran variedad de algoritmos para la obtención de keypoints dentro de una imagen.

ITELLIGENT_Product Marching_Monitorizacion de precios

Con el reciente auge del Deep Learning también han aparecido aplicaciones para CBIR. El Deep Learning consiste en un conjunto de algortimos de aprendizaje automático que generan modelos abstractos de alto nivel mediante el empleo de arquitecturas “profundas” -deep- compuestas de múltiples transformaciones no lineales, dispuestas de manera jerárquica. Ese enfoque es diferente a las técnicas convencionales de aprendizaje automático que se basan en arquitecturas “planas”.

Dentro de las múltiples técnicas englobadas dentro del Deep Learning, la técnica Convolutional Neuronal Network (CNN) es especialmente usada en el campo de CBIR. Esta técnica consiste en la utilización de múltiples capas de convolución situadas una encima de otra. Entre estas capas se comparten pesos así como la salia producida a la capa inferior. Mediante el entrenamiento de estos pesos y la disposición de las capas se consiguen modeles capaces de ser independientes a la rotación, traslación, contrastes, etc.

La importancia e imparable crecimiento del comercio electrónico –ecommerce- ha obligado a las organizaciones a disponer herramientas de monitorización de precios, que le permitan gestionar sus políticas de precios y conocer las estrategias de la competencia. Para estas herramientas es fundamental realizar una identificación adecuada de los productos entre las distintas fuentes que se monitorizan, ya que de no ser así no se podrán comparar los productos con sus verdaderos rivales, distorsionando toda la información obtenida.