Tag: procesamiento del lenguaje natural

ITELLIGENT en Microsoft Research, Cambridge UK

En la imagen, Jaime Martel, CTO de ITELLIGENT, en Microsoft Research, Cambridge UK

El pasado 10 de agosto tuvimos el placer de conocer a la Dra. Regina Barzilay, profesora del Massachusetts Institute of Technology (MIT), en su ponencia sobre How Can NLP Help Cure Cancer? en la ciudad de Cambridge (UK). El evento, organizado en el centro de Microsoft Research en Cambridge UK, pertenecía a una serie de ponencias tituladas “Frontiers in AI” (Fronteras de la Inteligencia Artificial) bajo el patrocinio de Microsoft Research.

La charla de la Dra. Regina Barzilay (1970, Chisináu, Moldavia) versó sobre cómo es posible ayudar a la cura del cáncer a través de técnicas de procesamiento de lenguaje natural (PLN o NLP en inglés): How can NLP help cure cancer?

Actualmente, la mayoría de las investigaciones sobre el cáncer se llevan a cabo en el campo de la biología y medicina. La informática sin embargo, desempeña un papel de apoyo menor en este proceso, si es que lo hace. Con su ponencia, Barzilay manifiesta que el PLN, como campo de estudio, tiene la oportunidad de jugar un papel importante en esta batalla contra el cáncer. De hecho, el texto de forma libre sigue siendo el principal medio por el cual los médicos registran sus observaciones y hallazgos clínicos, pero, desgraciadamente, esta rica fuente de información textual es “subutilizada” por los modelos predictivos en oncología. Los modelos actuales sólo se basan principalmente en datos estructurados. Por este motivo, Barzilay defiende la utilización del PLN para avanzar en los estudios sobre el cáncer.

El interés de Barzilay en este tema es relevante, ya que éste comenzó en el momento en el que le diagnosticaron un cáncer de mama. A partir de ese momento, Barzilay comenzó su andadura por la investigación en este campo y descubrió que existen muchas oportunidades para mejorar los sistemas de diagnostico del cáncer. Según ella, no se aprovechan todos los datos que se generan sobre la información de los pacientes; sólo se utiliza una pequeña parte de estos datos. A través de la utilización de esta gran cantidad de datos desaprovechados, se podrían mejorar diagnósticos y tratamientos del cáncer.

A  raíz de su cáncer, Regina Barzilay, comienza a trabajar en este tema con diversos doctores del Hospital General de Massachusetts. De esta colaboración nace un sistema que permite mejorar la extracción de información de los historiales de los pacientes utilizando técnicas de PLN (Procesamiento del Lenguaje Natural). De esta forma se enriquecen las bases de datos.  Asimismo, desarrollaron técnicas para facilitar la interacción de los doctores con el sistema:

  • El sistema permite a los doctores ofrecer, de forma intuitiva y fácil, feedback al sistema (ej. indicar que un dato no es correcto)
  • El sistema no solo realiza la extracción de la información sino que también ofrece una explicación de porqué se han extraído.
Barzilay_Cambridge_UK

Varias imágenes de la ponencia de Barzilay sobre How can NLP help cure cancer? en Microsoft Research Cambridge (UK)

Además,  Regina habló de las extraordinarias oportunidades para la aplicación de técnicas de Data Science y aprendizaje automático a la lucha contra el cáncer puesto que los modelos actuales podrían mejorarse mucho más. Y no solo utilizando modelos de aprendizaje más avanzados, sino incorporando también muchos de los datos que actualmente no se utilizan -o sólo se utilizan de forma parcial-. Es decir, no sólo a partir de textos no estructurados (ej. historial del paciente) sino, sobre todo, de un mejor tratamiento de los datos (principalmente imágenes) que los modernos sistemas de diagnostico ofrecen.

Algo a destacar sobre la ponencia de Barzilay fue la presencia de Christopher Bishop,  miembro del equipo técnico de Microsoft y Director de Laboratorio de Microsoft Research Cambridge. Bishop estuvo presente en esta charla entre el público ya que ésta misma se disponía en el centro que actualmente dirige. 

Cómo se aplica el PLN

Según Barzilay el procesamiento del lenguaje natural (PLN) de sus  máquinas aplica la información de dos maneras:

La primera fue crear un sistema que coge el informe patológico que ha escrito el doctor, donde está recogida toda la información del tumor, lo reconoce y lo escribe en una base de datos, una especie de tabla estructurada, que los ordenadores pueden analizar fácilmente. Así es posible buscar a las personas que tiene el mismo tipo tumor o que presenta altos condicionantes de poder padecerlo. En definitiva, trasladar miles de informes con letras de doctores diferentes a una tabla donde se puede buscar información. Este primer sistema posee 110.00 informes patológicos de tres hospitales: el Massachusetts General Hospital, el Instituto de Cáncer Dana-Farber Cancer y el Hospital Newton Wellesley.

La segunda forma está relacionada con la interpretación de las mamografías. Se han creado sistemas que pueden ver una mamografía y predecir si la paciente se está dirigiendo hacia el cáncer. Esto es, gracias a que las máquinas identifica patrones correctamente, de tal forma que si se les muestra una serie de mamografías de cómo han ido evolucionando las pacientes que finalmente han desarrollado cáncer, pueden identificar si esos mismos rasgos se están dando en otra paciente. Algo que para los humanos es imposible de hacer.

Actualmente, Barzilay ya ha conseguido algún resultado, especialmente en la detección de condicionantes. Gracias a su trabajo han podido predecir cuando alguien tiene factores de riesgo para tener cáncer y ver cómo se desarrolla.

Regina Barziilay

Regina Barzilay, catedrática del MIT y experta en procesamiento del lenguaje. FOTO: elpais.com TECNOLOGÍA.

Inteligencia Artificial como parte del PLN

Desde los inicios de la humanidad hasta la actualidad, ha tenido lugar incremento del conocimiento tal como lo conocemos hoy día. Como resultado de siglos de investigación, con frecuencia sobre los temas aparentemente no relacionados, tenemos el conocimiento científico, el recurso más importante del que dispone la raza humana. Del procesamiento conjunto de la ciencia computacional y la lingüística aplicada, nace el Procesamiento de Lenguaje Natural (PLN o NLP en inglés), cuyo objetivo no es otro que el de hacer posible la compresión y procesamiento asistidos por ordenador de información expresada en lenguaje humano, o lo que es lo mismo, hacer posible la comunicación entre personas y máquinas.

Existen distintos programas que exhiben diferente grado del procesamiento inteligente del lenguaje. Por ejemplo, un buscador de documentos puede buscar simplemente los documentos que contienen la cadena de caracteres especificada por el usuario, sin importar que dicha cadena tenga o no un significado en un lenguaje o idioma. En este caso no sería una aplicación del PLN. Sin embargo, el mismo buscador podría buscar los documentos que comuniquen la idea especificada por el usuario, sin importar las letras que la comunican, y en este caso, sin duda, sería una excelente aplicación de PLN, ya que entendería la idea comunicada en la petición del usuario, la idea comunicada en cada uno de los documentos, y sería capaz de compararlas.

Arquitectura de un sistema de PNL

La arquitectura de un sistema de PLN se basa en una definición de Lenguaje Natural por niveles, los cuales son:

  1. Nivel fonológico: trata de cómo las palabras se relacionan con los sonidos que representan
  2. Nivel morfológico: trata de cómo las palabras se construyen a partir de unas unidades de significado más pequeñas llamadas morfemas
  3. Nivel sintáctico: trata de cómo las palabras pueden unirse para formar oraciones, fijando el papel estructural que cada palabra juega en la oración y qué sintagmas son parte de otros sintagmas
  4. Nivel semántico: trata del significado de las palabras, y de cómo los significados se unen para dar significado a una oración, también se refiere al significado independiente del contexto, es decir, de la oración aislada.
  5. Nivel pragmático: trata de cómo las oraciones se usan en distintas situaciones y de cómo el uso afecta al significado de las oraciones.

Esta arquitectura muestra cómo la computadora interpreta y analiza las oraciones que le sean proporcionadas:

  1. El usuario le expresa a la computadora qué es lo que desea hacer.
  2. La computadora analiza las oraciones proporcionadas, en el sentido morfológico y sintáctico, es decir, si las frases contienen palabras compuestas por morfemas y si la estructura de las oraciones es correcta.
  3. El siguiente paso es analizar las oraciones semánticamente, es decir, saber cuál es el significado de cada oración, y asignar el significado de éstas a expresiones lógicas (cierto o falso).
  4. Una vez realizado el paso anterior, ahora podemos hacer el análisis pragmático de la instrucción, es decir, una vez analizadas las oraciones, ahora se analizan todas juntas, tomando en cuenta la situación de cada oración. Una vez realizado este paso, la computadora ya sabe qué es lo que va a hacer, es decir, ya tiene la expresión final.
  5. Una vez obtenida la expresión final, el siguiente paso es la ejecución de ésta, para obtener así el resultado y poder proporcionárselo al usuario.

Aplicaciones

Habiendo visto cómo se desarrolla el procesamiento de lenguaje natural, podemos deducir, por tanto, algunas de sus múltiples aplicaciones, entre las cuales se encuentran las siguientes:

Personal-Profesional
  • Gestión del tiempo
  • Control de estrés
  • Toma de decisiones
  • Etc.
Salud
  • Estrés
  • Adicciones
  • Miedos y traumas
  • Etc.
Educación
  • Resolver situaciones difíciles
  • Estrategias eficaces para el aprendizaje
  • Enseñar con éxito
  • Etc.

Algunas aplicaciones más concretas del PLN son: análisis y síntesis de voz, traducción automática, revisión lingüística, recuperación de la información, respuesta a preguntas, extracción de la información, reconocimiento del habla, entre otras.

Como se ve, el PLN está presente en nuestra vida diaria mucho más de lo que nos creemos, es por ello que desde hace pocos años se haya vuelto tan crucial para distintos ámbitos en los que nos movemos, haciéndolo herramienta indispensable para las empresas a la hora de obtener información y utilizándola a su favor.

0

En muchas ocasiones, cuando hablamos de reputación online, aparece el concepto de “análisis de sentimiento” pero, ¿sabemos realmente qué significa? El análisis de sentimiento se refiere a los diferentes métodos de lingüística computacional que ayudan a identificar y extraer información subjetiva del contenido existente en el mundo digital (redes sociales, foros, webs, etc.). Gracias al análisis del sentimiento, podemos ser capaces de extraer un valor tangible y directo, como puede ser determinar si un texto extraído de la red Internet contiene connotaciones positivas o negativas.

El análisis de sentimientos, también conocido como minería de opinión, se trata de una tarea de clasificación masiva de documentos de manera automática, que se centra en catalogar los documentos en función de la connotación positiva o negativa del lenguaje ocupado en el mismo.

Con las redes sociales, los usuarios tienen hoy en día todo tipo de facilidades para mostrar sus opiniones sobre cualquier tema que deseen. Tener constancia sobre las opiniones referentes a una marca o producto y medir su impacto es actualmente de vital importancia para todas las empresas, ya que es tu imagen lo que está en juego.

A toda la información que se recopila de esta forma se le denomina minería de opinión (opinión mining) y gracias a ella, las empresas  tienen una inmediata disponibilidad de la información deseada. Además, la minería de opinión no solo permite responder “qué opinan los internautas sobre su propia marca o producto” sino que facilita,  mediante los medios adecuados, obtener ventajas competitivas en diferentes ámbitos.

Gracias al análisis de sentimiento o minería de opinión podemos recopilar información suficiente para conocer qué piensa o qué opinan los usuarios (o target) en la red Internet.

En las redes sociales y en la red en general se encuentran multitud de textos, en los cuales deben aplicarse subjetividad y no únicamente clasificarlos según su naturaleza o procedencia. Existen dos formas de enfrentarse al análisis de sentimientos: aplicando un enfoque semántica o aplicando un aprendizaje automático (Eugenio Martínez Cámara, Mª Teresa Martín Valdivia, L. Alfonso Ureña).

Análisis del sentimiento_itelligent

Cómo funciona el análisis de sentimiento

  1. Mediante el análisis del sentimiento, queremos lograr entender cuál es la intención exacta de una frase. Saber si se refiere a una marca, a un producto en concreto o a cualquier otro aspecto.
  2. Posteriormente queremos conocer que valoración tiene dicha frase, y para ello se le aplica la denominada polaridad, a través de la cual se clasifica el mensaje en función de la intención que tenga el autor al realizarlo, pudiendo ser este positivo, neutro o negativo. Esto permite controlar el sentimiento de los usuarios respecto a una marca o producto, con lo que obtendremos los puntos fuertes y débiles sobre ello fácilmente.
  3. Para aplicar esta polaridad y posteriormente poder obtener datos concluyentes y predecir comportamientos futuros.
  4. Existen básicamente dos formas de procesar la información obtenida tal como mencionábamos en el punto anterior:
  • El análisis manual suele darse en casos en los que las palabras claves sobre las que se quiere obtener información pueden representar diferentes significados en diferentes ámbitos, por lo que habrá que estar atento e ir clasificando cada texto en su lugar correspondiente. Un buen ejemplo sería una marca o el nombre de una empresa que se llama igual que una ciudad, de este modo se recopilarían multitud de datos que no tienen nada que ver con lo que de verdad se pretende obtener.
  • El análisis de sentimiento automático. Este comienza con el establecimiento de una serie de palabras clave para que cualquier texto que contenga esa palabra o combinación de ellas, quede automáticamente encuadrado en una categoría de una forma previamente definida o descartado directamente. Por ejemplo, mensajes que contengan “No me gusta”, “odio” o “no recomiendo” se clasificarán automáticamente cómo datos negativos. Mientras que, aquellos mensajes que incluyan un “excelente”, “genial” o “perfecto”, quedarán clasificados cómo positivos.

Qué limitaciones posee el análisis de sentimiento automatizado

Exactamente no hay ningún método de combinar correctamente las diferentes palabras a utilizar para que el anáisis de sentimiento sea 100% fiable.

Los sistemas que se limitan a la configuración y extracción de contenido con palabras clave son incapaces de generar resultados satisfactorios de análisis de sentimiento en su totalidad. Esto viene dado por la complejidad del idioma humano. Por ejemplo, ¿cómo le inculcas a un robot la capacidad de definir si una frase es realizada con sarcasmo o no?

Anteriormente hemos mencionado el término “perfecto” cómo un adjetivo positivo pero, dependiendo del contexto, este podría cambiar todo el significado de la frase. De esta manera, podría surgir un mensaje que dijera lo siguiente: “Perfecto mensaje a favor del machismo, os habéis lucido”. Este mensaje debería ir entonces clasificado como negativo.

Por este motivo, muchos algoritmos cometen errores, encontrándose con la imposibilidad de fijar una longitud exacta del comentario o la intención real que lleva una determinada palabra. Es decir, no son capaces de inferir de una valoración exacta de las diferentes relaciones semánticas, y se puede afirmar que actualmente es imposible conseguir un 100% de éxito en este campo.

Sin embargo,  los sistemas de análisis del sentimiento más avanzados son capaces de luchar con estos posibles errores y ofrecer resultados más ajustados.

Cómo son las plataformas para análisis del sentimiento

Es aquí donde entra en juego el aprendizaje automático (machine learning). Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial,  donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención anteriormente mencionada: poder predecir comportamientos futuros.

Esa cantidad ingente de datos son imposibles de analizar por una persona para sacar conclusiones y menos todavía para hacer predicciones. Los algoritmos, correctamente utilizados, en cambio, sí pueden detectar patrones de comportamiento.

Existen herramientas de monitorización de las redes sociales como NetOpinion que hacen de esta tarea sea sumamente fácil y rápida, por su capacidad de monitorizar en tiempo real y su gestión y procedimientos en la supervisión de los datos.

Análisis de sentimiento con NetOpinion

Normalmente, la estructura utilizada para la organización adecuada de los datos son los árboles binarios, a través de los cuales se pueden establecer los tres patrones de comportamiento ya comentados (positivo, neutro y negativo).  Con esta estructura se van observando comportamientos, y cuando ya se han recopilado una cantidad de datos importante, el algoritmo ofrecerá un tanto por ciento de posibilidad de predecir un comportamiento u otro.

La cantidad de datos que se generan actualmente en las empresas está creciendo a un ritmo impresionante, y obtener información útil y valiosa de ellos supone una ventaja competitiva muy importante respecto a los competidores. Pero, ¿cómo es realmente el proceso?

Se realizan los siguientes pasos:

  1. Filtración de datos. En primer lugar se utilizan las palabras claves para descartar contenido no deseado, y posteriormente se establecen palabras para obtener categorías según su polaridad o su procedencia.
  2. Extracción del contenido. Una vez que pasen el filtro, se elimina el contenido no deseado y se comenzará a trabajar con el contenido de calidad.
  3. Análisis de contenido. Este proceso lo puede realizar el algoritmo o una persona física en sí. Aquí el contenido útil y de calidad quedará encuadrado en la categoría que le corresponda.
  4. Limpieza del contenido. Quizás se haya colado contenido erróneamente, y este es el momento de enviarlo a su categoría correcta o descartarlo directamente.
  5. Revisión. Se gestionaran en este apartado todos los posibles aspectos a mejorar. Tal vez encontremos una nueva palabra a incluir para descartar contenido, o nos demos cuenta que una palabra considerada positiva se utiliza a modo negativo en determinados momentos.

Para qué sirve el análisis de sentimiento

  • Gracias a este proceso se consigue obtener datos de calidad,
  • Se evita tener multitud de datos que carecen de valor para la toma de decisiones
  • Hacer también, tomar decisiones en tiempo real, como por ejemplo: para apaciguar una crisis de reputación online.
  • Gracias al análisis de sentimiento, se consigue desarrollar mejores estrategias empresariales.
  • Facilita la gestión de la reputación online y ayuda a saber qué acciones llevar a cabo en el plan estratégico de marketing online.

Los retos a los que se enfrenta el sector turístico son la adaptación a la capacidad tecnológica disponible así como la tecnología emergente para transformar la forma de consumir y vender turismo. No podemos encarar la transformación del turismo en Turismo Inteligente de una manera homogénea, ya que cada mercado y segmento establece diferentes posibilidades. Las pymes del sector requieren de patrones más comunes entre las mismas a través de nuevas oportunidades que les permitan la supervivencia y el crecimiento.

A lo largo de esta publicación desgranaremos las principales tendencias de turismo inteligente en opinión de nueve de las principales instituciones de Turismo Inteligente, diez tendencias tecnológicas fundamentadas en su conocimiento del sector y cercanía con el empresariado local. Todo ello con el objetivo de desarrollar mejoras en competitividad y productividad.

DIEZ TENDENCIAS TECNOLÓGICAS EN TURISMO PARA EL 2016

Las 10 tendencias nacen de poner en común las conclusiones de las distintas entidades que forman la Plataforma Tecnológica del Turismo, THINKTUR.

  1. Big Data / Open Data 

    La extracción de información de enormes cantidades de datos facilita la toma de decisiones debido al perfil que se obtiene del comportamiento de los clientes. No sólo la toma de decisiones se refleja de forma estratégica sino que afecta a la creación de productos y servicios que mejoren de manera constante las experiencias.

    Otro de los aspectos relevantes es el de contar con información local personalizada contextualizada, geolocalizada y en tiempo real. Fundamental es el movimiento Open Data como aliados y beneficiarios.

  2. Marketing Digital 

    El recorrido desde el Marketing tradicional hasta el concepto on-line se emprende mediante herramientas, canales e intermediarios y gracias al desarrollo de las tecnologías de la información TIC. El fundamento principal es la ejecución de acciones de promoción y comercialización con resultados visibles en las reservas directas.

  3. Entorno Móvil 

    La adaptación de las webs del sector al entorno móvil se presenta no como una mejoría tecnológica, sino como elemento clave en la subsistencia ante los nuevos hábitos del turista. Tal afirmación nace de la constante presencia de los dispositivos móviles en el día a día del usuario. Se refleja en: información, planificación y compra a través de transacciones móviles.

    Como elementos novedosos destacar  el uso de wearables para aumentar mediante acciones, la comunicación y el acceso a datos. Los avances en localización en interiores genera nuevos servicios turísticos orientados a la movilidad.

  4. Realidad virtual/inmersiva

    Las nuevas tecnologías aplicadas a lo que comúnmente conocemos como Realidad Virtual aportan un sin fin de oportunidades al sector, todas ellas destinadas al refuerzo y potenciación de experiencias y del consumo.

    A través de espacios inmersivos, realidad virtual/aumentada o tecnología háptica logramos alcanzar un nuevo nivel. Todas estas potentes herramientas son aplicables no sólo durante el transcurso de la estancia sino que se pueden aplicar en tres fases:

    Previa. Promoción mediante la recreación de situación que va a vivir si opta por un determinada opción. Ej. Vista 360º
    Durante. Enriquecimiento de la experiencia a niveles que sólo la tecnología nos puede brindar. Ej. Salas inmersivas con realidad aumentada/virtual en las restaurante o ludoteca.
    Después. Tecnologías que nos permitan revivir o compartir la experiencia pasada de una manera nunca vista hasta ahora.

    Con todo ello obtenemos el denominado “placer anticipado” y además “placer posterior”.

    Turismo Inteligente

  5. Internet of Things (IoT) 

    La conexión y la tecnología inalámbrica acompañan al turista en todo su recorrido permitiéndole obtener información y compartirla, se establece la total hiperconexión entre empresas y destinos. La información obtenida ayuda tanto a empresas/destinos como mejora la experiencia del cliente constantemente.

  6. Trans-comercialización 

    Cada vez más se establecen herramientas comunes al respecto de la comercialización de destinos turísticos. Aunque es muy destacable y a pesar del poder en los modelos y canales de comercialización que tienen y que seguirán teniendo webs como travelplan.es, welcomebeds.com, etc. las nuevas oportunidades que se presentan al respecto de las nuevas normativas en grandes mercados europeos prohibiendo las clausulas de paridad y la preponderancia de las OTAs abren nuevos caminos. De esta manera se otorga al sector hotelero mayor capacidad a la hora de atraer a los clientes a sus propios canales de comercialización.

  7. Procesamiento de lenguaje natural

    La interpretación de las búsquedas de los clientes para extraer sus comportamientos y reacciones durante el proceso de compra no presencial, conocer no tan sólo qué se hace, sino porqué se hace. El profundo conocimiento que se obtiene a través de la gestión de los datos otorga un gran avance en la información. Todo ello siempre teniendo en cuenta las limitaciones de carácter ético que presenta.

  8. Gamificación 

    La gamificación al tener su raíz en la palabra inglesa games en muchas ocasiones se relaciona únicamente con el concepto clásico de atracción y creación de experiencias muy presente desde hace tiempo en el turismo. Aplicado al marketing adquiere una nueva acepción, la de elemento para la fidelización, fundamental en el sector tanto por el vínculo que crea con el cliente, como por el poder de creación de nuevos clientes. Facilita la segmentación, de la unión de todos estos factores y con el desarrollo de servicios adicionales  incorporados a las etapas de la cadena de valor y a la comercialización, para alcanzar objetivos a través de la motivación del cliente.

  9. Sistemas de personalización

    Personalización como sinónimo de diferenciación pero no a nivel competitivo sino como capacidad de poder diferenciar entre nuestros clientes en función de sus preferencias, en definitiva, creación de experiencias únicas. La importancia de estos sistemas hace que se consolide año tras año entre los de mayor capacidad económica dentro del segmento de turismo de calidad.

    Requiere de la aplicación de algoritmos que faciliten el perfilado de turistas y de recomendación de experiencias. El impacto que genera se aprecia principalmente a dos niveles, el económico y el de sostenibilidad. Importante es también la colaboración entre los diferentes agentes turísticos para una mayor  obtención de datos y la generación automática de los paquetes deseados por el cliente.

  10. Impresión 3D

    Otorga la posibilidad de la creación instantánea, y entre sus posibles utilizaciones en el sector  están la de ofrecer soluciones a la problemática del stock con la generación de repuestos de maquinaria compleja y la creación de amenities para el sector hotelero entre otras.