Tag: Data Science y Big Data

ITELLIGENT en Microsoft Research, Cambridge UK

En la imagen, Jaime Martel, CTO de ITELLIGENT, en Microsoft Research, Cambridge UK

El pasado 10 de agosto tuvimos el placer de conocer a la Dra. Regina Barzilay, profesora del Massachusetts Institute of Technology (MIT), en su ponencia sobre How Can NLP Help Cure Cancer? en la ciudad de Cambridge (UK). El evento, organizado en el centro de Microsoft Research en Cambridge UK, pertenecía a una serie de ponencias tituladas “Frontiers in AI” (Fronteras de la Inteligencia Artificial) bajo el patrocinio de Microsoft Research.

La charla de la Dra. Regina Barzilay (1970, Chisináu, Moldavia) versó sobre cómo es posible ayudar a la cura del cáncer a través de técnicas de procesamiento de lenguaje natural (PLN o NLP en inglés): How can NLP help cure cancer?

Actualmente, la mayoría de las investigaciones sobre el cáncer se llevan a cabo en el campo de la biología y medicina. La informática sin embargo, desempeña un papel de apoyo menor en este proceso, si es que lo hace. Con su ponencia, Barzilay manifiesta que el PLN, como campo de estudio, tiene la oportunidad de jugar un papel importante en esta batalla contra el cáncer. De hecho, el texto de forma libre sigue siendo el principal medio por el cual los médicos registran sus observaciones y hallazgos clínicos, pero, desgraciadamente, esta rica fuente de información textual es “subutilizada” por los modelos predictivos en oncología. Los modelos actuales sólo se basan principalmente en datos estructurados. Por este motivo, Barzilay defiende la utilización del PLN para avanzar en los estudios sobre el cáncer.

El interés de Barzilay en este tema es relevante, ya que éste comenzó en el momento en el que le diagnosticaron un cáncer de mama. A partir de ese momento, Barzilay comenzó su andadura por la investigación en este campo y descubrió que existen muchas oportunidades para mejorar los sistemas de diagnostico del cáncer. Según ella, no se aprovechan todos los datos que se generan sobre la información de los pacientes; sólo se utiliza una pequeña parte de estos datos. A través de la utilización de esta gran cantidad de datos desaprovechados, se podrían mejorar diagnósticos y tratamientos del cáncer.

A  raíz de su cáncer, Regina Barzilay, comienza a trabajar en este tema con diversos doctores del Hospital General de Massachusetts. De esta colaboración nace un sistema que permite mejorar la extracción de información de los historiales de los pacientes utilizando técnicas de PLN (Procesamiento del Lenguaje Natural). De esta forma se enriquecen las bases de datos.  Asimismo, desarrollaron técnicas para facilitar la interacción de los doctores con el sistema:

  • El sistema permite a los doctores ofrecer, de forma intuitiva y fácil, feedback al sistema (ej. indicar que un dato no es correcto)
  • El sistema no solo realiza la extracción de la información sino que también ofrece una explicación de porqué se han extraído.
Barzilay_Cambridge_UK

Varias imágenes de la ponencia de Barzilay sobre How can NLP help cure cancer? en Microsoft Research Cambridge (UK)

Además,  Regina habló de las extraordinarias oportunidades para la aplicación de técnicas de Data Science y aprendizaje automático a la lucha contra el cáncer puesto que los modelos actuales podrían mejorarse mucho más. Y no solo utilizando modelos de aprendizaje más avanzados, sino incorporando también muchos de los datos que actualmente no se utilizan -o sólo se utilizan de forma parcial-. Es decir, no sólo a partir de textos no estructurados (ej. historial del paciente) sino, sobre todo, de un mejor tratamiento de los datos (principalmente imágenes) que los modernos sistemas de diagnostico ofrecen.

Algo a destacar sobre la ponencia de Barzilay fue la presencia de Christopher Bishop,  miembro del equipo técnico de Microsoft y Director de Laboratorio de Microsoft Research Cambridge. Bishop estuvo presente en esta charla entre el público ya que ésta misma se disponía en el centro que actualmente dirige. 

Cómo se aplica el PLN

Según Barzilay el procesamiento del lenguaje natural (PLN) de sus  máquinas aplica la información de dos maneras:

La primera fue crear un sistema que coge el informe patológico que ha escrito el doctor, donde está recogida toda la información del tumor, lo reconoce y lo escribe en una base de datos, una especie de tabla estructurada, que los ordenadores pueden analizar fácilmente. Así es posible buscar a las personas que tiene el mismo tipo tumor o que presenta altos condicionantes de poder padecerlo. En definitiva, trasladar miles de informes con letras de doctores diferentes a una tabla donde se puede buscar información. Este primer sistema posee 110.00 informes patológicos de tres hospitales: el Massachusetts General Hospital, el Instituto de Cáncer Dana-Farber Cancer y el Hospital Newton Wellesley.

La segunda forma está relacionada con la interpretación de las mamografías. Se han creado sistemas que pueden ver una mamografía y predecir si la paciente se está dirigiendo hacia el cáncer. Esto es, gracias a que las máquinas identifica patrones correctamente, de tal forma que si se les muestra una serie de mamografías de cómo han ido evolucionando las pacientes que finalmente han desarrollado cáncer, pueden identificar si esos mismos rasgos se están dando en otra paciente. Algo que para los humanos es imposible de hacer.

Actualmente, Barzilay ya ha conseguido algún resultado, especialmente en la detección de condicionantes. Gracias a su trabajo han podido predecir cuando alguien tiene factores de riesgo para tener cáncer y ver cómo se desarrolla.

Regina Barziilay

Regina Barzilay, catedrática del MIT y experta en procesamiento del lenguaje. FOTO: elpais.com TECNOLOGÍA.

Qué significa Big Data y Data Science

Big Data ( o Grandes volúmenes de datos).

El crecimiento de los datos provocados en Internet y otras áreas (Ej. Genómica) hacen necesarias nuevas técnicas para poder acceder y utilizar estos datos.

Al mismo tiempo estos grandes volúmenes de datos ofrecen nuevas posibilidades de conocimiento y nuevos modelos de negocio. En particular, en Internet, este crecimiento comienza con la multiplicación en el número de webs comenzando los buscadores (ej. Google) a buscar nuevas formas de almacenar y acceder a estos grandes volúmenes de datos. Esta tendencia (blogs, redes sociales, IoT …) está provocando la aparición de nuevas herramientas de Big Data y la generalización de su uso.

Data Science (o Ciencia de Datos).

La oportunidad que los datos ofrecen para generar nuevo conocimiento requiere de técnicas sofisticadas de preparación de estos datos (estructuración) y análisis de los mismos. Así en Internet, sistemas de recomendación, traducción automática y otros sistemas de Inteligencia Artificial se basan en técnicas de Data Science.

CASO PRÁCTICO 1. Situaciones de riesgo en menores

Nancy Lublin, empleada de una ONG de ayuda a los jóvenes en EEUU, cuenta que en 2011 recibió una alarma con un texto de una chica que decía: “No para de violarme. Me ha dicho que no se lo diga a nadie. Es mi padre”.  Este hecho hizo que Lublin creara la organización Crisis Text Line (CTL).

CTL recibe millones de conversaciones en formato de texto (Big Data), ya que esta es la forma más habitual de expresión de los jóvenes. A partir de este gran volumen de datos (Big Data) en formato de texto, ha desarrollado algoritmos de Inteligencia Artificial (Data Science) que permiten detectar situaciones de riesgo de adolescentes, ponerlas en conocimiento de voluntarios y recomendar acciones que ayuden a minorar este riesgo.

Así por ejemplo, a partir de una conversación de chat de un adolescente, el sistema puede determinar que hay un 99% de probabilidad de un problema de abuso de drogas, alertar a un voluntario para que chatee con esta persona y dar al voluntario pautas a seguir e información de los centros de programas de rehabilitación que hayan cercanos al adolescente en cuestión.  Enla imagen, exponemos un ejemplo ficticio de cómo funcionaria el sistema de CTL:

inclusion-social-y-big-data_itelligent_caso-practico

Actualmente, CTL responde a más de 6,5 millones de textos evitando, en promedio, dos intentos de suicidios de jóvenes al día.  Además, CTL pone toda estos datos a disposición de otros organismos que puedan ayudar como son la Policía, Servicios Sociales, etc. Ofreciendo además información agregada de sus datos como puede verse en la imagen:

inclusion-social-y-big-data_itelligent_mapa

Mapa de zonas geográficas en EEUU en riesgo de suicidios adolescentes.

CASO PRÁCTICO 2. Abandono escolar en Andalucía

En Andalucía la tasa de abandono escolar  es del 23 %.  Se trata de la tasa de abandono más alta de España. La media española es del 19 %. Actualmente, el objetivo de Andalucía es reducirlo al 15 %  en cuatro años.

¿Qué puede ofrecer el Big Data y Data Science a este problema?

En particular la analítica predictiva (Data Science) permite predecir con antelación la probabilidad de que un niño abandone sus estudios básicos. Si además se dispone de grandes volúmenes de datos relacionados con la actividad de cada alumno, su situación social-familiar, entre otros datos (Big Data), se ha comprobado que la exactitud de estas predicciones puede ser muy alta. Así ocurre en un estudio de la Universidad de Copenhague, en el que se llega a predecir  con un 93 % de exactitud los casos de abandono escolar. Lógicamente, este modelo debe ser complementado con otras acciones como un protocolo de ayudas, subvenciones o acciones concretas para mejorar e incentivar al alumno a finalizar sus estudios académicos.

¿Porqué un sistema de este tipo puede tener éxito en Andalucía?

Un caso de éxito extrapolable a Andalucía es el de las Escuelas Publicas en Tacoma (Washington, EEUU). En estas escuelas la tasa de abandono escolar (Dropout) estaba en el 45 % en el año 2010 –la media nacional en EEUU en aquel año estaba en el 19 %-. Gracias a la aplicación de un modelo predictivo (Data Science) junto a otras acciones complementarias (como se muestra en la imagen inferior) fue posible reducir la tasa dropout al 22% en 2014.

inclusion-social-y-big-data_itelligent

Estos casos prácticos sobre Inclusión Social y Big Data fueron expuestos por Carmen Bernáldez Lara en la Jornada Ciudades Inteligentes, Ciudades Inlcusivas organizado por el Defensor del Pueblo Andaluz el pasado 20 de octubre, 2016 en la Fundación Cajasol en Sevilla.

Fuentes: