Tag: Data Science

ITELLIGENT en Microsoft Research, Cambridge UK

En la imagen, Jaime Martel, CTO de ITELLIGENT, en Microsoft Research, Cambridge UK

El pasado 10 de agosto tuvimos el placer de conocer a la Dra. Regina Barzilay, profesora del Massachusetts Institute of Technology (MIT), en su ponencia sobre How Can NLP Help Cure Cancer? en la ciudad de Cambridge (UK). El evento, organizado en el centro de Microsoft Research en Cambridge UK, pertenecía a una serie de ponencias tituladas “Frontiers in AI” (Fronteras de la Inteligencia Artificial) bajo el patrocinio de Microsoft Research.

La charla de la Dra. Regina Barzilay (1970, Chisináu, Moldavia) versó sobre cómo es posible ayudar a la cura del cáncer a través de técnicas de procesamiento de lenguaje natural (PLN o NLP en inglés): How can NLP help cure cancer?

Actualmente, la mayoría de las investigaciones sobre el cáncer se llevan a cabo en el campo de la biología y medicina. La informática sin embargo, desempeña un papel de apoyo menor en este proceso, si es que lo hace. Con su ponencia, Barzilay manifiesta que el PLN, como campo de estudio, tiene la oportunidad de jugar un papel importante en esta batalla contra el cáncer. De hecho, el texto de forma libre sigue siendo el principal medio por el cual los médicos registran sus observaciones y hallazgos clínicos, pero, desgraciadamente, esta rica fuente de información textual es “subutilizada” por los modelos predictivos en oncología. Los modelos actuales sólo se basan principalmente en datos estructurados. Por este motivo, Barzilay defiende la utilización del PLN para avanzar en los estudios sobre el cáncer.

El interés de Barzilay en este tema es relevante, ya que éste comenzó en el momento en el que le diagnosticaron un cáncer de mama. A partir de ese momento, Barzilay comenzó su andadura por la investigación en este campo y descubrió que existen muchas oportunidades para mejorar los sistemas de diagnostico del cáncer. Según ella, no se aprovechan todos los datos que se generan sobre la información de los pacientes; sólo se utiliza una pequeña parte de estos datos. A través de la utilización de esta gran cantidad de datos desaprovechados, se podrían mejorar diagnósticos y tratamientos del cáncer.

A  raíz de su cáncer, Regina Barzilay, comienza a trabajar en este tema con diversos doctores del Hospital General de Massachusetts. De esta colaboración nace un sistema que permite mejorar la extracción de información de los historiales de los pacientes utilizando técnicas de PLN (Procesamiento del Lenguaje Natural). De esta forma se enriquecen las bases de datos.  Asimismo, desarrollaron técnicas para facilitar la interacción de los doctores con el sistema:

  • El sistema permite a los doctores ofrecer, de forma intuitiva y fácil, feedback al sistema (ej. indicar que un dato no es correcto)
  • El sistema no solo realiza la extracción de la información sino que también ofrece una explicación de porqué se han extraído.
Barzilay_Cambridge_UK

Varias imágenes de la ponencia de Barzilay sobre How can NLP help cure cancer? en Microsoft Research Cambridge (UK)

Además,  Regina habló de las extraordinarias oportunidades para la aplicación de técnicas de Data Science y aprendizaje automático a la lucha contra el cáncer puesto que los modelos actuales podrían mejorarse mucho más. Y no solo utilizando modelos de aprendizaje más avanzados, sino incorporando también muchos de los datos que actualmente no se utilizan -o sólo se utilizan de forma parcial-. Es decir, no sólo a partir de textos no estructurados (ej. historial del paciente) sino, sobre todo, de un mejor tratamiento de los datos (principalmente imágenes) que los modernos sistemas de diagnostico ofrecen.

Algo a destacar sobre la ponencia de Barzilay fue la presencia de Christopher Bishop,  miembro del equipo técnico de Microsoft y Director de Laboratorio de Microsoft Research Cambridge. Bishop estuvo presente en esta charla entre el público ya que ésta misma se disponía en el centro que actualmente dirige. 

Cómo se aplica el PLN

Según Barzilay el procesamiento del lenguaje natural (PLN) de sus  máquinas aplica la información de dos maneras:

La primera fue crear un sistema que coge el informe patológico que ha escrito el doctor, donde está recogida toda la información del tumor, lo reconoce y lo escribe en una base de datos, una especie de tabla estructurada, que los ordenadores pueden analizar fácilmente. Así es posible buscar a las personas que tiene el mismo tipo tumor o que presenta altos condicionantes de poder padecerlo. En definitiva, trasladar miles de informes con letras de doctores diferentes a una tabla donde se puede buscar información. Este primer sistema posee 110.00 informes patológicos de tres hospitales: el Massachusetts General Hospital, el Instituto de Cáncer Dana-Farber Cancer y el Hospital Newton Wellesley.

La segunda forma está relacionada con la interpretación de las mamografías. Se han creado sistemas que pueden ver una mamografía y predecir si la paciente se está dirigiendo hacia el cáncer. Esto es, gracias a que las máquinas identifica patrones correctamente, de tal forma que si se les muestra una serie de mamografías de cómo han ido evolucionando las pacientes que finalmente han desarrollado cáncer, pueden identificar si esos mismos rasgos se están dando en otra paciente. Algo que para los humanos es imposible de hacer.

Actualmente, Barzilay ya ha conseguido algún resultado, especialmente en la detección de condicionantes. Gracias a su trabajo han podido predecir cuando alguien tiene factores de riesgo para tener cáncer y ver cómo se desarrolla.

Regina Barziilay

Regina Barzilay, catedrática del MIT y experta en procesamiento del lenguaje. FOTO: elpais.com TECNOLOGÍA.

Durante el próximo curso académico 2016/2017 la consultora ITELLIGENT será una de las empresas colaboradoras que participen en la nueva edición del Máster en Data Science y Big Data de la Universidad de Sevilla.

Si eres titulado en Computación, Ingeniería, Matemáticas o Estadística y quieres seguir formándote, te invitamos a que prestes atención a las oportunidades que te puede brindar este Máster Propio de la Universidad de Sevilla.

El Máster en Data Science y Big Data consta de 33,00 ECTS, posee carácter presencial y su precio puedes consultarlo aquí. La evaluación se ejecutará en relación a la asistencia y entrega de trabajos. Para la obtención del Titulo Académico será requisito indispensable la obtención de la totalidad de los créditos ECTS de los que consta este Máster.

¿Cuáles son los objetivos del Máster?

  • Habilitar al alumno en las competencias necesarias para el tratamiento computacional y estadístico de datos, utilizando técnicas computacionales y de Inteligencia Artificial.
  • Formar a titulados en el análisis científico de datos
  • Implantar unos estudios de postgrado que capaciten al egresado como científico de datos dentro de la empresa.
  • Facilitar una formación aplicada en Data Science a titulados superiores.
  • Capacitar a titulados en el manejo científico de soluciones para Big Data.
  • Proveer al empresariado e instituciones de la región de especialistas cualificados en la explotación de datos y extracción de conocimiento de los mismos.
  •  Actualizar las competencias y conocimientos de profesionales en Estadística o Computación que trabajan en el sector público o privado.

¿Quién lo dirige? 

Máster Propio en Data Science y Big Data

D. Joaquín Borrego Díaz, profesor titular de la Universidad de Sevilla, será el encargado de dirigir este Master en Data Science. Pertenece al equipo de investigación Lógica, Computación e Ingeniería del Conocimiento dentro del Departamento de Ciencias de la Computación e Inteligencia Artificial. Es autor de tres libros y ha colaborado en multitud de libros y artículos científicos. Asimismo, ejerce de responsable y participante en proyectos de diversa índole dentro de la Universidad. El área especializada en la que investiga D. Joaquín Borrego se sitúa en la frontera entre:

  • La Representación del Conocimiento y el Razonamiento en IA, incluidos: ontologías, análisis de conceptos formales y semántica emergente.
  • Lógica computacional y aplicaciones.
  • Aplicaciones de IA en la Web Social.
  • Proyectos en Data Science.

Estoy interesad@, ¿cuándo comienza la pre-inscripción?

Hasta el momento, se desconocen con exactitud los plazos y fechas de inscripción-matriculación. En los próximos días se publicará oficialmente en la web del Master. Sin embargo, de forma provisional, exponemos las fechas aproximadas:

  • Inicio-Fin de inscripción: del 15 de julio al 20 de septiembre de 2016
  • Inicio-Fin de matrícula: del 1 al 20 de septiembre de 2016
  • Inicio-Fin de curso 2016/2017: del 13/10/016 al 15/07/2017
  • Fin de Clases presenciales: día 10 de junio de 2017

¿Qué asignaturas posee el Máster?

Por último,  las asignaturas que se incluyen en el Máster en Data Science y Big Data de la Universidad de Sevilla son las siguientes:

  • Diseño y gestión de proyectos en Data Science I y II (9 ECTS)
  • Introducción a la programación en Python y a los paradigmas para datos (4 ECTS)
  • Fundamentos de Estadísticas y programación en R (4 ECTS)
  • Aprendizaje Estadístico y Modelización (6 ECTS)
  • Arquitecturas y paradigmas para Ciencia del Dato (4 ECTS)
  • Arquitecturas y paradigmas para Big Data (5 ECTS)
  • Machine Learning I y II (10 ECTS)
  • Técnicas Metaheurísticas de optimización (4 ECTS)
  • Inteligencia Colectiva y Sistemas de Recomendación (3 ECTS)
  • Modelos para datos temporales y espaciales (3 ECTS)
  • Data Science & Business Analytics (3 ECTS)
  • Procesamiento del Lenguaje Natural para la Ciencia del Dato I y II (4 ECTS)
  • Visualización de datos (2 ECTS)
  • Visualización de la Información (2 ECTS)
  • Trabajo Fin de Máster (6 ECTS)