El Plan de Impulso de las Tecnologías del Lenguaje (PTL) se ejecuta en el marco de la Agenda Digital para España y tiene como objetivo impulsar el sector del procesamiento del lenguaje natural (PLN), la traducción automática y los sistemas conversacionales en lengua española y lenguas cooficiales. Con un alcance de cinco años, este PTL tiene como premisa coordinar todas las actuaciones de la Administración General del Estado junto a las Comunidades Autónomas para fomentar las tecnologías del lenguaje.
Asimismo, existen algunos objetivos específicos que se engloban en este Plan:
El PTL pretende que el impulso a las tecnologías del lenguaje se realice de forma coordinada: buscar sinergias y evitar duplicidad de esfuerzos, conforme a las recomendaciones de la Comisión para la Reforma de las Administraciones Públicas (CORA).
Este PTL se estructura en cuatro ejes principales:
Puedes descargarlo aquí.
ITELLIGENT, pionera en España en Procesamiento del Lenguaje Natural
Con más de diez años de experiencia, ITELLIGENT ha sido pionera en aplicaciones de técnicas de Procesamiento de Lenguaje Natural para diversos clientes y proyectos, tanto nacionales como internacionales. Asimismo, nos hemos especializado en el desarrollo de tecnologías encaminadas a la estructuración de Big Data y el desarrollo de soluciones que permitan a las organizaciones una ventaja competitiva gracias a la «inteligencia» que el análisis de estos grandes volúmenes de datos les aporta.
¿Quieres saber más sobre nuestros proyectos?
La clasificación automática de documentos consiste en utilizar técnicas de Inteligencia Artificial sobre un conjunto de elementos para ordenarlos por clases o categorías. Sin embargo, también se pueden utilizar estas técnicas para asignar un documento a una determinada clase o categoría.
Par llevar a cabo la clasificación automática de documentos primero hay que realizar una extracción de features (características) destinadas a ser informativos y no redundantes. Esto facilitará los pasos posteriores de machine learning en la clasificación automática de documentos. La extracción de características (features) se trata de un proceso de reducción y codificación, donde un conjunto inicial de variables sin procesar (ej. texto en un documento) se reduce a características más manejables para su procesamiento (ej. números) y que se describa con precisión el conjunto de datos original.
Existen diversas técnicas de extracción de features:
Técnica clásicas
Nuevas técnicas basadas en Deep Learning:
Tras la extracción de features y en base a la información previa que se posea de los documentos a clasificar o categorizar, se podrán realizar diversas técnicas para la clasificación automática de documentos:
Cuáles son las técnicas de clasificación automática de documentos más usadas
Según el tipo de clasificación, existen:
Desde los inicios de la humanidad hasta la actualidad, ha tenido lugar incremento del conocimiento tal como lo conocemos hoy día. Como resultado de siglos de investigación, con frecuencia sobre los temas aparentemente no relacionados, tenemos el conocimiento científico, el recurso más importante del que dispone la raza humana. Del procesamiento conjunto de la ciencia computacional y la lingüística aplicada, nace el Procesamiento de Lenguaje Natural (PLN o NLP en inglés), cuyo objetivo no es otro que el de hacer posible la compresión y procesamiento asistidos por ordenador de información expresada en lenguaje humano, o lo que es lo mismo, hacer posible la comunicación entre personas y máquinas.
Existen distintos programas que exhiben diferente grado del procesamiento inteligente del lenguaje. Por ejemplo, un buscador de documentos puede buscar simplemente los documentos que contienen la cadena de caracteres especificada por el usuario, sin importar que dicha cadena tenga o no un significado en un lenguaje o idioma. En este caso no sería una aplicación del PLN. Sin embargo, el mismo buscador podría buscar los documentos que comuniquen la idea especificada por el usuario, sin importar las letras que la comunican, y en este caso, sin duda, sería una excelente aplicación de PLN, ya que entendería la idea comunicada en la petición del usuario, la idea comunicada en cada uno de los documentos, y sería capaz de compararlas.
Arquitectura de un sistema de PNL
La arquitectura de un sistema de PLN se basa en una definición de Lenguaje Natural por niveles, los cuales son:
Esta arquitectura muestra cómo la computadora interpreta y analiza las oraciones que le sean proporcionadas:
Habiendo visto cómo se desarrolla el procesamiento de lenguaje natural, podemos deducir, por tanto, algunas de sus múltiples aplicaciones, entre las cuales se encuentran las siguientes:
Algunas aplicaciones más concretas del PLN son: análisis y síntesis de voz, traducción automática, revisión lingüística, recuperación de la información, respuesta a preguntas, extracción de la información, reconocimiento del habla, entre otras.
Como se ve, el PLN está presente en nuestra vida diaria mucho más de lo que nos creemos, es por ello que desde hace pocos años se haya vuelto tan crucial para distintos ámbitos en los que nos movemos, haciéndolo herramienta indispensable para las empresas a la hora de obtener información y utilizándola a su favor.