7. Sobre las habilidades de adquisición de información

Sistema de búsqueda y adquisición de información

Los sistemas de adquisición de información emplean métodos optimizados de búsqueda rápida. Para el caso particular de este proyecto, el sistema de búsqueda y adquisición de información empleado contempla dos elementos clave como lo son: El motor de búsqueda basado en BM25, seguido de una etapa de procesamiento de texto conocida como Sistema Q&A de comprensión automática de lectura. A continuación se muestra el diagrama a bloques del sistema completo a implementar.

Motor de búsqueda BM25

BM25 se refiere a Best Match 25, que significa 25 mejores resultados de una búsqueda. Es un método propuesto en 1994 que emplea las técicas: IDF (Inverse Document Frequency), tf (term-frequency) y document weight. Los dos refinamientos clave de este algoritmo son:

Saturación término-frecuencia: Apuntar a los documentos que contengan el término que se pretende encontrar mientras se ordenan los menos frecuentes que dan sentido a búsquedas menos útiles.
Longitud del documento: Toma en cuenta la relevancia en términos de longitud. Si un documento corto contiene el mismo número de términos que un documento mas largo, el documento corto tiende a ser más relevante.

Ambos refinamientos dan lugar a introducir dos hiper-parámetros que ajustan la fórmula de BM25:

k: para ajustar el impacto del termino de saturación
b: para ajustar el término de la longitud de documento.

Lectura automática y comprensión de Máquina.

Aplicaciones de la lectura automática:

Predicción de la palabra siguiente en una oración (Next sentence prediction)
Modelado de lenguaje (Language modeling)
Formulación de preguntas y respuestas (Question and answering)
Resumido de textos (Text summarization)
Corrección gramatical de errores (Grammatical error correction)

El objetivo es hacer máquinas que puedan "leer" (procesar) un pasaje de texto y responder cualquier pregunta de dicho texto. [fuente: Kunal Bhashkar]

Son técnicas basadas en modelos de aprendizaje profundo capaces de procesar lenguaje en texto a través de mecanismos de atención.

Básicamente, un modelo de MRC (Machine Reading Comprehension) se compone de tres etapas importantes:

Encoding. (Codificación). Es la representación simbolica de la pregunta y el pasaje de texto en un conjunto de vectores en un espacio neuronal. Es decir, la traducción del lenguaje a un lenguaje de máquina compuesto de números tal que visualmente este representado en un punto en el espacio neuronal.
Reasoning (Razonamiento). En dicho espacio neuronal, tratar de identificar las palabras y sus relaciones. Palabras con un sentido similar se encuentran ubicadas mas cerca.
Decoding (Decodificación) La decodificación del lenguaje de máquina a un lenguaje natural interpretado por los humanos.

El proceso de codificación puede verse de manera general mediante tres etapas:

Lexican embedding layer (capa incrustada de léxico): Extrae la información de preguntas y texto a nivel de palabra y normaliza para variantes de léxico. Típicamente mapea cada palabra a un espacio de palabras utilizando modelos de palabra embebidos (word2vec, GloVe)
Contextual embedding layer (capa incrustada de contexto): Utiliza características contextuales que se ubican alrededor de las palabras clave para refinar el embebido de las palabras. Como resultado, la misma palabra puede ser mapeada en diferente espacio dependiendo del contexto.
Attention layer (capa de atención): Produce un conjunto de características relacionales de los vectores de pregunta y vectores de texto para generar un tipo de memoria de trabajo.

En el caso del proceso de razonamiento, los modelos pueden agruparse en dos categorías basados en el tipo de razonamiento que procesan:

Razonamiento sencillo: Trata de relacionar la pregunta y el documento solo una vez para producir las respuestas más probables.
Razonamiento múltiple: Son modelos dinámicos los cuales utilizan aprendizaje por refuerzo como las técnicas de policy learning o policy gradient

Modelos Question-Answering

Los llamados modelos Question-Answering (Q&A) son modelos basados en aprendizaje profundo que son capaces de responder preguntas dado un contexto o incluso sin contexto alguno en ciertas ocasiones. Dentro de sus funciones estos modelos pueden:

Pueden extraer respuestas a partir de los párrafos procesados.
El correcto funcionamiento depende de la base de datos con el que son entrenado
Estos modelos pueden clasificarse de acuerdo a las tareas de dominio especifico que pueden resolver:

Community QA
Knowledge-based QA

Las bases de datos comunes para entrenar estos modelos son:

SQuAD - (Stanford Question Answering Dataset) consiste en 100,000+ pares de preguntas y respuestas de un extracto de artículos de Wikipedia.
NewsQA - 120Kb de noticias de CNN.
Figure QA - QA basada en gráficas.
FiQA - Opinión sobre finanzas de Reddit.
HotPotQA
bAbl
TriviaQA
WikiQA

Desarrollo de un asistente de aprendizaje