Introducción al procesamiento natural del lenguaje
Inteligencia artificial
La inteligencia artificial (IA) es la
habilidad de una máquina de presentar las mismas capacidades que los
seres humanos, como el razonamiento, el aprendizaje, la creatividad y la
capacidad de planear. Aunque los procesos de desarrollo de estas capacidades en una máquina difieran en los procesos ocupados por seres humanos.
De manera general, la IA permite que los sistemas tecnológicos
perciban su entorno, se relacionen con él, resuelvan problemas y actúen
con un fin específico. La máquina recibe datos (ya preparados o
recopilados a través de sus propios sensores, por ejemplo, una cámara),
los procesa y responde a ellos, ya sea de manera supervisada por el especialista que los diseña o de forma no supervisada (sin ayuda del especialista)
Los sistemas de IA son capaces de
adaptar su comportamiento en cierta medida, analizar los efectos de
acciones previas y de trabajar de manera autónoma. A continuación se muestran algunas de las aplicaciones prácticas al día de hoy.
future. An intelligence which at a certain moment would know all forces that set nature in
motion, and all positions of all items of which nature is composed, if this intelligence were
also vast enough to submit these data to analysis, it would embrace in a single formula the
movements of the greatest bodies of the universe and those of the tiniest atom;
for such an intelligence nothing would be uncertain and,
the future just like the past would be present before its eyes.
- Pierre-Simon Laplace, 1814
'Laplace's Demon' (Essai philosophique sur les probabilites)
Conceptos clave del NLP
- Técnicas comunes en el NLP
- Tokenization: Consiste en separar el texto en palabras o frases individuales (tokens), que puedan ser leídos de forma entendible por la máquina.
- Lemmatization: Reduce las palabras a su forma base mediante la ayuda de elementos del diccionario (am, are, is → be)
- Stemming: Reduce las palabras a una forma base sin considerar su contexto (studies → studi, studying → study)
- Markov chains: Proceso estocástico y sin memoria que predice eventos futuros basados solo en el estado actual
- n-grams: Predice el siguiente termino en una secuencia de n-términos basados en Markov chains.
- Bolsa de palabras (BOW - Bag of words): Representación del texto utilizando frecuencias de palabras sin considerar contexto u orden.
- tf → itf: (term frequency–inverse document frequency) Mide la importancia de la palabra en un corpus de texto.
- Word embeddings: Mapeo de las palabras o frases a valores numéricos (vectores, arreglos)
- GloVe: Técnica que combina ocurrencia de palabras tanto local como globalmente para hallar un patrón de similitud y obtener representaciones vectoriales de palabras. Del acrónimo Global Vectors for Word Representation.
- BERT: Acrònimo para Bidirectional Encoder Representations from Transformers, es una técnica basada en redes neuronales para el pre-entrenamiento del procesamiento del lenguaje natural desarrollada por Google.
- Topic modeling. Captura los temas subyacentes que aparecen en los documentos o corpus.
- LDA (Latent Dirichlet Allocation). Genera k-temas asignando cada palabra a un tema aleatorio e iterando.
- LSA (Latent Semantic Analysis). Identifica los patrones mediante la métrica de tf → itf y reduce los datos de k-dimensiones mediante SVD (Single value decomposition)

Disciplinas de la IA

Diagrama de flujo de trabajo para sistemas basados en NLP
- Colección de texto en corpus. Datos escritos crudos.
- Limpieza de datos: Remover partes innecesarias, símbolos, otros alfabetos, números, dobles espacios, palabras repetidas, contracciones, conversión a minúsculas, puntuación innecesaria, etc
- Tokenization. Consiste en separar el texto en partes mas pequeñas como frases o conjuntos de palabras.
- Conversión del texto al formado conocido como: Document-Term matrix, el cual se emplea alimentar los sistemas computacionales mediante un lenguaje numérico.
- Análisis de sentimientos
- Modelado de temas
- Etiquetado de las partes de un texto (Tagging)
- Resumido de textos
- Comprensión lectora de máquina
- Preguntas y respuestas
- Conversacional
- etc...
![]() |
| Algunas tareas del NLP |

Comentarios
Publicar un comentario