Tokenización
Stemming
Modelos lógicos
Lematización
Normalización
Etiquetado gramatical
Eliminación de ruido
Modelo de bolsa de palabras
Reconocimiento de entidades nombradas
Modelos probabilísticos
Proceso por el cual se truncan las palabras, donde se elimina el afijo y permite la unión de varias palabras.
Técnica que procesa el texto fragmentado para que los algoritmos sean más comprendidos por la computadora.
Técnica que elimina partes del documento que no es relevante para así extraer datos que pueden ser valiosos en otros formatos.
Recolecta palabras donde se realiza un seguimiento de recuperación de información para producir resultados cercanos a lo esperado.
Se escriben reglas que permiten reconocer patrones que recoja las esencias que son aplicadas entre la comunicación de máquinas y personas.