Leer documentos, buscar información, subrayar, … para luego introducir esta información en una aplicación o escribirla en otro documento, es un proceso que aunque no tenga mucha dificultad, sí consume mucho tiempo y que la mayoría de las empresas lo tienen que hacer.
Suponiendo el caso de facturas, identificar el NIF de la empresa, el importe de la factura, las líneas de la misma para luego introducirlos en algún programa de facturación, el ERP o una base de datos, no sería ningún problema si el volumen fuera acotado. Pero a medida que la empresa crece, también lo hace el número de documentos que necesita procesar y se convierte en un problema que hay que gestionar.
¿La solución? Una herramienta de extracción automática de información basada en Inteligencia Artificial.
En PFS Tech hemos desarrollado un servicio basado en Inteligencia Artificial cuyo propósito es identificar y extraer información específica de documentos de forma automática.
Mezclando diferentes métodos de análisis documental y aprovechando tecnologías como las Redes Neuronales, NLP (o Procesamiento de Lenguajes Naturales) y Computer Vision, hemos llegado a obtener una efectividad superior al 90% en diversos tipos de documentos como facturas, albaranes y partes médicos.
Viendo que en el mercado hacía falta una solución robusta y fiable para extraer de forma automática determinada información de documentos, nuestro equipo de innovación se puso manos a la obra. Es verdad que hay muchas soluciones que prometen extraer datos de diferentes tipos de documentos, pero su porcentaje de acierto no siempre es el aceptable y normalmente están enfocados a un solo tipo de documento.
¿Cómo funciona la solución?
Como es de buen saber, no basta con “soltar” PDFs, imágenes o fotos de documentos al ordenador y decirle que “aprenda” de ellos para que interprete datos de futuras ingestas, sino que hay que enseñarle pasito a pasito cómo debe tratar qué información pues no todos los tipos de datos siguen los mismos patrones.
Durante el proceso, primero se realiza una fase de preprocesado. Esta será mucho más sencilla en, por ejemplo, el PDF original de una factura, pero en la mayoría de casos, el objeto que recibimos es una foto a la hoja en cuestión, un escaneo mal hecho, puede contener arrugas, puede que la foto esté torcida …
Nuestro producto corrige estos problemas descritos durante ese proceso inicial para asegurar que el documento quede lo más legible posible y así disminuir la dificultad con la que se interpretarán los datos. Una vez terminado este proceso pasamos a la extracción de datos.
Ahí es donde entra en gran parte el conjunto de tecnologías anteriormente mencionadas. Este producto a la hora de buscar un valor (por ejemplo la fecha), no trabaja solo con formatos estándares de fechas sino que basa su búsqueda en el contexto del documento.
El producto realiza una lectura del documento (con o sin OCR, dependiendo del estado) tal como lo haría una persona, buscando la fecha, la expedición, el total, etc. Es importante recalcar que no se basa en ninguna plantilla predefinida con anterioridad sino que aplica patrones de búsqueda humanos para adaptarse a la mayoría de los formatos.
También cabe la posibilidad de que dentro de un documento encuentre elementos o datos duplicados y tenga que diferenciarlos, no pasa nada, el producto está preparado para adaptarse mediante otras técnicas.
Ahora viene lo más importante, hemos conseguido alcanzar más de un 90% de acierto en facturas extrayendo los datos comunes de la factura, sin configurar previamente su formato en la herramienta. Incluso para aquellas facturas con varias páginas y con una calidad no muy elevada.
¿Y ahora qué?
Una vez extraídos los datos, es hora de hacer uso de ellos. Podríamos enlazar, por ejemplo, este servicio con un proceso RPA (Robotic Process Automation) que introdujera de forma automática lo obtenido en el ERP o en un gestor documental.
De esta forma, podemos digitalizar los procesos de la empresa automatizando el reconocimiento de documentos, la identificación de determinada información y la extracción de la misma para alimentar un proceso posterior.