Google desarrolla el punto de referencia del conjunto de datos VRDU AI para escanear y comprender documentos
En la conferencia Knowledge Discovery in Databases (KDD) 2023 en Long Beach, CA, el equipo Athena de Google presentó su desarrollo del conjunto de datos Visually Rich Document Understanding (VRDU). Este conjunto de datos puede formular un sistema que puede extraer automáticamente datos enriquecidos de documentos como recibos, cotizaciones de seguros, estados financieros y más.
Si bien los modelos grandes como PaLM 2 tienen niveles impresionantes de precisión, su usabilidad en el mundo real depende de la capacidad del conjunto de datos para entrenarlo. VRDU tiene como objetivo cerrar la brecha entre estos modelos y las aplicaciones complejas del mundo real. Para hacer esto, el equipo de Athena ideó cinco requisitos de evaluación comparativa:
Esquema enriquecido: en la práctica, vemos una amplia variedad de esquemas enriquecidos para la extracción estructurada. Las entidades tienen diferentes tipos de datos (numéricos, cadenas, fechas, etc.) que pueden ser obligatorios, opcionales o repetidos en un solo documento o incluso anidados. Las tareas de extracción sobre esquemas planos simples como (encabezado, pregunta, respuesta) no reflejan los problemas típicos que se encuentran en la práctica.
Documentos ricos en diseño: los documentos deben tener elementos de diseño complejos. Los desafíos en los entornos prácticos provienen del hecho de que los documentos pueden contener tablas, pares clave-valor, cambiar entre el diseño de una columna y de dos columnas, tener diferentes tamaños de fuente para diferentes secciones, incluir imágenes con leyendas e incluso notas al pie. Compare esto con los conjuntos de datos donde la mayoría de los documentos están organizados en oraciones, párrafos y capítulos con encabezados de sección: los tipos de documentos que suelen ser el foco de la literatura clásica de procesamiento de lenguaje natural en entradas largas.
Plantillas diversas: un punto de referencia debe incluir diferentes diseños o plantillas estructurales. Es trivial para un modelo de alta capacidad extraer de una plantilla particular memorizando la estructura. Sin embargo, en la práctica, es necesario poder generalizar a nuevas plantillas/diseños, una capacidad que debe medir la división de prueba de entrenamiento en un punto de referencia.
OCR de alta calidad: los documentos deben tener resultados de reconocimiento óptico de caracteres (OCR) de alta calidad. Nuestro objetivo con este punto de referencia es centrarnos en la tarea VRDU en sí y excluir la variabilidad provocada por la elección del motor OCR.
Anotación a nivel de token: los documentos deben contener anotaciones de verdad que se puedan asignar al texto de entrada correspondiente, de modo que cada token se pueda anotar como parte de la entidad correspondiente. Esto contrasta con simplemente proporcionar el texto del valor que se extraerá para la entidad. Esto es clave para generar datos de entrenamiento limpios donde no tenemos que preocuparnos por coincidencias incidentales con el valor dado. Por ejemplo, en algunos recibos, el campo ‘total antes de impuestos’ puede tener el mismo valor que el campo ‘total’ si el monto del impuesto es cero. Tener anotaciones a nivel de token nos impide generar datos de entrenamiento donde ambas instancias del valor coincidente se marcan como verdad básica para el campo ‘total’, lo que produce ejemplos ruidosos.
VRDU es una combinación de formularios de registro y formularios de Ad-Buy: conjuntos de datos disponibles públicamente. Este conjunto de datos se puede utilizar para procesar documentos de aprendizaje de plantilla única, plantilla mixta y plantilla invisible. Puede identificar y categorizar tipos de información en documentos estructurados y no estructurados, y ayudar a los investigadores a realizar un seguimiento del progreso en las tareas de comprensión de documentos. El rendimiento del conjunto de datos en este tipo de documentos se puede leer en el artículo publicado aquí .
Fuente: investigación de Google
Deja una respuesta