Mozilla impulsa la accesibilidad con generación automática de texto alternativo en PDFs

Firefox 130 ha introducido una función innovadora para mejorar la accesibilidad: generación automática de texto alternativo para imágenes en documentos PDF. Esta mejora, que opera localmente en los dispositivos de los usuarios para proteger su privacidad, busca aumentar la cantidad de imágenes accesibles en PDFs y optimizar la experiencia para personas con discapacidades visuales.

La tecnología utiliza un modelo de lenguaje compacto que combina procesamiento de imágenes y generación de texto, y Mozilla ha adoptado un enfoque de desarrollo abierto para fomentar la colaboración de la comunidad en la mejora de este sistema.

Un modelo en evolución

El modelo de generación de texto alternativo de Mozilla se basa en una arquitectura encoder-decoder con 180 millones de parámetros, diseñada para trabajar de manera eficiente en navegadores. Los componentes principales son:

  • Encoder: Basado en un Vision Transformer (VIT), preentrenado con millones de imágenes en ImageNet 21k.
  • Decoder: Una versión distilada de GPT-2 que reduce el tamaño del modelo sin comprometer significativamente la precisión.

El modelo ha sido cuantizado para reducir su tamaño y acelerar el tiempo de inferencia, ocupando solo 180 MB en disco.

Sin embargo, Mozilla reconoce que la versión inicial tiene limitaciones, especialmente con imágenes complejas. Por ello, ha diseñado la función para que los usuarios puedan revisar, corregir y añadir detalles faltantes al texto generado antes de guardarlo.

Compromiso con la ética y la inclusión

Uno de los mayores desafíos en el entrenamiento del modelo ha sido garantizar descripciones inclusivas y culturalmente apropiadas. Para abordar esto, Mozilla ha utilizado datasets como COCO y Flickr30k, adaptándolos para eliminar sesgos de género, edad y lenguaje excluyente. Además, han creado un conjunto de datos complementario con imágenes de Pexels, anotadas utilizando GPT-4o, para equilibrar clases subrepresentadas como transporte.

Mozilla invita a la comunidad a contribuir identificando imágenes mal descritas, creando datasets más diversos o sugiriendo mejoras en el modelo. Los datos deben cumplir con licencias de dominio público o equivalentes para respetar los derechos de autor.

Transparencia y colaboración abierta

El modelo de Mozilla sigue los principios de código abierto. Todo el código, datasets y procesos están disponibles para que cualquier persona interesada pueda contribuir, incluso sin ser experta en inteligencia artificial. Las áreas principales de mejora incluyen:

  • Arquitectura del modelo: Probar combinaciones más eficaces de encoder y decoder o métodos de cuantización.
  • Datos de entrenamiento: Enriquecer los datasets con imágenes y descripciones diversas.
  • Código de entrenamiento: Ajustar hiperparámetros o resolver problemas técnicos.

Mozilla utiliza herramientas estándar como Seq2SeqTrainer para entrenar su modelo y anima a la comunidad a reportar problemas o sugerir ajustes que puedan mejorar el rendimiento.

Impacto en la accesibilidad digital

Con esta iniciativa, Mozilla no solo mejora la accesibilidad de los documentos PDF, sino que también establece un estándar para el desarrollo de modelos de IA locales, éticos y transparentes. El texto alternativo es esencial para que las personas con discapacidades visuales puedan interpretar imágenes en documentos y páginas web, y esta herramienta representa un paso significativo hacia una experiencia digital más inclusiva.

Mozilla continuará refinando esta tecnología en colaboración con su comunidad y aspira a establecer un precedente para el uso ético y abierto de modelos de IA en navegadores y aplicaciones.

Scroll al inicio