Mozilla impulsa la accesibilidad con generaciÃ³n automÃ¡tica de texto alternativo en PDFs

Por Notas Incubaweb

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Firefox 130 ha introducido una funciÃ³n innovadora para mejorar la accesibilidad: generaciÃ³n automÃ¡tica de texto alternativo para imÃ¡genes en documentos PDF. Esta mejora, que opera localmente en los dispositivos de los usuarios para proteger su privacidad, busca aumentar la cantidad de imÃ¡genes accesibles en PDFs y optimizar la experiencia para personas con discapacidades visuales.

La tecnologÃa utiliza un modelo de lenguaje compacto que combina procesamiento de imÃ¡genes y generaciÃ³n de texto, y Mozilla ha adoptado un enfoque de desarrollo abierto para fomentar la colaboraciÃ³n de la comunidad en la mejora de este sistema.

Un modelo en evoluciÃ³n

El modelo de generaciÃ³n de texto alternativo de Mozilla se basa en una arquitectura encoder-decoder con 180 millones de parÃ¡metros, diseÃ±ada para trabajar de manera eficiente en navegadores. Los componentes principales son:

Encoder: Basado en un Vision Transformer (VIT), preentrenado con millones de imÃ¡genes en ImageNet 21k.
Decoder: Una versiÃ³n distilada de GPT-2 que reduce el tamaÃ±o del modelo sin comprometer significativamente la precisiÃ³n.

El modelo ha sido cuantizado para reducir su tamaÃ±o y acelerar el tiempo de inferencia, ocupando solo 180 MB en disco.

Sin embargo, Mozilla reconoce que la versiÃ³n inicial tiene limitaciones, especialmente con imÃ¡genes complejas. Por ello, ha diseÃ±ado la funciÃ³n para que los usuarios puedan revisar, corregir y aÃ±adir detalles faltantes al texto generado antes de guardarlo.

Compromiso con la Ã©tica y la inclusiÃ³n

Uno de los mayores desafÃos en el entrenamiento del modelo ha sido garantizar descripciones inclusivas y culturalmente apropiadas. Para abordar esto, Mozilla ha utilizado datasets como COCO y Flickr30k, adaptÃ¡ndolos para eliminar sesgos de gÃ©nero, edad y lenguaje excluyente. AdemÃ¡s, han creado un conjunto de datos complementario con imÃ¡genes de Pexels, anotadas utilizando GPT-4o, para equilibrar clases subrepresentadas como transporte.

Mozilla invita a la comunidad a contribuir identificando imÃ¡genes mal descritas, creando datasets mÃ¡s diversos o sugiriendo mejoras en el modelo. Los datos deben cumplir con licencias de dominio pÃºblico o equivalentes para respetar los derechos de autor.

Transparencia y colaboraciÃ³n abierta

El modelo de Mozilla sigue los principios de cÃ³digo abierto. Todo el cÃ³digo, datasets y procesos estÃ¡n disponibles para que cualquier persona interesada pueda contribuir, incluso sin ser experta en inteligencia artificial. Las Ã¡reas principales de mejora incluyen:

Arquitectura del modelo: Probar combinaciones mÃ¡s eficaces de encoder y decoder o mÃ©todos de cuantizaciÃ³n.
Datos de entrenamiento: Enriquecer los datasets con imÃ¡genes y descripciones diversas.
CÃ³digo de entrenamiento: Ajustar hiperparÃ¡metros o resolver problemas tÃ©cnicos.

Mozilla utiliza herramientas estÃ¡ndar como Seq2SeqTrainer para entrenar su modelo y anima a la comunidad a reportar problemas o sugerir ajustes que puedan mejorar el rendimiento.

Impacto en la accesibilidad digital

Con esta iniciativa, Mozilla no solo mejora la accesibilidad de los documentos PDF, sino que tambiÃ©n establece un estÃ¡ndar para el desarrollo de modelos de IA locales, Ã©ticos y transparentes. El texto alternativo es esencial para que las personas con discapacidades visuales puedan interpretar imÃ¡genes en documentos y pÃ¡ginas web, y esta herramienta representa un paso significativo hacia una experiencia digital mÃ¡s inclusiva.

Mozilla continuarÃ¡ refinando esta tecnologÃa en colaboraciÃ³n con su comunidad y aspira a establecer un precedente para el uso Ã©tico y abierto de modelos de IA en navegadores y aplicaciones.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Notas Incubaweb

Content and Social Media Director de Color Vivo. Escribo sobre emprendedores, startups, comunicaciÃ³n, marketing, redes sociales, blogs, apps mÃ³viles, SEO, SEM y mÃ¡s â†’ Web

Mozilla impulsa la accesibilidad con generaciÃ³n automÃ¡tica de texto alternativo en PDFs

Un modelo en evoluciÃ³n

Compromiso con la Ã©tica y la inclusiÃ³n

Transparencia y colaboraciÃ³n abierta

Impacto en la accesibilidad digital

Notas Incubaweb

Últimos artículos

Impulsando el Desarrollo de IA Generativa con MLflow 3.0 Totalmente Gestionado en Amazon SageMaker

Impulsa el Desarrollo de Modelos Fundamentales con Observabilidad y un Clic en Amazon SageMaker HyperPod

Despliegue de Windows 11 Build 26100.4762 en el Canal de Vista Previa

Avances Recientes en Amazon SageMaker que Revolucionan el Desarrollo de IA Empresarial

Disponibilidad De Windows 11 Build 22631.5696 En El Canal De Vista Previa De Lanzamiento

Artículos relacionados

Impulsando el Desarrollo de IA Generativa con MLflow 3.0 Totalmente Gestionado en Amazon SageMaker

Windows 10 Build 19045.6156 Desembarca en el Canal de Vista Previa de Lanzamiento

Impulsa el Desarrollo de Modelos Fundamentales con Observabilidad y un Clic en Amazon SageMaker HyperPod

Despliegue de Windows 11 Build 26100.4762 en el Canal de Vista Previa

Avances Recientes en Amazon SageMaker que Revolucionan el Desarrollo de IA Empresarial

Disponibilidad De Windows 11 Build 22631.5696 En El Canal De Vista Previa De Lanzamiento

Desarrollo de Aplicaciones MCP con Modelos Mistral en AWS

Optimizando la Experiencia de Compra de Viviendas con Agentes de Amazon Bedrock en Rocket

DECORACIÓN

TECNOLOGÍA

LIFESTYLE

MIX

MEDIOS LOCALES