Microsoft ha anunciado la activación de una nueva funcionalidad multimodal para su modelo de lenguaje Phi Silica, diseñado para potenciar la accesibilidad y la productividad en dispositivos Copilot+ con procesadores Snapdragon, y en futuros modelos de Intel y AMD. Esta innovación incorpora capacidades de comprensión visual, permitiendo al modelo no solo procesar texto, sino también interpretar imágenes, generando descripciones útiles para tecnologías de asistencia como los lectores de pantalla.
La actualización de Phi Silica se distingue por su enfoque eficiente, el cual evita la implementación de un modelo de visión dedicado. En lugar de ello, utiliza componentes ya existentes y añade solamente un modelo proyector de 80 millones de parámetros. Esto garantiza que el sistema opere de manera efectiva sin comprometer el rendimiento de otros modelos ya establecidos.
La funcionalidad multimodal facilita la generación de descripciones de imágenes en diferentes niveles de detalle, un recurso especialmente valioso para personas con discapacidades visuales. A diferencia de depender únicamente de modelos en la nube, esta innovación aprovecha las capacidades locales, proporcionando descripciones más rápidas y accesibles. En pruebas realizadas, un modelo optimizado de Phi Silica puede ofrecer descripciones cortas en aproximadamente cuatro segundos y descripciones más detalladas en cerca de siete segundos.
Microsoft ha llevado a cabo evaluaciones para medir la calidad de las descripciones generadas, comparando este innovador enfoque con otros modelos de referencia como Florence. Los resultados han demostrado que las descripciones generadas por Phi Silica son más precisas y completas, aumentando su beneficio para los usuarios que dependen de estas herramientas.
Conforme se despliega esta funcionalidad, se anticipa la inclusión de más idiomas para ampliar aún más su accesibilidad. Con esta evolución, Microsoft reafirma su compromiso de hacer la tecnología más inclusiva y accesible, beneficiando especialmente a aquellos que enfrentan barreras en el uso de tecnologías digitales.