Creación de una Solución de Resumen de Audio sin Servidores con Amazon Bedrock y Whisper

Elena Digital López

En el ámbito empresarial, las grabaciones de reuniones, entrevistas e interacciones con clientes han cobrado una importancia crucial para conservar información relevante. Sin embargo, la transcripción y el resumen manual de estas grabaciones a menudo resulta ser un proceso tedioso y prolongado. Gracias a los recientes avances en inteligencia artificial generativa y el reconocimiento automático de voz, han surgido soluciones automatizadas que hacen este proceso más rápido y eficiente.

La protección de información personal identificable es esencial para la seguridad de datos, impulsada tanto por responsabilidades éticas como por requisitos legales. Actualmente, se emplea el modelo de fundación Open AI Whisper Large V3 Turbo, disponible en el Amazon Bedrock Marketplace. Esta plataforma proporciona acceso a más de 140 modelos a través de una API dedicada, lo que permite producir transcripciones casi en tiempo real. Posteriormente, estas transcripciones son procesadas por Amazon Bedrock para resumirlas y eliminar información sensible.

Amazon Bedrock es un servicio completamente gestionado que ofrece acceso a modelos de alto rendimiento de compañías líderes en inteligencia artificial como AI21 Labs, Anthropic, y Cohere, entre otras. Este servicio permite a las organizaciones construir aplicaciones de inteligencia artificial generativa con un fuerte enfoque en la seguridad y la privacidad. Además, Amazon Bedrock Guardrails permite la supresión automática de información sensible, incluidos datos personales, apoyando así las necesidades de cumplimiento y protección de datos.

El proceso comienza con la carga de un archivo a través de una aplicación frontend basada en React, alojada en Amazon CloudFront y respaldada por Amazon S3 y Amazon API Gateway. La carga del archivo activa una máquina de estados de Step Functions que estructura los pasos de procesamiento, utilizando modelos de inteligencia artificial y funciones Lambda para facilitar un flujo de datos sin interrupciones. Esta metodología destaca el potencial de integrar tecnologías sin servidor con inteligencia artificial generativa para automatizar y escalar flujos de trabajo de procesamiento de contenido.

El flujo de trabajo se organiza en varias etapas, que incluyen la transcripción de audio, la identificación de hablantes y la generación de resúmenes. Un sistema automatizado supervisa que cada fase se complete antes de avanzar a la siguiente, incorporando lógica de manejo de errores y reintentos. Al final del proceso, se presenta al usuario un resumen redactado de la grabación, preservando la privacidad y cumpliendo con las normativas vigentes.

Esta solución no solo incrementa la eficiencia en la gestión de información, sino que también fomenta buenas prácticas de seguridad, protegiendo datos sensibles de manera eficaz. Sectores como la salud, finanzas y servicios legales, donde la privacidad es primordial, se beneficiarán enormemente de la implementación de esta tecnología innovadora.

Scroll al inicio