Compartir:
Publicado:
2024-09-08
Creado:
2025-04-25
Última modificación:
2025-04-25
Publicado:
2024-09-08
Creado:
2025-04-25
Última modificación:
2025-04-25
WAAS es un servicio de código abierto que proporciona una interfaz gráfica (GUI) y una API para la tecnología de reconocimiento de voz Whisper de OpenAI. Ofrece capacidades de cola y admite notificaciones por correo electrónico y webhook para los resultados de transcripción. WAAS simplifica el proceso de convertir archivos de audio/video a texto mediante una interfaz web fácil de usar o integración por API.
WAAS actúa como un envoltorio de OpenAI Whisper, añadiendo funcionalidad de cola, una GUI intuitiva y puntos de conexión API. Gestiona el flujo de trabajo de transcripción aprovechando las potentes capacidades de reconocimiento de voz de Whisper. WAAS soporta todos los modelos de Whisper (desde tiny hasta large) y mantiene compatibilidad con las funciones de detección de idioma y traducción de Whisper.
WAAS admite cualquier formato de audio o video que OpenAI Whisper pueda procesar, incluyendo formatos comunes como MP3, WAV y MP4. El servicio acepta subidas de datos binarios a través de su punto de conexión API, lo que lo hace flexible para diversas fuentes de entrada. Los requisitos de formato específicos coinciden con los de la tecnología Whisper subyacente.
Sí, WAAS admite aceleración por GPU mediante NVIDIA CUDA cuando está configurado correctamente. El proyecto incluye un Dockerfile.gpu dedicado para implementaciones con GPU. Esto mejora significativamente la velocidad de transcripción, especialmente para los modelos más grandes de Whisper. La configuración de docker-compose incluye opciones para reservar recursos de GPU para el contenedor worker.
WAAS ofrece múltiples formatos de salida, incluyendo JSON (salida cruda del modelo), SRT (SubRip), VTT (WebVTT), texto plano con códigos de tiempo y archivos de texto simples. Los usuarios pueden especificar su formato preferido al realizar solicitudes API o descargar transcripciones completadas a través de la interfaz gráfica.
WAAS puede enviar notificaciones por webhook cuando los trabajos de transcripción se completan (con éxito o sin él). Los usuarios registran URLs de webhook en un archivo allowed_webhooks.json, y WAAS envía solicitudes POST con el estado del trabajo y URLs de descarga. Cada notificación incluye una cabecera X-WAAS-Signature verificable por seguridad.
WAAS requiere Python 3.8-3.10, Redis para la cola, y suficiente VRAM según el modelo de Whisper utilizado (1GB para el modelo tiny). Puede ejecutarse en contenedores Docker con soporte opcional para GPU. El proyecto proporciona Dockerfiles optimizados para CPU y GPU para diferentes escenarios de implementación.
El editor de WAAS proporciona una interfaz basada en navegador para revisar y editar transcripciones. Los usuarios pueden reproducir segmentos de audio específicos (usando controles de teclado) y hacer correcciones al texto generado automáticamente. Toda la edición ocurre localmente en el navegador, y los usuarios pueden guardar sus transcripciones corregidas como archivos Jojo para referencia futura.
Sí, WAAS hereda las capacidades de detección de idioma de Whisper. Puede identificar automáticamente el idioma en archivos de audio o los usuarios pueden especificar un parámetro de idioma en las solicitudes API. El servicio incluye un punto de conexión /v1/detect específicamente para identificación de idioma sin transcripción completa.
WAAS está diseñado pensando en escalabilidad, con capacidades de cola de trabajos y procesamiento en paralelo. Si bien puede manejar cargas de trabajo empresariales, las organizaciones deben considerar la asignación de recursos (especialmente disponibilidad de GPU) y potencialmente implementar balanceo de carga adicional para escenarios de alto volumen. Su naturaleza de código abierto permite modificaciones personalizadas para cumplir con requisitos empresariales específicos.
Nombre de la Empresa:
Schibsted
Website:
No analytics data available for this product yet.
0
0
278
100.00%
--
- Google Cloud Speech-to-Text
- IBM Watson Speech to Text
- Amazon Transcribe
Plataforma para descubrir, buscar y comparar las mejores herramientas de IA
© 2025 AISeekify.ai. Todos los derechos reservados.