WAAS(Whisper as a Service)是一款強大的圖形介面(GUI)及API解決方案,專為OpenAI Whisper設計,提供無縫的音訊與影片轉錄功能,並支援任務佇列。輕鬆上傳檔案、透過AI進行轉錄,並透過電子郵件或Webhook接收結果。WAAS是開發者和內容創作者的理想選擇,支援多種輸出格式(SRT、VTT、JSON),並透過GPU加速提升處理速度。立即簡化您的轉錄工作流程!
分享:
發布日期:
2024-09-08
建立日期:
2025-04-25
最後修改:
2025-04-25
發布日期:
2024-09-08
建立日期:
2025-04-25
最後修改:
2025-04-25
WAAS 是一個開源服務,為 OpenAI Whisper 提供圖形介面(GUI)和 API 介面,具備音訊/影片轉錄功能與任務佇列機制。使用者可透過網頁介面或 API 呼叫來轉錄檔案,支援多種輸出格式包含 JSON、SRT 和純文字。
WAAS 非常適合開發者、內容創作者、記者以及需要自動轉錄服務的企業。對於媒體機構、播客製作人、影片剪輯師,以及任何需要高效語音轉文字功能並具備多檔案佇列處理能力的用戶尤其有用。
WAAS 適用於媒體製作流程、自動化轉錄管線與內容無障礙專案。無論在開發環境(使用 Docker)或正式部署環境皆能良好運作,特別適合需要處理大量音訊/影片檔案,且要求可靠佇列與通知系統的組織。
WAAS 是一個開源服務,為 OpenAI 的 Whisper 語音辨識技術提供圖形使用者介面(GUI)和 API 介面。它具備任務佇列功能,並支援透過電子郵件和網路鉤子(webhook)回傳轉錄結果。WAAS 透過易用的網頁介面或 API 整合,簡化了將音訊/視訊檔案轉換為文字的流程。
WAAS 作為 OpenAI Whisper 的封裝層,增加了佇列功能、使用者友善的 GUI 和 API 端點。它管理轉錄工作流程,同時利用 Whisper 強大的語音辨識能力。WAAS 支援所有 Whisper 模型(從 tiny 到 large),並保持與 Whisper 的語言偵測和翻譯功能的相容性。
WAAS 支援 OpenAI Whisper 能處理的任何音訊或視訊檔案格式,包括常見格式如 MP3、WAV 和 MP4。該服務透過 API 端點接受二進位資料上傳,使其能靈活適應各種輸入來源。具體格式要求與底層 Whisper 技術一致。
是的,WAAS 在正確配置下支援透過 NVIDIA CUDA 進行 GPU 加速。該專案包含專用的 Dockerfile.gpu 用於啟用 GPU 的部署。這能顯著提升轉錄速度,特別是對於較大的 Whisper 模型。docker-compose 設定包含為工作容器保留 GPU 資源的選項。
WAAS 提供多種輸出格式,包括 JSON(原始模型輸出)、SRT(SubRip)、VTT(WebVTT)、帶時間碼的純文字,以及簡單文字檔案。使用者可在發送 API 請求或透過 GUI 介面下載完成的轉錄時指定偏好格式。
WAAS 能在轉錄任務完成(無論成功或失敗)時發送網路鉤子通知。使用者在 allowed_webhooks.json 檔案中註冊網路鉤子 URL,WAAS 會發送包含任務狀態和下載網址的 POST 請求。每個通知都包含可驗證的 X-WAAS-Signature 標頭以確保安全性。
WAAS 需要 Python 3.8-3.10、用於佇列的 Redis,以及根據所使用的 Whisper 模型足夠的視訊記憶體(tiny 模型需 1GB)。它可在 Docker 容器中執行,並支援選配的 GPU 加速。該專案提供針對不同部署場景的 CPU 和 GPU 優化 Dockerfile。
WAAS 編輯器提供基於瀏覽器的介面來檢視和編輯轉錄內容。使用者可播放特定音訊片段(使用鍵盤控制)並對自動生成的文字進行修正。所有編輯都在瀏覽器本地完成,使用者可將校正後的轉錄存為 Jojo 檔案以供未來參考。
是的,WAAS 繼承了 Whisper 的語言偵測能力。它能自動識別音訊檔案中的語言,或使用者可在 API 請求中指定語言參數。該服務包含專用的 /v1/detect 端點,專門用於無需完整轉錄的語言識別。
WAAS 設計時考慮了擴展性,具備任務佇列和平行處理能力。雖然它能處理企業級工作負載,但組織應考慮資源分配(特別是 GPU 可用性),並可能需要在大量轉錄場景中實施額外的負載平衡。其開源特性允許進行客製化修改以滿足特定企業需求。
公司名稱:
Schibsted
Website:
No analytics data available for this product yet.
0
278
100.00%
- Google Cloud Speech-to-Text
- IBM Watson Speech to Text
- Amazon Transcribe