Cohere转录：语音识别

摘要： Cohere宣布推出开源自动语音识别（ASR）模型Transcribe，当前支持英语、法语、德语等14种语言，平均词错误率（WER）5.42%，位居Hugging Face Open ASR排行榜第一。模型采用Conformer架构，训练数据涵盖多样化场景，包括多说话人环境、会议室音效和不同口音。性能经人工评估验证，在准确性和可读性上优于Whisper Large v3、ElevenLabs Scribe v2等竞品。Transcribe兼具高吞吐量（RTF 1.0）与低延迟，支持本地GPU推理及云端API调用。未来将集成至Cohere北平台，扩展企业语音智能应用。用户可通过Hugging Face下载或API试用（限速），生产环境需通过Model Vault部署并按小时计费。

讨论： 用户讨论了ASR模型的局限性，如时间戳和说话人识别不足，并比较了多个模型的表现（如Whisper、Soniox、Cohere等）。主要观点包括：1. ASR可能因缺乏领域理解而无法突破OCR的瓶颈；2. 时间戳和说话人分离功能是关键需求；3. 非英语口音和复杂对话场景的模型性能参差不齐；4. 部分模型在自定义词汇、上下文处理等方面存在不足；5. 实际应用中需兼顾准确性和实时性，尤其是字幕生成等场景。

原文标题：Cohere Transcribe: Speech Recognition
原文链接：https://cohere.com/blog/transcribe
讨论链接：https://news.ycombinator.com/item?id=47589818