Cohere转录:语音识别

Mar 31, 2026     Author:gmays     HN Points:215     HN Comments:19
Share this

摘要: Cohere宣布推出开源自动语音识别(ASR)模型Transcribe,当前支持英语、法语、德语等14种语言,平均词错误率(WER)5.42%,位居Hugging Face Open ASR排行榜第一。模型采用Conformer架构,训练数据涵盖多样化场景,包括多说话人环境、会议室音效和不同口音。性能经人工评估验证,在准确性和可读性上优于Whisper Large v3、ElevenLabs Scribe v2等竞品。Transcribe兼具高吞吐量(RTF 1.0)与低延迟,支持本地GPU推理及云端API调用。未来将集成至Cohere北平台,扩展企业语音智能应用。用户可通过Hugging Face下载或API试用(限速),生产环境需通过Model Vault部署并按小时计费。

讨论: 用户讨论了ASR模型的局限性,如时间戳和说话人识别不足,并比较了多个模型的表现(如Whisper、Soniox、Cohere等)。主要观点包括:1. ASR可能因缺乏领域理解而无法突破OCR的瓶颈;2. 时间戳和说话人分离功能是关键需求;3. 非英语口音和复杂对话场景的模型性能参差不齐;4. 部分模型在自定义词汇、上下文处理等方面存在不足;5. 实际应用中需兼顾准确性和实时性,尤其是字幕生成等场景。

原文标题:Cohere Transcribe: Speech Recognition
原文链接:https://cohere.com/blog/transcribe
讨论链接:https://news.ycombinator.com/item?id=47589818