2026-05-20·4 分钟

为什么中文语音输入这么难，我们怎么解决

中英混说、专有名词、标点与语气——中文语音输入的难点和 Cloud Sound 的应对思路。

把话说出来，让文字自己落进输入框——听起来简单，但中文语音输入一直没做好。原因不在录音，而在中文本身的几个特性。

难点一:中英混说

真实的中文表达里夹着大量英文:"把 PR review 完再 merge"、"这个 API 返回 500"。多数听写引擎要么把英文转成拼音，要么整段降准。Cloud Sound 用云端大模型识别，把中英混说当作常态而非异常处理。

同事的名字、产品代号、行业缩写——这些词在通用语料里罕见，识别准确率天然低。我们的解法是个人词典:你把高频专有名词写进词典，识别时优先匹配，再也不会听错。

口语没有标点，但写下来需要。说完一段话，Cloud Sound 会按你选的整理模式(自然/邮件/短句)补全标点、去掉口水词、调整语气，直接落成可用的稿子。

本地小模型跑不动这种规模的识别和整理。Cloud Sound 选择完全云端架构:识别和 AI 整理都走服务端，换来的是世界级准确率和随时迭代的能力。代价是需要联网——离线时我们会明确提示，而不是给你一段错的转写。