
这项由小红书超级智能团队完成的研究成果发表于2026年3月,论文编号为arXiv:2603.10420v1。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。
日常生活中,我们经常遇到这样的情况:想要把语音转换成文字,或者需要从一段录音中找出有人说话的部分。传统的语音识别工具往往像是拼凑起来的"杂牌军",各个部件来自不同厂商,配合起来磕磕绊绊。小红书的研究团队决定解决这个问题,他们开发出了一套名为FireRedASR2S的完整语音识别系统,就像是为语音处理量身定制的"瑞士军刀"。
这套系统最大的特色在于它的"全能性"。传统的语音识别系统通常只能完成单一任务,比如仅仅是把语音转换成文字。而FireRedASR2S则像是一个经验丰富的速记员,不仅能听懂各种口音的中文和英语,还能自动识别说话语言、过滤掉背景噪音、甚至为转换出的文字添加标点符号。整个系统包含四个主要模块:语音识别模块FireRedASR2、语音活动检测模块FireRedVAD、语言识别模块FireRedLID,以及标点符号预测模块FireRedPunc。
系统的工作流程就像一条精心设计的生产线。首先,FireRedVAD会像一个敏锐的门卫,从原始音频中识别出哪些部分是人在说话,哪些是音乐或噪音。接着,FireRedLID会像一个语言专家,判断说话者使用的是什么语言或方言。然后,FireRedASR2这个核心模块会将语音转换成文字,同时提供时间戳和置信度评分。最后,FireRedPunc会像一个细心的编辑,为文字添加合适的标点符号,让输出结果更易阅读。
研究团队在设计这套系统时特别注重实用性。他们深知现实世界的音频环境复杂多变,可能包含歌声、背景音乐、多种语言混杂,甚至是各种中文方言。因此,他们使用了约20万小时的训练数据,覆盖了普通话、各种中文方言、英语以及中英混合等多种情况。这相当于一个人连续不断地听音频23年的数据量。
一、语音识别的"双胞胎兄弟":两种不同风格的核心模块
FireRedASR2是整个系统的心脏部分,研究团队巧妙地设计了两个版本,就像是为不同需求定制的"双胞胎兄弟"。
第一个版本叫做FireRedASR2-LLM,这是一个"重量级选手",拥有超过80亿个参数。它的工作原理就像是将一个专门处理语音的"耳朵"连接到一个强大的语言模型"大脑"。这个"耳朵"负责理解声音信号,而"大脑"则负责将这些信号转换成有意义的文字。这种设计让它在准确性方面表现卓越,特别是在处理复杂语音情况时。
第二个版本叫做FireRedASR2-AED,是一个更轻便的"轻量级选手",只有10亿多个参数。它采用的是更传统但经过优化的编码器-解码器架构,就像是一个经验丰富的翻译员,能够将语音"编码"成中间表示,然后"解码"成最终文字。这个版本的特殊之处在于它能提供精确的时间戳,告诉你每个词是在什么时候说出的。
两个版本在训练数据上完全一致,但各有所长。LLM版本就像是一个学识渊博的教授,在理解复杂语境和准确识别方面更胜一筹。而AED版本则像是一个效率极高的助手,不仅工作迅速,还能提供详细的时间信息。
研究团队在AED版本中加入了一个巧妙的时间戳功能。他们在模型训练完成后,额外添加了一个"时间追踪器"。这个追踪器使用CTC技术,就像是在语音识别过程中安装了一个精密的计时器,能够准确标记每个词语的开始和结束时间。这种设计既保持了原有的识别准确性,又增加了时间定位功能。
置信度评估是另一个实用特性。当系统转换语音时,它会同时给出一个"信心分数",就像是告诉你"我对这次转换有多大把握"。这个分数是通过分析解码过程中每个词语的概率得出的,类似于一个经验丰富的听写员在不确定某个词时会标注"可能是这个词"。
二、语音活动检测:从噪音中捕捉真正的说话声
FireRedVAD模块就像是一个极其敏锐的听觉过滤器,它的任务是从复杂的音频环境中识别出真正有价值的语音部分。这个模块的设计哲学就像是训练一只导盲犬,需要它能在嘈杂的街道上准确识别出主人的指令声。
这个模块最引人注目的特点是它的"人工标注训练法"。大多数类似系统都是通过自动对齐的方式来训练,就像是让机器自己猜测哪里是说话声。但研究团队选择了更昂贵但更可靠的方法:雇用专业人员手动标注了数千小时的音频数据,精确标记出语音、歌声和音乐的边界。这就像是请专业的音乐制作人来区分不同的声音类型,而不是让机器自己摸索。
FireRedVAD实际上包含三个不同的检测器,就像是一个多功能的声音分析仪。第一个是非实时语音检测器,适合处理已经录制好的音频文件,它可以"回头看"整段录音来做出最准确的判断。第二个是实时语音检测器,专门用于直播或视频通话等需要即时处理的场景,它只能根据当前和之前的音频信息做判断,但反应迅速。第三个是多标签检测器,不仅能识别是否有人说话,还能同时判断音频中是否包含歌声或背景音乐。
系统使用的是深度前馈序列记忆网络,这个名字听起来复杂,但本质上就像是一个有着优秀记忆力的声音识别专家。它能记住之前听到的声音模式,并利用这些记忆来判断当前的声音类型。整个网络只有60万个参数,相当于一个小巧但高效的专用工具,文件大小仅约2.2MB,几乎不占用存储空间。
在实际工作中,这个模块会先将音频切分成小段进行分析,然后应用平滑滤波来避免频繁的判断切换。接着使用概率阈值来决定哪些部分包含语音,最后通过状态机来确保检测结果符合常识,比如避免出现过短的说话片段或静音间隙。
三、语言识别:一个精通百种语言的智能翻译官
FireRedLID模块就像是联合国的同声传译员,能够迅速准确地识别出说话者使用的是哪种语言。但与传统的语言识别系统不同,这个模块采用了"分层识别"的智能策略,特别是对中文方言的处理极其精细。
这个模块支持超过100种语言,从常见的英语、西班牙语、法语,到相对小众的威尔士语、马恩岛语等都能准确识别。更令人印象深刻的是,它对中文方言的支持达到了前所未有的细致程度,能够区分普通话、粤语、吴语(上海话)、闽语、湘语等20多种中文方言。
系统的识别策略采用了"两步走"的聪明方法。第一步先判断大的语言类别,比如确定是中文、英文还是其他语言。如果识别出是中文,系统会进入第二步,进一步判断具体是哪种中文方言。这种分层方法就像是先确定一本书的大致类型,再精确定位到具体的子类别,大大提高了识别的准确性和稳定性。
技术实现上,FireRedLID使用了编码器-解码器架构,其中编码器部分直接继承了语音识别模块已经训练好的参数。这种设计就像是让一个已经精通语音理解的专家来学习语言识别,大大缩短了学习时间并提高了效果。解码器部分则专门负责生成语言标签,整个过程最多只需要输出两个标记,非常高效。
在处理混合语言场景时,系统会优先识别主要语言,然后根据情况判断是否存在方言特征。对于中英混合的情况,系统会根据语音片段的主要成分来分配语言标签。这种处理方式特别适合现代都市生活中常见的多语言混用情况。
四、标点符号预测:为文字添加"呼吸节奏"的智能编辑
FireRedPunc模块就像是一个极其细心的文字编辑,专门负责为语音转换出的"裸文字"添加合适的标点符号。如果说前面几个模块是负责"听懂"和"写下",那么这个模块就是负责让文字"呼吸起来",变得更易读、更自然。
这个模块的工作原理建立在对语言节奏和语义结构的深度理解之上。它使用了一个名为LERT的预训练语言模型作为基础,这个模型就像是一个读过无数文章的资深编辑,对中文和英文的语言规律都有深入理解。在此基础上,研究团队专门针对标点符号预测任务进行了优化训练。
训练数据的规模令人印象深刻:包含约185.7亿个中文字符和22亿个英文单词,覆盖了新闻、文学、科技、日常对话等各种文本类型。这相当于让这个"编辑"阅读了人类历史上大量的优秀文本,学会了什么时候该用逗号暂停、什么时候该用句号结束、什么时候该用问号表达疑问。
系统支持的标点符号被精心设计为五种最常用的类型:无标点、逗号、句号、问号和感叹号。这种简化设计的好处在于既覆盖了日常使用的主要需求,又保持了系统的稳定性和准确性。对于中文文本,系统使用全角标点符号,体现了对中文排版习惯的尊重。
在实际工作中,这个模块会分析每个词语的上下文语境,判断该词语后面应该添加什么标点符号。它考虑的因素包括语义完整性、语法结构、以及语音韵律等多个维度。比如,当检测到一个完整的陈述句结束时,会添加句号;当识别出疑问句的语言模式时,会添加问号。
五、性能表现:在各项测试中的出色成绩
研究团队对FireRedASR2S系统进行了全面而严格的测试,就像是给一个全能运动员安排了各种项目的比赛。测试结果显示,这套系统在各个方面都表现出色,特别是在处理中文方言和复杂语音环境方面达到了业界领先水平。
在语音识别方面,系统在24个公开测试集上的表现令人印象深刻。FireRedASR2-LLM在普通话识别上达到了2.89%的平均字错率,这意味着平均每100个字只会错误识别不到3个,准确率超过97%。更令人惊喜的是,在19个中文方言测试集上,系统达到了11.55%的平均错误率,这在方言识别领域是一个突破性的成绩。
与其他知名系统的对比更能体现FireRedASR2S的优势。在与豆包ASR、通义千问ASR、以及阿里云FunASR等主流系统的比较中,FireRedASR2在几乎所有测试项目中都取得了最佳成绩。特别是在歌词识别这个特殊场景中,系统错误率仅为1.12%,远低于其他系统的2.57%到4.36%。
语音活动检测模块的表现同样优异。在包含102种语言的FLEURS-VAD-102基准测试中,FireRedVAD达到了99.60%的AUC-ROC得分和97.57%的F1得分,显著超过了Silero-VAD、TEN-VAD等知名开源系统。更重要的是,它实现了误报率和漏报率的良好平衡,误报率仅为2.69%,漏报率为3.62%,这种平衡对实际应用非常重要。
语言识别模块在多语言测试中表现卓越。在FLEURS测试集(包含82种语言)上达到了97.18%的准确率,大幅超过了Whisper的79.41%和SpeechBrain的92.91%。在CommonVoice测试集上,准确率为92.07%,同样领先于其他系统。对于中文方言识别这个特殊挑战,系统达到了88.47%的准确率,显著优于其他专门的方言识别系统。
标点符号预测模块的测试结果同样令人满意。在多领域的中文测试中达到了82.96%的F1得分,在英文测试中达到了74.83%的F1得分,平均得分为78.90%,远超FunASR-Punc的62.77%。这种性能提升对于提高文字输出的可读性具有重要意义。
六、技术创新与设计理念:模块化设计的智慧选择
FireRedASR2S系统的设计哲学体现了现代软件工程的最佳实践:模块化设计。整个系统就像是一套精心设计的厨房用具,每个工具都有专门的用途,但又能完美配合形成一个高效的烹饪流程。
模块化设计的最大优势在于灵活性和可维护性。用户可以根据具体需求选择使用整套系统,也可以单独使用某个模块。比如,如果只需要语音活动检测功能,可以单独部署FireRedVAD模块;如果只需要添加标点符号,可以单独使用FireRedPunc模块。这种设计就像是提供了一套可以自由组合的积木,用户可以根据需要搭建不同的结构。
系统在数据质量方面的投入体现了研究团队的远见卓识。与许多依赖自动生成标签的系统不同,FireRedASR2S大量使用了人工标注的高质量数据。特别是语音活动检测模块,完全采用人工标注的音频事件数据进行训练。这种做法虽然成本更高,但显著提升了系统在复杂声学环境下的鲁棒性。
在处理中文方言方面,系统展现了对中国语言文化的深度理解。研究团队没有简单地将方言作为独立语言处理,而是设计了分层的识别策略,先识别大类(中文),再细分方言类型。这种设计既符合语言学的科学分类,又提高了识别的准确性。
系统的实时性能也经过了精心优化。流式语音活动检测支持低延迟的在线处理,适合视频会议、直播等实时场景。同时,非流式版本则追求最高的准确性,适合离线处理已录制的音频文件。
开源策略体现了学术界的开放精神。研究团队将完整的模型权重和代码公开发布,这不仅有利于科研社区的发展,也为工业界提供了可靠的技术基础。这种做法打破了许多商业系统的"黑盒"限制,允许用户根据具体需求进行定制和优化。
说到底,FireRedASR2S代表了语音识别技术发展的一个重要里程碑。它不仅在技术性能上达到了新的高度,更重要的是提供了一套完整、可靠、开放的解决方案。对于普通用户来说,这意味着未来我们将拥有更准确、更智能的语音转文字工具。对于开发者来说,这套系统提供了坚实的技术基础,可以在此基础上开发各种创新应用。
这项研究的意义不仅限于技术层面。在全球化的今天,语言交流变得越来越重要,而中文作为世界上使用人数最多的语言,其方言多样性一直是技术挑战。FireRedASR2S在中文方言识别方面的突破,为保护和传承中华语言文化提供了技术支撑。同时,系统对多语言的支持也为跨文化交流提供了便利。
从技术发展趋势来看,这套系统展现了人工智能技术从"单点突破"向"系统性解决方案"演进的趋势。未来的AI系统将更加注重模块间的协同合作,而不是单个算法的孤立优化。FireRedASR2S在这方面树立了一个很好的榜样,其模块化设计理念值得其他AI系统借鉴。
当然,任何技术都不是完美的。研究团队也坦诚地指出了一些局限性,比如在极端噪音环境下的表现仍有提升空间,对某些小众语言的支持还不够充分等。但这些问题为未来的研究指明了方向,相信随着技术的不断发展,这些问题会逐步得到解决。
Q&A
Q1:FireRedASR2S相比普通语音识别软件有什么优势?
A:FireRedASR2S是一套完整的语音处理系统,不只是简单的语音转文字。它能自动过滤噪音、识别语言类型、添加标点符号,还特别擅长识别中文方言。就像是把专业录音师、翻译员、编辑的工作集合在一个系统里,而且准确率很高。
Q2:这套系统能识别多少种中文方言?
A:FireRedLID模块能识别20多种中文方言,包括普通话、粤语、上海话(吴语)、闽语、湘语等主要方言。它采用分层识别方法,先判断是中文,再细分具体方言类型,准确率达到88.47%,这在方言识别领域算是很大的突破。
Q3:普通人可以使用FireRedASR2S吗?
A:可以的。研究团队已经开源了完整的模型和代码,开发者可以免费使用和改进。不过对于普通用户来说,可能需要等待基于这套技术的应用产品出现。目前主要面向技术开发人员和研究机构。