
听觉基座,MiMo-V2.5-ASR今日正式开源(包括模型权重与代码)。该模型面向复杂真实场景,支持吴语、粤语等中文方言,以及中英文混说、强噪音、多人对话等场景,并原生输出标点符号,转写结果即拿即用。目前,TTS系列已在MiMo Studio开放快速体验,ASR代码与权重可在GitHub和HuggingFace获取。小米预告,下一步将向通用音频生成(音效、音乐)及更强的上下文理解能力扩展。
当前文章:http://a4ee.qiaobensai.cn/xonmq/zb4.html
发布时间:04:14:47