
Moshi 是一个多流实时语音生成 Transformer 模型,支持全双工语音对话。其主要特点是同时语音输入和输出(全双工),以及处理复杂对话场景的能力,包括重叠语音、中断和情绪表达等非语言信息。
这意味着它可以同时听和说,旨在解决传统对话系统中的一些问题,例如延迟、非语言信息(例如情绪)丢失以及对话轮流的僵化结构。
全双工通信:传统的对话系统是回合制的(一个人在另一个人开始之前结束讲话)。 Moshi 突破了这一限制,支持全双工通信。这意味着 Moshi 可以在用户说话时生成语音响应,不受回合限制,并且可以处理复杂的对话动态,例如重叠语音、中断和快速反馈。
多流处理:Moshi 通过处理多个音频流来实现同时收听和生成语音。这种多流架构使其能够灵活处理用户和系统之间的语音交互,而不会中断对话的自然流程。
听悟,现已全新升级为通义听悟,是达摩院发布的一款 ai 效率工具,在学习、会议、培训、访谈等场景中支持实时字幕上屏、中英互译、音视频文件转写等功能;在结束会话后,可在自动区分说话人的基础上,智能分析会话内容,提取会话关键词、议程、重点内容和待办任务等,自动生成智能纪要。方便用户快速回顾,提高效率。