智能语音交互

智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。
  • 目前免费版本仅支持小量的调用,如果您需要的调用量较大,请邮件跟我们进行商务沟通: nls_support@service.aliyun.com


产品简介

语音识别

语音识别,提供的是将语音转写成文字的服务,目前能够支持中文普通话的语音识别(包括河南话、四川话、东北话等重口音的普通话),也能够支持粤语、英语的语音识别。该项技术包括以下三种类型服务:

实时语音识别

该项服务能对音频流做实时转写,达到“边说边出文字”的效果。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景

录音文件识别

该项服务能对整个录音文件进行语音转写。可用于对实时性要求不高的客服通话转写,也可用于会议或访谈录音的离线转写。

一句话识别

该项服务能对时长较短的语音进行转写。主要用于一句话的交互模式,如语音搜索、语音指令、语音短消息等场景,一般应用于各类App中

自定义热词

该项服务有助于增强语音识别的准确率,通过添加某些需要特殊出来的词汇,能够帮助用户快速地自主优化语音识别效果,如人名、产品名、业务特殊用语等词汇类型

语音合成

语音合成

提供将文字转写成语音的服务,目前支持输出男声、女声,也可以指定人声做定制,能调节语速、音量。

人机对话

人机对话,集语义解析、意图识别、智能问答、机器人聊天等功能于一体,让机器具备与人做对话沟通的能力。语音识别成文本之后,人机对话功能通过对自然语言的理解,解析用户表达的意图,并对接到对应的服务,返回应答的文字,并可以通过语音合成技术将文字“说“给用户。过程见下图:

阿里云的人机对话,包含智能问答、通用领域对话两项服务。

智能问答

提供智能问答的功能。该功能可以精确地理解以自然语言形式描述的用户提问,并通过检索问答知识库(客户提供)寻找语义上匹配的问题描述,并且返回答案。

通用领域对话

在询问天气、附近地点、设定闹钟、查看股票等生活领域,我们已有成型的对话,方便客户便捷地配置常见人机交互对话需求。

典型场景

以下为智能语音交互的部分应用场景

  • 法庭庭审转写
  • 智能问答
  • 智能客服质检
  • 实时直播字幕及监控
  • 业务电话内容监控
  • 简介:智能语音识别技术能够将法庭庭审过程中的法官、被告、原告、辩护律师、证人等角色所说的每一句话实时转写成文字并进行存储,依靠人工智能技术替代了原本法庭庭审的书记员角色。阿里云智能法庭方案,在司法届引起了强烈反响。目前已经在多家法庭使用,反馈良好。


    业务痛点及需求
    为案件判决需要,法院庭审过程中需要对法官、被告、原告、辩护律师、证人等各方的陈述进行记录,之前主要通过书记员手工打字方式进行记录,记录下来的文字也不是原原本本的逐字记录,而会带有书记员的一些理解和归纳。为推进法院信息化建设且缓解书记员工作量,我们利用智能语音识别技术,将庭审各方在庭审过程中的语音直接转变为文字,供各方在庭审页面上查看,书记员简单或不用调整即可作为庭审笔录使用。


    优势
    (1)积累了大量司法方面数据,转写效果佳
    (2)全国首次在庭审中使用语音识别进行笔录,正确率超过97%
    (3)法庭庭审转写支持专有云部署
    (4)对于庭审中出现的特殊关键词,如人名、公司名,可以分庭做词表导入,以优化识别准确率

开发文档

  • 接入介绍

  • 语音识别-录音文件识别

  • 语音识别-实时语音识别

  • 语音识别-一句话识别

  • 语音识别-自定义热词