智能语音交互

智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。
全新的2.0版本现已发布,用户可以使用自学习模型和自定义热词等工具改善语音识别效果,而且提供了功能更丰富的管理控制台和更易用的SDK,欢迎开通体验。

产品简介

语音识别

一句话识别

该服务能对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App,智能家电,智能助手等产品中。

实时语音识别

该项服务能对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景。

语音合成

语音合成

语音合成服务,能将用户提交的文本转换成自然流畅的语音,目前有多种音色可供选择,并提供调节语速,语调,音量等功能。
适用于智能客服,通知、任务播报,文学有声阅读等场景。

语音识别优化工具

自定义热词

该免费服务支持用户添加需要强化识别的词汇,如人名、地名、产品名、业务特殊用语等,能够快速地帮助用户自主优化语音识别效果

自学习模型

该付费服务把用户上传的业务相关文本语料训练成定制模型,可以在该业务领域中获得更高的识别准确率

典型场景

以下为智能语音交互的部分应用场景

  • 法庭庭审转写
  • 智能客服质检
  • 实时直播字幕及监控
  • 业务电话内容监控
  • 简介:智能语音识别技术能够将法庭庭审过程中的法官、被告、原告、辩护律师、证人等角色所说的每一句话实时转写成文字并进行存储,依靠人工智能技术替代了原本法庭庭审的书记员角色。阿里云智能法庭方案,在司法届引起了强烈反响。目前已经在多家法庭使用,反馈良好。


    业务痛点及需求
    为案件判决需要,法院庭审过程中需要对法官、被告、原告、辩护律师、证人等各方的陈述进行记录,之前主要通过书记员手工打字方式进行记录,记录下来的文字也不是原原本本的逐字记录,而会带有书记员的一些理解和归纳。为推进法院信息化建设且缓解书记员工作量,我们利用智能语音识别技术,将庭审各方在庭审过程中的语音直接转变为文字,供各方在庭审页面上查看,书记员简单或不用调整即可作为庭审笔录使用。


    优势
    (1)积累了大量司法方面数据,转写效果佳
    (2)全国首次在庭审中使用语音识别进行笔录,正确率超过97%
    (3)法庭庭审转写支持专有云部署
    (4)对于庭审中出现的特殊关键词,如人名、公司名,可以分庭做词表导入,以优化识别准确率

开发文档

快捷测试

修改了高级配置之后,建议对模型进行测试
点击“扬声器按钮”开始播放
请输入试听内容