问题描述
语音交互是人类最自然、最便捷的交互形式,成为政府向人民群众传达资讯最直接的触点。研究针对方言的智能语音技术,对减轻基层公务员负担、提升基层治理效率有积极促进作用。而国内方言种类繁多,相互之间差异较大,获取大量高纯度标注语料困难,使得现有智能语音技术难以直接应用或商业化成本高。因此,亟需研究一种高效构建低资源方言语音交互模型的一般方法,与智能外呼系统深度融合,服务于政府基层治理,提升政府的公共服务能力与治理现代化水平,推进政府向服务型政府的转变。并在应用过程中持续积累场景化方言语料,进而不断优化智能语音交互体验,形成语料与技术之间的正向反馈循环,突破方言智能语音交互技术难点。
问题背景
人工智能是计算机科学领域最重要的前沿方向,目前较为成熟的落地方案主要为机器视觉和智能语音技术。其中,智能语音技术更具商业和实用价值,融合了数学与统计学、声学与语言学、计算机与人工智能等基础与前沿学科,目前已被广泛应用于银行信用卡、保险保单、物流快递等服务场景中。智能语音技术能够获得爆发式增长,主要得益于语音交互是人类最自然、最便捷的交互形式。
新冠疫情反复不断,在疫情防控“新常态”下,各地政府抗疫压力巨大。每当有突发情况发生时,基层公务员往往需要连夜上门走访通知人民群众,工作任务繁重且效率低下,而通过智能外呼系统可以较好的克服这一问题。智能外呼系统可以快速便捷地部署与使用,并且采用灵活的按量计费方式,使用方不存在任何前期研发成本或技术门槛。受益于该系统的使用,咸阳市秦都区政府一小时内完成了五万流调居民的全量外呼,深圳市宝安区政府四小时内成功向两百三十万市民传达了核酸检测通知。从以上案例不难看出,在科技抗疫、基层治理方面智能外呼系统有着先天的优势,能够极大提升信息的传递效率,同时在基层有着广阔的市场空间,智能语音交互迎来需求拐点。智能外呼系统在普通话场景下有较为成熟的解决方案,然而在街道办、农村等基层环境中,人们习惯于用自己熟悉的方言进行自然交流。智能语音交互技术在方言场景下识别准确率低下,导致商用案例较少,没有积累到足够算法训练的语料,商业化成本居高不下,加之国内方言种类繁多,且相互之间存在较大差异,使得研发方言语音交互技术难度巨大。通信运营商基础网络中存在大量垂直行业的语音通话数据,其中丰富高纯度的方言语料成为突破方言语音交互技术的关键因素之一。最新进展(截止问题发布年度)
针对方言或低资源小语种语音交互问题,国内外学者开展了一系列创新研究,并取得了很多开创性的成果。例如:通过引入字节对编码生成建模单元,缓解维吾尔语语音识别中词汇量庞大的问题;结合四川方言的发音习惯以及语言特征,对四川方言进行特征提取并构建发音字典,实现从四川方言对普通话的映射识别;采用BLSTM-CTC模型,并结合藏语言问题特点,建立以音素为建模单元的藏语语音声学模型;通过临近最优主动学习,利用少量高质量的语音样本训练模型,减少对大量人工标注语料的依赖。然而方言种类繁多、语料采集难度大,以上方法大多针对某种特定方言设计,缺乏对国内方言语音交互技术的一般性研究,需要探索高效构建低资源方言语音交互模型的一般方法,从而得出更加通用高效的方法论和商用解决方案。
重要意义
本问题取得突破后,将有可能在基层治理、科技发展、文化保护、经济促进和国家安全等方面带来积极作用,具体如下:
在基层治理方面:研究获得的方言语音交互技术,能够植入到现有智能外呼系统中,替代传统依赖人工电话或上门走访等一类低效的基层通知形式,将基层公务员从繁重低效的工作中解放出来,提高基层治理效率和现代化水平,保障信息快速、通畅、高效地传递。在科技发展方面:研究获得的高效低资源方言语音交互技术,能够反哺于通用场景下的语音交互技术,形成的一些关键技术可在其他场景下复用,在一定程度上推动了智能语音技术的发展。在文化保护和传承方面:方言与文化息息相关,融入了民族或地域人民的深远历史底蕴和文化内涵。研发方言语音交互技术,有利于抢救和保护濒危方言,引导方言文化发展,传承地域文化,促进社会可持续发展。 在经济促进方面:方言差异对区域间贸易的影响反映的是其地域文化代表的维度,地域文化差异通过塑造区际信任最终作用于企业的区域间贸易。区域间信任能够缓解交易者之间的信息不完全和不对称,克服交易中的道德风险问题,降低交易成本。方言语音交互技术使得使用不同方言的人群,能够在消除地域差异的环境下平等交流,促进区域间身份认同,进而拉动跨区域贸易往来。在国家安全方面:在某些刑事案件侦查过程中,需要对涉案的方言语料进行识别,如恐吓电话录音、监控设备录音、审讯录音等。通过将方言语料整理成书面材料,相互关联后可形成破案线索。此外,识别方言种类之间的差异,对推断嫌疑人所在地区或籍贯也有重要价值。