[发明专利]面向税务咨询业务的智能问答系统有效
申请号: | 201610990193.9 | 申请日: | 2016-11-10 |
公开(公告)号: | CN106649561B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 张文强;高恩强;张尚彤;郑骁庆;路红;张睿;陈辰;王洪荣;张超;薛向阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06Q40/00 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 税务 咨询 业务 智能 问答 系统 | ||
1.一种面向税务咨询业务的智能问答系统,其特征在于,包括:
一台安装Android操作系统终端设备,用于采集用户语音问题,并将语音数据实时转化为文本数据传入计算机;还用于将最终匹配的答案返回给用户进行展示;
一台计算机,用于对实时传入的文本问题进行理解检索;
所述终端设备安装有应用软件程序,该应用软件包括语音转化模块1、问题返回模块4,用于采集用户语音数据、为用户提供精准的问题答案、为用户提供友好的界面;
所述计算机上安装有服务软件系统,该服务软件系统包括问题理解模块2、问题检索模块3,用于进行语义分析,以便理解问题,用于检索相似度最高问题;
系统工作时语音转化模块1将用户输出的语音数据转化为文本数据,通过问题理解模块2进行语义理解,使用问题检索模块3检索答案,并通过问题返回模块4将处理结果传输给终端用户;
其中:
所述的语音转化模块1,用于完成用户语音信号转化为对应文本的信息的功能,包括通过对用户语音的采集,对语音信息进行特征提取,形成待识别模型,并与参考模型进行匹配,寻找相似度最高的模型并最终输出识别结果;其输入的是语音信息,输出为文本信息;
所述的问题理解模块2,用于完成对文本信息的处理,包括对输入文本进行分词、对文本进行分类、删除文本中包含的停用词;其输入的是问题文本,输出为特征词;
所述的问题检索模块3,用于完成对用户输入问题与税务语料库中问答的匹配,包括通过两个给定问题之间的匹配程度的比较,将两个问题共同特征最多的一些问题检索出来;其输入的是问题特征,输出的是多个相似度最高的问题编号;
所述的问题返回模块4,用于完成对匹配问题的展示,预先设定返回问题数量,将相似度最高的问题答案返回给用户;其输入是需返回的问题编号,输出为对应的问题及答案;
所述的问题理解模块2包括中文分词模块21、文本分类模块22、去停用词模块23;其中,中文分词模块21用于对输入文本进行分词,以确定文本中包含的特征词;文本分类模块22用于根据已训练分类数据,对文本进行分类;去停用词模块,用于删除文本中包含的停用词;中文分词模块21确定文本中包含的特征词传输给文本分类模块22;文本分类模块22对问题进行分类;将特征词传输给去停用词模块23进行处理;
所述的问题检索模块3,使用词语移动距离(WMD)模型进行相似度计算;
系统在投入自动运行前需要进行数据的采集以及训练;问题检索模块3需使用税务问答语料库,它是税务咨询系统核心的问答库,是回答用户问题的数据来源;问题检索模块3还需要使用词向量训练库,用于完成对不同词语特征的训练,为后续相似度计算使用;文本分类模块22需使用经过人工分类的训练集,提取每一个分类的特征,用于完成对陌生问题的分类任务;去停用词模块23需采集停用词表;
文本分类模块22使用长短时神经网络LSTM网络,该网络设计有记忆模块用于完成对历史数据的保存,而记忆模块由记忆细胞构成,信息可以自由地在各个记忆单元中传输而不受梯度消失的影响;所述记忆细胞主要由输入门、遗忘门、输出门构成;各种门的设置主要是用于调节记忆细胞自身和外部环境之间的关系,其中输入门主要决定是否对接收到的数据进行改变,遗忘门用于决定记忆细胞自身前一时刻的状态是否被删除,输出门则影响的是其他的神经细胞;
所述记忆细胞在每一个时刻进行更新的方式为:
假设h为LSTM单元的输出,C为LSTM记忆单元的值,x为输入,W为对应的权重矩阵,σ、tanh为激活函数,b为乘离率(BIAS)向量;更新过程用如下公式进行描述:
(1)时刻t神经细胞的值记为
其中:Wxc为时刻t对应输入数据的权值,xt为时刻t的输入,Whc为上一时刻LSTM单元输出的权值,ht-1为上一时刻LSTM单元输出,bc为时刻t对应神经细胞的乘离率(BIAS)向量;
(2)计算输入门的值记为it:
it=σ(Wxixt+Wcict-1+bi) (2)
其中,Wxi为时刻t对应输入数据的权值,xt为时刻t的输入,Wci为上一时刻神经细胞的权值,ct-1为上一时刻神经细胞的值,bi为时刻t对应输入门的乘离率(BIAS)向量;
(3)计算遗忘门在时刻t的值记为ft:
ft=σ(Wxfxt+Whfht-1+bf) (3)
其中,Wxf为时刻t对应输入数据的权值,xt为时刻t的输入,Whf为上一时刻LSTM单元输出的权值,ht-1为上一时刻LSTM单元输出,bf为时刻t对应遗忘门的乘离率(BIAS)向量;
(4)结合神经细胞在时刻t的值和遗忘门的值,对神经细胞进行更新,更新后的神经细胞值记为Ct:
其中,Ct-1为上一时刻神经细胞的值;
(5)结合神经细胞新的值由σsi函数激活的隐藏层来计算哪部分信息输出记为ot:
ot=σ(Wx0xt+Whoct-1+bo) (5)
(6)用一个tanh函数来对最终的更新进行过滤,来决定要最终的输出ht:
ht=ot*tanh(Ct) (6) 。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610990193.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页正文抽取方法及装置
- 下一篇:一种信息搜索方法及终端