[发明专利]面向税务咨询业务的智能问答系统有效

专利信息
申请号: 201610990193.9 申请日: 2016-11-10
公开(公告)号: CN106649561B 公开(公告)日: 2020-05-26
发明(设计)人: 张文强;高恩强;张尚彤;郑骁庆;路红;张睿;陈辰;王洪荣;张超;薛向阳 申请(专利权)人: 复旦大学
主分类号: G06F16/9032 分类号: G06F16/9032;G06Q40/00
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;陆尤
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 税务 咨询 业务 智能 问答 系统
【权利要求书】:

1.一种面向税务咨询业务的智能问答系统,其特征在于,包括:

一台安装Android操作系统终端设备,用于采集用户语音问题,并将语音数据实时转化为文本数据传入计算机;还用于将最终匹配的答案返回给用户进行展示;

一台计算机,用于对实时传入的文本问题进行理解检索;

所述终端设备安装有应用软件程序,该应用软件包括语音转化模块1、问题返回模块4,用于采集用户语音数据、为用户提供精准的问题答案、为用户提供友好的界面;

所述计算机上安装有服务软件系统,该服务软件系统包括问题理解模块2、问题检索模块3,用于进行语义分析,以便理解问题,用于检索相似度最高问题;

系统工作时语音转化模块1将用户输出的语音数据转化为文本数据,通过问题理解模块2进行语义理解,使用问题检索模块3检索答案,并通过问题返回模块4将处理结果传输给终端用户;

其中:

所述的语音转化模块1,用于完成用户语音信号转化为对应文本的信息的功能,包括通过对用户语音的采集,对语音信息进行特征提取,形成待识别模型,并与参考模型进行匹配,寻找相似度最高的模型并最终输出识别结果;其输入的是语音信息,输出为文本信息;

所述的问题理解模块2,用于完成对文本信息的处理,包括对输入文本进行分词、对文本进行分类、删除文本中包含的停用词;其输入的是问题文本,输出为特征词;

所述的问题检索模块3,用于完成对用户输入问题与税务语料库中问答的匹配,包括通过两个给定问题之间的匹配程度的比较,将两个问题共同特征最多的一些问题检索出来;其输入的是问题特征,输出的是多个相似度最高的问题编号;

所述的问题返回模块4,用于完成对匹配问题的展示,预先设定返回问题数量,将相似度最高的问题答案返回给用户;其输入是需返回的问题编号,输出为对应的问题及答案;

所述的问题理解模块2包括中文分词模块21、文本分类模块22、去停用词模块23;其中,中文分词模块21用于对输入文本进行分词,以确定文本中包含的特征词;文本分类模块22用于根据已训练分类数据,对文本进行分类;去停用词模块,用于删除文本中包含的停用词;中文分词模块21确定文本中包含的特征词传输给文本分类模块22;文本分类模块22对问题进行分类;将特征词传输给去停用词模块23进行处理;

所述的问题检索模块3,使用词语移动距离(WMD)模型进行相似度计算;

系统在投入自动运行前需要进行数据的采集以及训练;问题检索模块3需使用税务问答语料库,它是税务咨询系统核心的问答库,是回答用户问题的数据来源;问题检索模块3还需要使用词向量训练库,用于完成对不同词语特征的训练,为后续相似度计算使用;文本分类模块22需使用经过人工分类的训练集,提取每一个分类的特征,用于完成对陌生问题的分类任务;去停用词模块23需采集停用词表;

文本分类模块22使用长短时神经网络LSTM网络,该网络设计有记忆模块用于完成对历史数据的保存,而记忆模块由记忆细胞构成,信息可以自由地在各个记忆单元中传输而不受梯度消失的影响;所述记忆细胞主要由输入门、遗忘门、输出门构成;各种门的设置主要是用于调节记忆细胞自身和外部环境之间的关系,其中输入门主要决定是否对接收到的数据进行改变,遗忘门用于决定记忆细胞自身前一时刻的状态是否被删除,输出门则影响的是其他的神经细胞;

所述记忆细胞在每一个时刻进行更新的方式为:

假设h为LSTM单元的输出,C为LSTM记忆单元的值,x为输入,W为对应的权重矩阵,σ、tanh为激活函数,b为乘离率(BIAS)向量;更新过程用如下公式进行描述:

(1)时刻t神经细胞的值记为

其中:Wxc为时刻t对应输入数据的权值,xt为时刻t的输入,Whc为上一时刻LSTM单元输出的权值,ht-1为上一时刻LSTM单元输出,bc为时刻t对应神经细胞的乘离率(BIAS)向量;

(2)计算输入门的值记为it

it=σ(Wxixt+Wcict-1+bi) (2)

其中,Wxi为时刻t对应输入数据的权值,xt为时刻t的输入,Wci为上一时刻神经细胞的权值,ct-1为上一时刻神经细胞的值,bi为时刻t对应输入门的乘离率(BIAS)向量;

(3)计算遗忘门在时刻t的值记为ft

ft=σ(Wxfxt+Whfht-1+bf) (3)

其中,Wxf为时刻t对应输入数据的权值,xt为时刻t的输入,Whf为上一时刻LSTM单元输出的权值,ht-1为上一时刻LSTM单元输出,bf为时刻t对应遗忘门的乘离率(BIAS)向量;

(4)结合神经细胞在时刻t的值和遗忘门的值,对神经细胞进行更新,更新后的神经细胞值记为Ct

其中,Ct-1为上一时刻神经细胞的值;

(5)结合神经细胞新的值由σsi函数激活的隐藏层来计算哪部分信息输出记为ot

ot=σ(Wx0xt+Whoct-1+bo) (5)

(6)用一个tanh函数来对最终的更新进行过滤,来决定要最终的输出ht

ht=ot*tanh(Ct) (6) 。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610990193.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top