[发明专利]一种面向智能问诊系统的复述句生成优化方法在审

专利信息
申请号: 202011457520.7 申请日: 2020-12-10
公开(公告)号: CN112397201A 公开(公告)日: 2021-02-23
发明(设计)人: 黄剑平;丰仕琦 申请(专利权)人: 杭州师范大学
主分类号: G16H50/20 分类号: G16H50/20;G06F16/332;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 311121 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 智能 问诊 系统 复述 生成 优化 方法
【说明书】:

发明公开了一种面向智能问诊系统的复述句生成优化方法,对中文问诊语料库进行文本聚类,从而获得复述语料库,然后分别抽取待复述句子和复述语料库中的句子模板,再将待复述句子模板与复述模板组进行模板匹配和句子生成,从而获得一个候选生成句集合,最后利用RNN‑LM模型和基于相似与相异信息的CNN模型计算候选生成句的综合相似度得分,从而在候选生成句集合中获得最佳复述生成句。

技术领域

本发明涉及智能问诊技术领域,具体涉及一种面向智能问诊系统的复述句生成优化方法。

背景技术

智能问诊系统主要是将智能问答与医疗问诊相结合的一种面向医疗领域的智能问答系统。其中,智能问答系统是利用自然语言处理与知识抽取等相关技术对用户输入的自然语言进行分析处理并将准确答案返回给用户的交互式系统。智能问答产品不仅能够给人们提供更加友好和便利的交互方式,而且大大提高了工作和生活效率。

但目前智能问答系统理解能力较差,距离真正智能化的理想状态还有一定的差距,主要体现在回答准确率不高以及问答领域受限等方面。因此,让智能问答系统更加智能化和人性化,依然是一个巨大的挑战。这是因为现有的智能问答系统主要由问题分析(系统需要了解用户想问什么)、信息检索(检索用户想问的信息)和答案抽取三个模块构成,而问题分析和信息检索模块中的一些关键技术尚不够成熟。问题分析模块要解决的是如何正确地识别用户意图,分析用户意图并生成相应的检索信息。信息检索模块要解决的是如何精准地匹配用户意图,在系统语料库中进行全匹配检索,获得可能包含答案的语料资源。但由于用户的输入是不固定的,且同种语义的问题可能有多种不同的句式,这给准确理解和检索用户意图造成了很大的困难。

将复述方法应用于智能问答系统是有效解决上述问题的途径之一。复述是指以不同的表达形式展现相同语义的一种方法,可用于将用户输入的词汇或句子改写成多个语义相同但表达形式不同的词句。据此可以用来生成同义语料,并扩大语料库规模。

其中,关于复述句的生成,相关研究方法主要包括基于双语平行语料库的复述句生成、基于模板匹配的复述句生成以及基于残差的LSTM复述句生成。基于双语平行语料库的复述句生成方法缺陷在于大量非语言结构的短语也会被抽取出来,干扰复述句的生成,并且高质量双语平行语料库的收集需要消耗大量人力资源,同时过滤方法效果有限。基于模板匹配的复述句生成方法在分词过程中未单独考虑特殊功能词和精简句式的作用,导致模板泛化能力较差。基于残差的LSTM复述句生成方法缺乏大规模高精度的复述语料作为模型训练集,学习能力受到很大程度的限制。

基于此,本发明的关注点在于如何利用现有医疗问诊数据集进行高效的模板抽取和句式精简,并且如何利用深度学习算法对生成的复述句进行排序,从而获取到准确率较高的复述句。

发明内容

针对上述技术问题,本发明提供了一种面向智能问诊系统的复述句生成优化方法,该方法基于医疗问诊语料集,利用文本聚类方法生成复述语料库,分别抽取待复述句子和复述语料库中的句子模板,再将待复述句子模板与复述模板集进行模板匹配和句子生成,从而获得一个候选生成句集合,最后对候选生成句集合中的句子进行排序获得最佳复述生成句。

一种面向智能问诊系统的复述句生成优化方法,包括步骤:

(A)选择以问答对形式存在且问句长度有限的问答数据集,其中问句不包含标点符号以及修饰限定成分;

(B)对所述问答数据集进行文本聚类,将语义相似的问句归属于同一簇中;

(C)对所有问句进行句式精简和模板抽取,获得相应的复述模板,其中,一个所述簇里的所有复述模板作为一个复述模板组;对待复述句进行相同的句式精简和模板抽取,获得待复述句模板;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011457520.7/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top