[发明专利]一种面向智能问诊系统的复述句生成优化方法在审

专利信息
申请号: 202011457520.7 申请日: 2020-12-10
公开(公告)号: CN112397201A 公开(公告)日: 2021-02-23
发明(设计)人: 黄剑平;丰仕琦 申请(专利权)人: 杭州师范大学
主分类号: G16H50/20 分类号: G16H50/20;G06F16/332;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 311121 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 智能 问诊 系统 复述 生成 优化 方法
【权利要求书】:

1.一种面向智能问诊系统的复述句生成优化方法,其特征在于,包括步骤:

(A)选择以问答对形式存在且问句长度有限的问答数据集,其中问句不包含标点符号以及修饰限定成分;

(B)对所述问答数据集进行文本聚类,将语义相似的问句归属于同一簇中;

(C)对所有问句进行句式精简和模板抽取,获得相应的复述模板,其中,一个所述簇里的所有复述模板作为一个复述模板组;对待复述句进行相同的句式精简和模板抽取,获得待复述句模板;

(D)抽取待复述句模板与所有复述模板组进行检索匹配,如果在某个复述模板组中找到了与所述待复述句模板相同的复述模板,则表明该复述模板组中所有复述模板都有被改写成新的复述句的可能,根据匹配到的复述模板组里的所有复述模板,分别生成不同的复述生成句;

(E)将所有复述生成句根据综合相似度进行排序,按照排序选择综合相似度最高的作为最佳复述生成句。

2.根据权利要求1所述的复述句生成优化方法,其特征在于,步骤(A)中,以问答对的形式收集中文问诊数据集,并且根据病症将问句分别归属于不同的类别,针对问句的依存关系进行分析,去除问句中的标点符号以及修饰限定成分,并且将问句长度限制在[3,20]个汉字字数的范围内,保留处理后的数据集。

3.根据权利要求2所述的复述句生成优化方法,其特征在于,步骤(B)中,通过K-means聚类方法对所述问答数据集进行文本聚类,利用手肘法和轮廓系数法确定最佳聚类数,在已有的根据病症分类的基础上进行文本聚类,将语义相似的问句集中到同一簇内。

4.根据权利要求1所述的复述句生成优化方法,其特征在于,步骤(C)中所述句式精简和模板抽取的具体步骤包括:

(C-1)使用jieba组件对每个句子进行分词、词性标注和命名实体识别处理,同时保持原句中词语的顺序不变,然后将句子中相应的词语分别替换为词性标注标签和命名实体标签,形成初步的句子模板;

(C-2)将特殊功能词替换为特殊功能词标签,对所述初步的句子模板进行更新,获得新的句式模板;

(C-3)利用句法分析建立句法树,剔除不影响句子主体的修饰关系部分,从而精简句式,获得相应的复述模板。

5.根据权利要求4所述的复述句生成优化方法,其特征在于,步骤(D)中,将匹配到的复述模板组里的所有复述模板分别与所述待复述句模板进行对比,待复述句模板中与复述模板相同的部分作为词槽进行填充,不同的部分保留,最后根据词槽对应的标签,将待复述句中的词按序填充到词槽中,生成复述生成句。

6.根据权利要求1所述的复述句生成优化方法,其特征在于,步骤(E)中,采用RNN-LM语言模型和基于相似与相异信息的CNN模型进行综合相似度的计算,具体步骤包括:

(E-1)利用RNN-LM模型对复述生成句评分,归一化后作为RNN-LM模型得分;

(E-2)计算待复述句与复述生成句的余弦相似度矩阵;结合待复述句中的最相似词汇计算其语义匹配向量,然后根据该语义匹配向量将复述生成句的词向量分为与待复述句的相似向量与相异向量;同理,结合复述生成句中的最相似词汇计算其语义匹配向量,然后根据该语义匹配向量将待复述句的词向量分为与复述生成句的相似向量与相异向量;

(E-3)采用双通道CNN模型对相似向量和相异向量分别形成的相似矩阵和相异矩阵进行训练,得到复述生成句和待复述句的特征向量,根据特征向量计算复述生成句和待复述句之间的相似度,作为CNN模型得分;

(E-4)综合计算RNN-LM模型得分与CNN模型得分,作为复述生成句的综合相似度最终得分,按照分值从高到低对所有复述生成句进行排序,取排序第一的复述生成句作为最佳复述生成句。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011457520.7/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top