[发明专利]一种面向医疗领域的中文智能问答短文本相似度计算方法有效
申请号: | 202010370543.8 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111581364B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 林开标;梁怀众;朱顺痣 | 申请(专利权)人: | 厦门理工学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/216;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 厦门智慧呈睿知识产权代理事务所(普通合伙) 35222 | 代理人: | 杨唯 |
地址: | 361024 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 医疗 领域 中文 智能 问答 文本 相似 计算方法 | ||
本发明提供了一种面向医疗领域的中文智能问答短文本相似度计算方法,涉及自然语言处理与智能问答领域。该方法针对中文医疗领域,采用SH‑CNN对用户输入的问句与智能问答系统中预设定的问题模板进行向量化,然后提取出两文本中的突出特征进行相似度计算,再结合TF‑IDF的加权处理以获取更具可信性的文本相似度结果。根据结果获得用户输入问句的问题类型,结合使用词性标注方法获取的问句中的医疗实体,构造面向知识图谱的查询语句,并从中检索答案返回给用户。基于该方法所构造的智能问答系统能够快速的为用户提供简洁准确的答案,具有较高的实用价值。
技术领域
本发明涉及自然语言处理与智能问答领域,具体而言涉及一种面向医疗领域的中文智能问答短文本相似度计算方法。
背景技术
一直以来,医疗健康问题都是社会关注的焦点。由于我国人口众多,地区发展不平衡,不可避免地导致医疗资源总量不足,部分地区医疗资源分配不合理,现有医疗条件难以满足病患医疗需求的问题。在人工智能时代,人们希望能像科幻电影中一样,通过人机交互的方式就能了解到自己的健康状况,实现简单的自我诊疗。智能问答的出现为上述问题提供了解决方法——智能问答系统通过对用户输入的自然语言问题进行分析理解,获取用户的搜索意图,并精确定位用户所需的提问知识,从而返回快速简洁的答案。然而,面向中文医疗领域的智能问答系统的研究还处于初步发展阶段,其中存在的一个大的挑战在于如何理解问答系统中用户输入的自然语言问句。模板匹配作为问答系统中的常用算法,可通过计算用户提出的问句与系统中预设定的问题模板间的相似度来确定用户意图。
但这样做的难点在于中文的表达复杂多变,同一类的问句可以表现为不同的形式,使得计算机难以区分。另一方面,由于用户输入的问句文本较短,导致个别噪音词语会对整个文本的解析带来新的挑战。系统中包含的知识来源于结构化的知识图谱,只有当为用户提出的问句匹配符合语义的问题模板时,系统才能返回准确的答案给用户。因此,设计一个合理高效的短文本相似度算法是系统开发者必须考虑的问题。
现有的短文本相似度计算方法主要分为两类:
(1)基于非深度学习的短文本相似度计算方法,分为两种。第一种是基于字面匹配的方法,通过比较两句子中的每个单词是否相等来进行计算,比如TF-IDF、simhash等。第二种是基于语义匹配的方法,计算方法一般是余弦相似度。
(2)基于深度学习的短文本相似度计算方法,主要是利用深度网络提取特征,计算句子之间的匹配度,或者挖掘句子之间不同单词的匹配关系。
以上无论哪种方案,都可以计算短文本相似度,同时也都存在各自的缺点:
(1)基于非深度学习的短文本相似度算法更侧重于文本本身的相似度,只考虑到句子的表层信息,在计算过程中缺少对文本内容的预处理,不可避免的存在一些缺陷。
(2)基于深度学习的短文本相似度算法需要大量数据来训练神经网络,对大型数据集的依赖程度很大,而面向中文医疗领域并没有合适的语料训练集。同时,一些深度模型需要很长的时间来训练,大量的网络参数使得整个模型的训练性能难以提升。
虽然基于深度学习的方法被广泛应用于自然语言处理任务,并取得了优异的成绩,但依靠少量的领域训练集难以训练出高性能的神经网络。因此我们需要结合传统的文本相似度融合算法,从不同角度理解中文文本的语义信息,从而计算文本相似度。
发明内容
本发明为了缓解当前医疗资源紧缺,面向中文医疗领域的智能问答系统不能准确理解用户意图的问题,提出一种智能问答短文本相似度计算方法,该方法针对中文医疗领域并依此构建了智能问答系统,通过将用户输入的自然语言问句与系统中预设定的问题模板进行相似度计算,获得最贴近用户输入问句语义的问题模板,从而达到准确理解用户输入问句的目的
本发明使用到的一些缩略词释义如下:
SH-CNN:基于共享层的卷积神经网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门理工学院,未经厦门理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010370543.8/2.html,转载请声明来源钻瓜专利网。