[发明专利]一种利用语义解析结构的文本匹配方法有效

专利信息
申请号: 201811570080.9 申请日: 2018-12-21
公开(公告)号: CN109783806B 公开(公告)日: 2023-05-02
发明(设计)人: 倪博溢;邹辉;张永煦 申请(专利权)人: 众安信息技术服务有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F16/35;G06F40/295
代理公司: 北京市万慧达律师事务所 11111 代理人: 黄玉东
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 利用 语义 解析 结构 文本 匹配 方法
【说明书】:

发明公开了一种利用语义解析结构的文本匹配方法,该方法包括:定义初始语料集Csubgt;qa/subgt;和补充语料集Csubgt;q/subgt;;利用语义依存解析方法,定义文本对应的语义结构DP‑tree;基于此语义结构,定义文本的核函数,以及文本相似度的度量函数;对文本进行核聚类,得到聚合的文本类函数:i=1,2,...,M;其中,q′subgt;ij/subgt;为每个聚类中选取的nsubgt;i/subgt;个最靠近类中的样本点;通过人工审核,给Csubgt;i/subgt;类核准并标记上特定的标签Tsubgt;i/subgt;。本发明采用了以句法结构等语法分析结构为比较基础,结合了卷积核函数理论,以及树核(tree kernel,TK)定义了表示两个树形句法结构间距离的核函数,引入了句法相似性、词向量、词义网等的内、外部知识,能够精确判断文本之间的相似度。

技术领域

本发明属于人工智能自然语言处理(NLP)领域,特别涉及一种利用语义解析结构的文本匹配方法。

背景技术

以问答系统、信息检索和抽取等应用为例,目前的业内技术的主流仍包括文本匹配的方式,也即业务方会准备大量的咨询(服务)业务相关的语料。一旦用户提出检索的请求(问题或以自然语言形式给出的搜索式),机器人就通过特定的文本匹配算法从问答语料库中查询(搜索)得到最接近于用户问题的候选问题列表,并视最佳匹配得分,以不同的策略来展示答案(直接回答、提供回答列表、或告知用户无匹配并提示相应的修改问句的方法)。

一、文本匹配

文本匹配在NLP领域是一个比较经典的问题。无论在搜索、信息抽取还是问答系统等应用中,问题的关键一定程度上都可以看作是一个文本匹配的问题。顾名思义,文本相似度和文本之间的共性和差异性有关,在共性越大而差异性越小的文本之间,相似度越高。

业界通常将文本相似度计算方法分为四大类:基于字符串的、基于语料库的、基于世界知识的和其他方法。通常基于字符串的各种计算,比如最大公共子串、编辑距离、Jaccard距离等等,均是基于字符串字面上的相似性来计算的。这类方法比较忽视文本的语义信息。基于语料库的方法从语料库中统计出词的共现概率等上下文信息,发现不同词之间的语义相关性,以改善相似度的评价。而基于知识的相似度计算则带来更多的人工整理的常识类知识及专家知识。还有基于句法依存的相似度匹配,例如通过比较依存树的的骨架的“骨架依存树分析法”,或仅考虑动词、名词、形容词及其直接支配成分的“有效搭配结构”。基于句法分析的相似度计算,既考虑到句法结构,同时又考虑到词之间的相似性,因此从语义匹配层面来讲是比较理想的方法,但多变的语言表达导致句法分析结构准确度不高,且计算比较复杂。

语义结构的抽取,句法(和语义)依存分析通常是将一个语句解析为一系列的词及词性,并确定每个词和其他词之间的语法(语义)关系。举例说明,句子“s0,美国总统A热情邀请B主席访问白宫”的解析结果为如图1所示。

从句中,可以获得的主要信息有:

1.分词和词性标注(如“总统”是一个词,且是名词(标注“n”),通用的实体标注(如“美国”是地名)

2.核心动作”邀请“(root)主谓宾等基础语法标注,如“A”是主语(“SBV”的起点)

3.语义角色,如“总统”是“邀请”的施事方(以“A0”来表示)

这些信息对理解整个句子的语义有着极大帮助。通过从依存树上截取以ROOT为根的主干,也可以获得句子的主干部分,可以以树中节点的深度来做简化,自ROOT开始向上保留的层数不同,简化的效果也不同:

·3层:总统A热情邀请B主席访问白宫。

·2层:A热情邀请主席访问。

·1层:邀请。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众安信息技术服务有限公司,未经众安信息技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811570080.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top