[发明专利]一种基于融合知识图谱的文本处理方法及装置有效
申请号: | 201810525849.9 | 申请日: | 2018-05-28 |
公开(公告)号: | CN110609902B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 徐传飞;晏小辉;蒋洪睿 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F40/295;G06F40/30 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 吴瑜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 融合 知识 图谱 文本 处理 方法 装置 | ||
本申请实施例公开了一种基于融合知识图谱的文本处理方法及装置,涉及智能交互领域,解决了文本匹配度较低的问题。具体方案为:首先,对输入文本进行分词处理,得到分词文本,以及根据分词文本获取序列化实体向量;然后,利用路径匹配算法根据序列化实体向量以及融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。本申请实施例用于文本匹配的过程。
技术领域
本申请实施例涉及智能交互领域,尤其涉及一种基于融合知识图谱的文本处理方法及装置。
背景技术
在智能交互领域,通常需要先对语料数据进行处理,以形成相应的知识库,进而可以在接收到用户的输入文本后,使用文本匹配技术从知识库中找出与输入文本最相关的文本信息并反馈至用户。例如,在搜索场景中,匹配引擎找出与查询的内容最相关的一些文档作为结果返回给用户。在智能问答场景中,根据用户输入的问题通过匹配引擎找出与问题匹配度最高的答案,并将答案返回给用户。其中,文本匹配技术可以是基于关键词的文本匹配技术或基于语义的文本匹配技术。
然而,基于关键词的文本匹配技术需要管理员维护知识库,文本中的关键词必须与知识库中的关键词完全相同,对于大多数近义说法都无法准确匹配,因此,基于关键词的文本匹配技术匹配严格且覆盖率低。基于语义的文本匹配技术通过深度神经网络将文本中的关键词用向量表示映射到语义空间中,然后计算文本信息对应的向量在语义空间上的距离,若文本信息对应的向量在语义空间上的距离小于阈值,则得到文本的匹配结果。虽然,基于语义的文本匹配技术提高了匹配的覆盖率,但是,将文本转化为向量的过程中也仅仅考虑文本中关键词信息,而没有考虑文本包括的关键词之间的关联关系。例如,“怎样让手机流量最节约”与“怎么买手机流量最节省”中的词向量很接近,但两个问题的意思完全不同,不应匹配到相同的结果。“账号被盗”与“支付宝账号丢失”中的词向量反而不怎么接近,但在特定领域下应该匹配到相同的结果。因此,基于语义的文本匹配技术在很多情况下会导致匹配度较低。
在现有技术中,可以根据不同类型建立不同的知识图谱,知识图谱中的实体向量之间具有关联关系,利用知识图谱根据文本匹配技术找出与输入文本最相关的文本信息。但是,通常文本的知识表示会同时涉及多个知识图谱。例如,“荣耀v8怎么买手机流量最省”同时涉及产品实体图谱、事件操作图谱和事物图谱。如果仅仅利用一个知识图谱根据文本匹配技术查找与输入文本最相关的文本信息,在很多情况下仍然会导致匹配度较低。因此,如何提高文本的匹配度是一个亟待解决的问题。
发明内容
本申请实施例提供一种基于融合知识图谱的文本处理方法及装置,解决了文本匹配度较低的问题。
为达到上述目的,本申请实施例采用如下技术方案:
本申请实施例的第一方面,提供一种基于融合知识图谱的文本处理方法,包括:在获取到用户输入的输入文本之后,先根据分词技术对输入文本进行分词处理,得到第一分词文本,并根据第一分词文本获取第一序列化实体向量,其中,第一分词文本包括至少一个分词,第一序列化实体向量为第一分词文本的序列化实体向量,第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;然后,获取X个知识状态子图,X个知识状态子图中每个知识状态子图包括至少一个节点,节点表示知识自动机的状态,每个节点连接至少一条边,一条边对应一个实体向量,X为大于或等于1的整数;再利用路径匹配算法根据第一序列化实体向量中第i个实体向量、第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,其中,i为整数,i取1至Z,j为整数,j取1至X,k为整数,k取1至F,F为大于等于1的整数,F表示第j个知识状态子图包括的节点的个数,Y为大于等于0且小于等于X的整数;最后,将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。
本申请实施例提供的基于融合知识图谱的文本处理方法,在文本匹配过程中,利用了文本知识序列信息和实体之间的逻辑关系,基于利用融合知识图谱生成的知识状态子图对输入文本确定匹配结果,从而,极大地提升了文本匹配度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525849.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于向量化特征的用户网络行为预测方法
- 下一篇:信息表示方法及装置