[发明专利]一种文本关联关系判别方法及存储介质有效
申请号: | 201911197172.1 | 申请日: | 2019-11-29 |
公开(公告)号: | CN111090755B | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 张垚;庄莉;梁懿;苏江文;王秋琳;彭放;李君婷;丁勇;王端瑞;尚颖;刘瑞芳 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网北京市电力公司;国家电网有限公司大数据中心;国网福建省电力有限公司;国家电网有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/383;G06F40/289;G06Q50/06 |
代理公司: | 广州京诺知识产权代理有限公司 44407 | 代理人: | 轩青涛 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 关联 关系 判别 方法 存储 介质 | ||
一种文本关联关系判别方法及存储介质,其中方法包括如下步骤,对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果,综上所述,本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。
技术领域
本发明涉及机器学习领域,尤其涉及一种文本关联关系的智能判别方法。
背景技术
随着大数据时代的兴起,短文本已经成为一种越来越常见的文本数据,例如文章摘要、新闻标题、公文标题、微博、微信、客户评论等等,这些数据之间存在着丰富的语义关联,如何建立一种高效的关联关系挖掘模型,并从大量的短文本数据集中挖掘出潜在的语义信息已经成为众多应用的基石。通过关联关系挖掘模型,我们能获得海量短文本间的潜在关联关系,从而可以应用到如搜索、兴趣分析、内容推荐、主题探测、文本分类、知识图谱构建等众多文本挖掘任务之中。
电网公司目前已经积累了大量的电力行业短文本语料,为了通过文本分析、挖掘技术对这些语料进行充分利用,挖掘其潜在的关联关系,当前迫切的需要一个较准确、高效的短文本关联关系挖掘模型。
通过word2vec对短文本获得词向量集,再通过词向量集转换为短文本的句向量,基于得到的句向量计算短文本的相似度,最后通过句法、命名实体特征进行纠偏修正。此方案的不足之处在于word2vec只能包含较弱的语境信息,对于一个词在不同语境的不同含义无法区别表征,所以通过其得到的句向量就存在一定的语义偏差,因此通常会出现判定为相似的两个短文本在词级别上比较相近,但实际语义差距较远(实际为不相似)的情况。
发明内容
为此,需要提供一种文本关联关系的判别方法,解决现有技术文本判断关联性准确率不高问题;
为实现上述目的,发明人提供了一种文本关联关系判别方法,包括如下步骤,
对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。
具体地,判断是否为超短文本具体包括步骤,设定长度阈值,若文本字段小于长度阈值,判断为超短为本。
可选地,所述行业知识图谱包括电力行业知识图谱。
具体地,所述超短文本根据行业知识图谱进行改写,具体包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本。
一种文本关联关系判别存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,
对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。
具体地,所述计算机程序在被运行时判断是否为超短文本具体执行包括步骤,设定长度阈值,若文本字段小于长度阈值,判断为超短为本。
具体地,所述行业知识图谱包括电力行业知识图谱。
优选地,所述计算机程序在被运行时执行超短文本根据行业知识图谱进行改写,
具体执行包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网北京市电力公司;国家电网有限公司大数据中心;国网福建省电力有限公司;国家电网有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网北京市电力公司;国家电网有限公司大数据中心;国网福建省电力有限公司;国家电网有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911197172.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水性粘结剂及其制备方法和锂离子电池
- 下一篇:一种公文文档纠错的方法