[发明专利]文本摘要提取方法及装置在审
申请号: | 202110561021.0 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113342968A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 申端明;李青;孙健;李楠梓;周思诗;温乾;崔玉芳 | 申请(专利权)人: | 中国石油天然气股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/284;G06F40/194;G06N3/02 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 沈珍珠;郝博 |
地址: | 100007 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 摘要 提取 方法 装置 | ||
1.一种文本摘要提取方法,其特征在于,包括:
获取文本信息和文本语料词向量集合信息;
对所述文本信息进行分词处理,根据分词处理结果和所述文本语料词向量集合信息确定所述分词处理结果中每个词语的词向量;
根据所述词向量生成所述文本信息的句向量、文向量和标题向量;
根据所述句向量、所述文向量和所述标题向量生成相似度评分;
根据所述相似度评分确定所述文本信息的摘要信息。
2.根据权利要求1所述的方法,其特征在于,获取文本信息和文本语料词向量集合信息之前,还包括:
获取文本语料信息;
利用停用词表对所述文本语料信息进行清洗处理;
根据清洗结果生成文本语料词向量集合信息。
3.根据权利要求2所述的方法,其特征在于,包括:利用神经网络模型根据清洗结果生成文本语料词向量集合信息。
4.根据权利要求1所述的方法,其特征在于,包括:
利用平滑倒词频方法根据所述词向量生成所述文本信息的句向量、文向量和标题向量。
5.根据权利要求4所述的方法,其特征在于,包括利用平滑倒词频方法根据所述词向量按照如下公式生成所述文本信息的句向量:
其中,s表示句子,|s|表示句子s中词向量的个数,w表示词语,vs表示句向量,vw表示词向量,a表示平滑参数,p(w)表示词语在文本语料词向量集合中的词频。
6.根据权利要求1所述的方法,其特征在于,根据所述句向量、所述文向量和所述标题向量生成相似度评分,包括:
计算所述句向量与所述文向量的第一相似度;
计算所述句向量与所述标题向量的第二相似度;
根据所述第一相似度和所述第二相似度计算加权相似度;
根据所述加权相似度生成相似度评分。
7.根据权利要求6所述的方法,其特征在于,包括:
利用如下公式计算所述句向量与所述文向量的第一相似度:
Sc=similarity(vs,vc)
其中,Sc表示第一相似度,vs表示句向量,vc表示文向量,similarity表示相似度计算函数;
利用如下公式计算所述句向量与所述标题向量的第二相似度:
St=similarity(vs,vt)
其中,St表示第二相似度,vs表示句向量,vt表示标题向量,similarity表示相似度计算函数。
8.根据权利要求6所述的方法,其特征在于,包括:利用如下公式根据所述第一相似度和所述第二相似度计算加权相似度:
Si=w1·St+w2·Sc
其中,Si表示加权相似度,Sc表示第一相似度,St表示第二相似度,w1表示第一权值,w2表示第二权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油天然气股份有限公司,未经中国石油天然气股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110561021.0/1.html,转载请声明来源钻瓜专利网。