[发明专利]文档层次结构联合全局局部信息抽取关键短语方法及系统在审
申请号: | 202210697632.2 | 申请日: | 2022-06-20 |
公开(公告)号: | CN115017903A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 赵姝;殷俊;郭双瑞;张金磊;段震;陈洁 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/216;G06F16/35 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 朱文振 |
地址: | 230039 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 层次 结构 联合 全局 局部 信息 抽取 关键 短语 方法 系统 | ||
1.文档层次结构联合全局局部信息抽取关键短语方法,其特征在于,所述方法包括:
S1、利用StandfordCoreNLP工具对输入文档进行分词和词性标注,根据预置抽取规则进行NP分块,以生成候选关键短语集合;
S2、判断所述输入文档的长度是否小于或等于预置文档长度阈值,若是,则利用BERT模型嵌入处理所述输入文档,以得到向量表达,若否,则根据预置范围获取所述输入文档的指定范围内容,将所述指定范围内容输入所述SimCSE模型,以进行嵌入获取所述候选关键短语的所述向量表达、标题向量及结尾向量;
S3、处理所述标题向量及所述结尾向量,以对所述候选关键短语进行全局相似性度量,据以得到全局相似度;
S4、利用主题中心度,以预置逻辑对所述输入文档全文的所述候选关键短语进行主题划分和聚类,据以局部相似度评估得到局部相似度,其中,所述步骤S4还包括:
S41、以所述候选关键短语作为节点、以所述节点间的相似度作为边,据以构建完全无向图;
S42、根据每一所述输入文档的最大值及最小值设置自适应滤噪阈值;
S43、根据所述自适应滤噪阈值更新将所述边的权重,以得到局部显著性数据,根据所述局部显著性数据得到更新边;
S44、获取所述输入文档全文的所述候选关键短语的位置信息;
S45、根据所述位置信息计算得到所述局部相似度;
S5、结合处理所述位置信息、所述全局相似度、所述局部相似度,以对所述候选关键短语进行综合评估并打分,据以排序处理所述候选关键短语,以得到关键短语排名数据;
S6、根据所述关键短语排名数据得到候选关键短语排序数据集,对所述候选关键短语进行后处理操作,删除所述候选关键短语集合的子集,以获取语义多样性关键短语,获取词汇频率数据,据以去除所述候选关键短语排序数据集上的高频通用短语,以滤除高频无效短语干扰。
2.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法,其特征在于,所述步骤S2包括:
S21、以BERT模型在所述输入文档的开始位置插入CLS标记,结束位置插入SEP标记;
S22、嵌入学习所述输入文档,据以得到每一token的向量:
{H1,H2,…,Hn}=BERT({T1,T2,…,Tn});
S23、再根据所述预置抽取规则得到所述候选关键短语的向量表示,以得到所述候选短语向量集合:
S24、将所述输入文档的标题和结尾送入所述BERT模型,以得到得到标题向量Htitle及结尾向量Hend。
S25将所述输入文档的结论及摘要分别输入到所述BERT模型进行嵌入操作,以得到所述向量表达;
S26利用SimCSE模型对所述输入文档进行长文本上的表达。
3.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法,其特征在于,所述步骤S3中,以下述逻辑处理标题向量Htitle和结尾向量Hend,据以获取每一所述候选关键短语i的所述全局相似度:
其中,‖.‖表示曼哈顿距离,表示候选短语i与整个文档的全局相似度。
4.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法,其特征在于,所述步骤S42包括:
S421、利用图中心性计算方法,以下述逻辑处理所述候选关键短语i:
其中,
S422、利用下述逻辑设置所述自适滤噪应阈值θ;
θ=min(eij)+β×(max(eij)-min(eij))。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210697632.2/1.html,转载请声明来源钻瓜专利网。