[发明专利]一种基于分级词项的地质文档特征词项排序方法与装置有效

专利信息
申请号: 201911322154.1 申请日: 2019-12-20
公开(公告)号: CN111090997B 公开(公告)日: 2021-07-20
发明(设计)人: 邓吉秋;路馥毓;刘文毅;李晨菡;何美香 申请(专利权)人: 中南大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/295
代理公司: 长沙智路知识产权代理事务所(普通合伙) 43244 代理人: 谢珍贵
地址: 410000 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分级 地质 文档 特征 排序 方法 装置
【说明书】:

发明涉及一种基于分级词项的地质文档特征词项排序方法,包括:获取范围类型参数信息;判断范围类型参数是否与预先设定的第一参数或第二参数或第三参数相同;若是,则获取范围参数信息;基于范围类型参数信息和范围参数信息,获取预先设定的与类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集;获取第一文档集或第二文档集或第三文档集中的特征词项的词频;基于第一文档集或第二文档集或第三文档集中特征词项的词频,和预先设定的与特征词项对应的词项级别、级别权重,获取第一文档集或第二文档集或第三文档集中特征词项的特征值;基于特征词项的特征值,获取特征值中前N个特征值所对应的特征词项。

技术领域

本发明涉及语言处理领域,尤其涉及一种基于分级词项的地质文档特征词项排序方法与装置。

背景技术

地质文档的主题(或特征)由文档中所有词项及其文法、上下文依存关系等确定,其中词项发挥着重要作用。

地质文档中的词项包括“某某断层”、“某某矿”、“某某岩”等地质命名实体,“正断层”、“流纹构造”等地质性质词项,“二零一九年十月十日”、“湖南省地质科学研究院”等普通命名实体,“地层”、“构造”、“岩体”等基本地质词项称,及控制”、“根据”、“区域”、“特征”等普通分词,不同词项对地质文档的表征作用不同。

目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词。

最常用、效果比较好的文本表征方法是建立词项-文档矩阵。词项-文档矩阵中的每个元素值代表了相应行上的词项对应于相应列上的文档的权重,即这个词对于该文档来说的重要程度。一个词对于一个文档是否重要,体现在两个方面:一个词项在一个文档中出现次数越多,则相对于文档的重要性就越大;若词项在整个语料库中出现的次数越多,那么对于该文档而言这个词就越没有意义,即越不重要。

基于TextRank的关键词提取是另一类方法,可针对单文档实现关键词提取。TextRank关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组,TextRank算法是利用局部词汇之间的关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。

文档中的同一词项所包含的实际语义在不同主题或类型文档中体现不同,另外地质文档中各种地质命名实体比一般非地质实体的词项对特定文档来说更能表征文档的主题特征,在表征文档的主题时应考虑词项在语义上对文档重要性的差异。而一般的词项-文档矩阵中纯粹地采用词项的出现次数来表示词项对文档主题的表征,TextRank算法利用局部词汇之间的关系(共现窗口)对后续特征词进行排序,均无法体现不同词项对主题的重要性的差异。

发明内容

(一)要解决的技术问题

为了解决现有技术的没有考虑不同级别词项在主题词排序中权重的问题,本发明提供一种基于分级词项的地质文档特征词项排序方法与装置。

(二)技术方案

为了达到上述目的,本发明提供一种基于分级词项的地质文档特征词项排序方法,包括步骤:

A1、获取范围类型参数信息;

A2、判断所述范围类型参数是否与预先设定的第一参数或第二参数或第三参数相同;

若是,则获取范围参数信息;

所述范围参数信息包括:第一范围参数或第二范围参数;

A3、基于所述范围类型参数信息和所述范围参数信息,获取预先设定的与所述范围类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911322154.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top