[发明专利]基于百度百科的电网领域短语识别分类方法、系统在审

专利信息
申请号: 202010323037.3 申请日: 2020-04-22
公开(公告)号: CN111552809A 公开(公告)日: 2020-08-18
发明(设计)人: 林静怀;李泽科;范士雄;冯长有;徐郑崎;范海威;韩晔;刘幸蔚;皮俊波;王晶;廖志芳;陈莹;李斌;吴锟 申请(专利权)人: 中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F16/951;G06N20/20
代理公司: 北京宝护知识产权代理有限公司 11703 代理人: 文骊鹍
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 百度 百科 电网 领域 短语 识别 分类 方法 系统
【权利要求书】:

1.一种基于百度百科的电网领域短语识别分类方法,其特征在于,包括如下步骤:

步骤S1,从给定的语料C中提取出出现频次大于或等于阈值t的短语视为高频候选短语;

步骤S2,对提取到的所述高频候选短语进行冗余短语过滤;

步骤S3,从互联网上的百度百科中爬取经短语过滤后剩余的各所述高频候选短语对应的词条解释,并将无法爬取到所述词条解释的所述高频候选短语视为非法短语予以剔除,将能够爬取到所述词条解释的所述高频候选短语视为合法短语予以保留;

步骤S4,通过一预先训练的电网领域短语识别分类模型,对被视为合法短语的所述高频候选短语进行识别分类,输出电网领域短语。

2.如权利要求1所述的电网领域短语识别分类方法,其特征在于,所述步骤S1中,对所述高频候选短语的具体提取过程包括如下步骤:

步骤S11,从给定的所述语料C中获取长度为L1的短语p1,并将所获取的所述短语p1存储在字典Index中;

步骤S12,对所述字典Index进行短语搜索,以从所述字典Index中搜索出在所述语料C中的出现频次大于或等于所述阈值t的所述短语p1视为第一高频候选短语并提取到一结果集R中;

步骤S13,判断所述字典Index中是否还存在未搜索区域,

若是,则进入步骤S14;

若否,则终止高频候选短语提取过程;

步骤S14,遍历所述字典Index中的未搜索区域中的所有所述短语p1在所述语料C中的索引位置,并将处于第一索引位置的所述短语p1与处于所述语料C中的第二索引位置的字符进行组合,形成长度为L2的短语p2,并将所述短语p2视为第二高频候选短语提取到所述结果集R中;

步骤S15,重复执行所述步骤S12~S14,直至所述字典Index中不存在未搜索的区域。

3.如权利要求2所述的电网领域短语识别分类方法,其特征在于,所述步骤S2中,对所述高频候选短语进行短语过滤的方法为:

步骤S21,遍历所述结果集R中的所有所述高频候选短语,并判断所述第一高频候选短语p1是否为所述第二高频候选短语p2的子串,

若是,则进入步骤S22;

若否,则终止短语过滤流程;

步骤S22,判断所述第一高频候选短语p1在所述语料C中的出现频次n1是否小于所述第二高频候选短语p2在所述语料C中的出现频次n2+所述阈值t的值,

若是,则将所述第一高频候选短语p1视为冗余短语进行过滤;

若否,则保留所述第一高频候选短语p1。

4.如权利要求1所述的电网领域短语识别分类方法,其特征在于,所述电网领域短语识别分类模型的训练过程具体包括如下步骤:

步骤S41,将被视为合法短语的所述高频候选短语标注为电网领域短语或非电网领域短语;

步骤S42,将标注数据按照预定的划分比例划分为模型训练集和测试集;

步骤S43,将所述训练集中的训练样本输入到机器学习网络中,训练形成电网领域短语识别分类初始模型;

步骤S44,使用所述测试集中的测试样本对所述电网领域短语识别分类初始模型的模型性能进行校验,并根据校验结果调整所述机器学习网络的网络参数,以对所述电网领域短语识别分类初始模型进行更新训练,最终训练形成所述电网领域短语识别分类模型。

5.如权利要求4所述的电网领域短语识别分类方法,其特征在于,所述机器学习网络为XGBoost集成学习算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学,未经中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010323037.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top