[发明专利]基于无监督学习的思想政治教育领域文献分词方法及系统在审

专利信息
申请号: 201910959276.5 申请日: 2019-10-10
公开(公告)号: CN110705291A 公开(公告)日: 2020-01-17
发明(设计)人: 杨星海;臧文经;宋佳惠;刘子钊;张玉璘 申请(专利权)人: 青岛科技大学
主分类号: G06F40/289 分类号: G06F40/289
代理公司: 37221 济南圣达知识产权代理有限公司 代理人: 黄海丽
地址: 266042*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分词结果 分词 词频 语言模型 思想政治教育 构建 排序 文本 无监督学习 输出 词组 维特比 训练集 构词 合并 优化
【权利要求书】:

1.基于无监督学习的思想政治教育领域文献分词方法,其特征是,包括:

构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;

接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;

基于初始分词结果,计算领域文献构词指标的词频偏差TFD;

根据词频偏差TFD,计算排序词频偏差rTFD;

利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。

2.如权利要求1所述的方法,其特征是,还包括:

使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取,实现对领域文献要点进行总结。

3.如权利要求1所述的方法,其特征是,所述预先构建的训练集是通过对语料库进行预处理,得到训练集;具体步骤包括:

将所述语料库的文本根据文本中的标点符号处理为字与字之间以空格隔开、句与句之间以换行隔开的格式的纯文本,然后将所有标点符号清除,建立基于字的思想政治教育训练集。

4.如权利要求1所述的方法,其特征是,所述构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;具体步骤包括:

在所述训练集中标注句子的开头和结尾,从所述训练集中获取单个字在训练集中出现的次数、两个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、四个相邻的字在训练集中出现的次数,将获取的次数视为原始计数,根据所述原始计数从大到小对对应的字进行排序;

基于Kneser-Ney平滑算法依次对四个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、两个相邻的字在训练集中出现的次数和单个字在训练集中出现的次数进行优化,分别得到对应的四个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数和单个字在训练集中出现的次数的修正计数;

在完成平滑算法的处理后,计算相邻字的回退权重;

基于单个字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数和四个相邻的字在训练集中出现的次数的修正计数,分别计算对应的单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率;

最后,将回退权重、字与字之间的组合关系和单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率输入到n-gram语言模型中,得到建立4-gram字级语言模型。

5.如权利要求1所述的方法,其特征是,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;具体步骤包括:

依照4-gram字级语言模型中的字与字的组合,统计待分词文本的所有分段;

通过维特比Viterbi算法,依照得到的待分词文本的所有可能的分段以及n-gram字级语言模型中的n-gram概率计算待分词文本的n-gram概率乘积;

在所有分段中n-gram概率乘积最大的分段,即为待分词文本的最优分词路径,即得到初始分词结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910959276.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top