[发明专利]基于无监督学习的思想政治教育领域文献分词方法及系统在审
申请号: | 201910959276.5 | 申请日: | 2019-10-10 |
公开(公告)号: | CN110705291A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 杨星海;臧文经;宋佳惠;刘子钊;张玉璘 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 黄海丽 |
地址: | 266042*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词结果 分词 词频 语言模型 思想政治教育 构建 排序 文本 无监督学习 输出 词组 维特比 训练集 构词 合并 优化 | ||
1.基于无监督学习的思想政治教育领域文献分词方法,其特征是,包括:
构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;
接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;
基于初始分词结果,计算领域文献构词指标的词频偏差TFD;
根据词频偏差TFD,计算排序词频偏差rTFD;
利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。
2.如权利要求1所述的方法,其特征是,还包括:
使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取,实现对领域文献要点进行总结。
3.如权利要求1所述的方法,其特征是,所述预先构建的训练集是通过对语料库进行预处理,得到训练集;具体步骤包括:
将所述语料库的文本根据文本中的标点符号处理为字与字之间以空格隔开、句与句之间以换行隔开的格式的纯文本,然后将所有标点符号清除,建立基于字的思想政治教育训练集。
4.如权利要求1所述的方法,其特征是,所述构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;具体步骤包括:
在所述训练集中标注句子的开头和结尾,从所述训练集中获取单个字在训练集中出现的次数、两个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、四个相邻的字在训练集中出现的次数,将获取的次数视为原始计数,根据所述原始计数从大到小对对应的字进行排序;
基于Kneser-Ney平滑算法依次对四个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、两个相邻的字在训练集中出现的次数和单个字在训练集中出现的次数进行优化,分别得到对应的四个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数和单个字在训练集中出现的次数的修正计数;
在完成平滑算法的处理后,计算相邻字的回退权重;
基于单个字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数和四个相邻的字在训练集中出现的次数的修正计数,分别计算对应的单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率;
最后,将回退权重、字与字之间的组合关系和单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率输入到n-gram语言模型中,得到建立4-gram字级语言模型。
5.如权利要求1所述的方法,其特征是,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;具体步骤包括:
依照4-gram字级语言模型中的字与字的组合,统计待分词文本的所有分段;
通过维特比Viterbi算法,依照得到的待分词文本的所有可能的分段以及n-gram字级语言模型中的n-gram概率计算待分词文本的n-gram概率乘积;
在所有分段中n-gram概率乘积最大的分段,即为待分词文本的最优分词路径,即得到初始分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910959276.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页分类方法及装置
- 下一篇:一种基于知识库和深度学习的实体名称提取方法