[发明专利]基于无监督学习的思想政治教育领域文献分词方法及系统在审
申请号: | 201910959276.5 | 申请日: | 2019-10-10 |
公开(公告)号: | CN110705291A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 杨星海;臧文经;宋佳惠;刘子钊;张玉璘 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 黄海丽 |
地址: | 266042*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开公开了基于无监督学习的思想政治教育领域文献分词方法及系统,包括:构建n‑gram语言模型,利用预先构建的训练集对n‑gram语言模型进行训练,生成字级n‑gram语言模型;接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n‑gram语言模型对输入的待分词文本进行分词并输出初始分词结果;基于初始分词结果,计算领域文献构词指标的词频偏差TFD;根据词频偏差TFD,计算排序词频偏差rTFD;利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。 | ||
搜索关键词: | 分词结果 分词 词频 语言模型 思想政治教育 构建 排序 文本 无监督学习 输出 词组 维特比 训练集 构词 合并 优化 | ||
【主权项】:
1.基于无监督学习的思想政治教育领域文献分词方法,其特征是,包括:/n构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;/n接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;/n基于初始分词结果,计算领域文献构词指标的词频偏差TFD;/n根据词频偏差TFD,计算排序词频偏差rTFD;/n利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910959276.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种网页分类方法及装置
- 下一篇:一种基于知识库和深度学习的实体名称提取方法