[发明专利]基于无监督学习的思想政治教育领域文献分词方法及系统在审
申请号: | 201910959276.5 | 申请日: | 2019-10-10 |
公开(公告)号: | CN110705291A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 杨星海;臧文经;宋佳惠;刘子钊;张玉璘 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 黄海丽 |
地址: | 266042*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词结果 分词 词频 语言模型 思想政治教育 构建 排序 文本 无监督学习 输出 词组 维特比 训练集 构词 合并 优化 | ||
本公开公开了基于无监督学习的思想政治教育领域文献分词方法及系统,包括:构建n‑gram语言模型,利用预先构建的训练集对n‑gram语言模型进行训练,生成字级n‑gram语言模型;接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n‑gram语言模型对输入的待分词文本进行分词并输出初始分词结果;基于初始分词结果,计算领域文献构词指标的词频偏差TFD;根据词频偏差TFD,计算排序词频偏差rTFD;利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。
技术领域
本公开涉及分词技术领域,特别是涉及基于无监督学习的思想政治教育领域文献分词方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
思想政治教育作为中国精神文明建设的主要内容,也是解决社会矛盾与问题的主要途径之一,而随着思想政治教育水平的不断进步,思想政治教育文献数量逐年增加,对诸多思想政治教育文献进行更深度的分析也是思想政治教育的重中之重,而要对海量的思想政治教育文献进行分析,中文分词是进行深度分析的重要基础。但是思想政治教育领域的特殊性决定了新词诞生速度快,覆盖面广,包含了大量包括历史事件、政策要领、法律条目等领域词汇,这对中文分词带来很大阻碍。
传统基于有监督学习的分词方法需要对繁多的思想政治教育领域文献进行标注,从而获得大量的人工标注数据集进行训练,但是仍然对于歧义以及未登录词处理不尽人意,毕竟人工标注无法包含全领域的所有词汇,尤其在特定领域,有监督学习的方法其实并不理想。
随着信息社会的发展,信息传播速度加快,新词汇的诞生与传播普及速度也在加快,这导致未登录词的增多,也大大增加了人工训练领域先验知识的成本以及人工标注的成本,尤其对于特定领域,因为有监督学习的分词方法很难登录全领域词汇,领域内专业词汇太多,导致切分效果并不理想。
发明内容
为了解决现有技术的不足,本公开提供了基于无监督学习的思想政治教育领域文献分词方法及系统;解决目前中文分词方案在针对思想政治教育领域的中文文本时分词质量较差的问题。
第一方面,本公开提供了基于无监督学习的思想政治教育领域文献分词方法;
基于无监督学习的思想政治教育领域文献分词方法,包括:
构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;
接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;
基于初始分词结果,计算领域文献构词指标的词频偏差TFD(Trem FrequencyDeviation,TFD);
根据词频偏差TFD,计算排序词频偏差rTFD(ranked Trem Frequency Deviation,rTFD);
利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。
第二方面,本公开还提供了基于无监督学习的思想政治教育领域文献分词系统;
基于无监督学习的思想政治教育领域文献分词系统,包括:
训练模块,其被配置为:构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910959276.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页分类方法及装置
- 下一篇:一种基于知识库和深度学习的实体名称提取方法