[发明专利]基于无监督学习的思想政治教育领域文献分词方法及系统在审

专利信息
申请号: 201910959276.5 申请日: 2019-10-10
公开(公告)号: CN110705291A 公开(公告)日: 2020-01-17
发明(设计)人: 杨星海;臧文经;宋佳惠;刘子钊;张玉璘 申请(专利权)人: 青岛科技大学
主分类号: G06F40/289 分类号: G06F40/289
代理公司: 37221 济南圣达知识产权代理有限公司 代理人: 黄海丽
地址: 266042*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 本公开公开了基于无监督学习的思想政治教育领域文献分词方法及系统,包括:构建n‑gram语言模型,利用预先构建的训练集对n‑gram语言模型进行训练,生成字级n‑gram语言模型;接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n‑gram语言模型对输入的待分词文本进行分词并输出初始分词结果;基于初始分词结果,计算领域文献构词指标的词频偏差TFD;根据词频偏差TFD,计算排序词频偏差rTFD;利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。
搜索关键词: 分词结果 分词 词频 语言模型 思想政治教育 构建 排序 文本 无监督学习 输出 词组 维特比 训练集 构词 合并 优化
【主权项】:
1.基于无监督学习的思想政治教育领域文献分词方法,其特征是,包括:/n构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;/n接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;/n基于初始分词结果,计算领域文献构词指标的词频偏差TFD;/n根据词频偏差TFD,计算排序词频偏差rTFD;/n利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910959276.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top