[发明专利]一种分词词库更新方法及系统有效
申请号: | 201510715638.8 | 申请日: | 2015-10-28 |
公开(公告)号: | CN106649308B | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 杨睛龙;胡正才;周美芳;刘平华;李海平;曲晓园;高宝兵;陈国锐 | 申请(专利权)人: | 卓望数码技术(深圳)有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F40/284 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 李琴 |
地址: | 518057 广东省深圳市南山区高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种分词词库更新系统,包括:日志采集模块、日志分析模块、分词评价模块以及分词校正与过滤模块,其中该分词校正和过滤模块包括构造子模块、切分子模块以及过滤子模块。本发明还提供了对应的方法。实施本发明的分词词库更新系统及方法,基于分词业务日志分析,通过对分词业务系统的分词效果进行评价,提取出分词效果不好的分词输入,根据使用参考概率表的Z分词过滤算法对分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中,不断完善分词词库,解决了分词词库不能适时且适应实际分词应用环境的问题,有效提高分词效果。 | ||
搜索关键词: | 一种 分词 词库 更新 方法 系统 | ||
【主权项】:
一种分词词库更新系统,其特征在于,包括:日志采集模块,用于采集分词业务系统在运行过程中输出的分词业务日志;日志分析模块,用于对所述日志采集模块采集到的所述分词业务日志进行统计分析,并提取相关有效数据;分词评价模块,用于根据评价规则对所述相关有效数据进行评价得到分词效果不好的分词输入;以及分词校正与过滤模块,用于对所述分词评价模块所得到的所述分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓望数码技术(深圳)有限公司,未经卓望数码技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510715638.8/,转载请声明来源钻瓜专利网。