[发明专利]一种分词词库更新方法及系统有效
申请号: | 201510715638.8 | 申请日: | 2015-10-28 |
公开(公告)号: | CN106649308B | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 杨睛龙;胡正才;周美芳;刘平华;李海平;曲晓园;高宝兵;陈国锐 | 申请(专利权)人: | 卓望数码技术(深圳)有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F40/284 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 李琴 |
地址: | 518057 广东省深圳市南山区高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 词库 更新 方法 系统 | ||
1.一种分词词库更新系统,其特征在于,包括:
日志采集模块,用于采集分词业务系统在运行过程中输出的分词业务日志;
日志分析模块,用于对所述日志采集模块采集到的所述分词业务日志进行统计分析,并提取相关有效数据;
分词评价模块,用于根据评价规则对所述相关有效数据进行评价得到分词效果不好的分词输入;以及
分词校正与过滤模块,用于对所述分词评价模块所得到的所述分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中;
其中,所述分词校正与过滤模块包括:
构造子模块,用于扫描语料数据,并计算每个单词到下一个单词的概率来构造一参考概率表;
切分子模块,用于对所述分词效果不好的分词输入进行全切分得到基础分词词组;
过滤子模块,用于根据使用所述参考概率表的Z分词过滤算法对所述切分子模块全切分后得到的所述基础分词词组进行过滤得到所述新词词组,并将所述新词词组更新到分词词库中;
所述过滤子模块进一步包括:
扫描单元,用于扫描该基础分词词组并获取该基础分词词组中基础分词共有但未包含在该基础分词词组中的前向词列表;
第一判断单元,用于判断该前向词列表的长度是否大于第一变量i,其中,该第一变量i的初始值为0;
第一添加单元,用于在判断该前向词列表的长度大于第一变量i时,从参考概率表中查询该前向词列表中第i个前向词的概率,并在判断该第i个前向词的概率存在或者大于或等于预设的第一阈值时,将该第i个前向词添加到该基础分词词组中;
第一自加单元,用于在判断该第i个前向词的概率不存在或者小于预设的第一阈值时,或者在将该第i个前向词添加到该基础分词词组后,第一变量i自加;
第二扫描单元,用于在判断该前向词列表的长度小于或等于该第一变量i时,扫描该基础分词词组,获取具有前向关系的词组的集合,其中,具有前向关系的词组表示为{A,B},A为第一词元,B为第二词元;
第二判断单元,用于判断该集合的大小是否小于第二变量j,其中,第二变量j的初始值为0;
第二添加单元,在判断该集合的大小小于第二变量j时,取出该集合中第j个词组中的第一词元A和第二词元B,并从参考概率表中查询P(A)和P(AB),并计算P(B|A);在判断P(B|A)小于预设的第二阈值时,判断该第二词元B是否已经存在于分词词库中,若否,则将该第二词元B添加到该基础分词词组;
第二自加单元,用于在判断P(B|A)大于或等于预设的第二阈值时,或者在判断第二词元B已经存在于分词词库中时,或者将第二词元B添加到该基础分词词组后,第二变量j自加;
第三添加单元,用于在判断该集合的大小大于或等于第二变量j时,将该基础分词词组进行排重后得到的新词词组添加到分词词库中。
2.根据权利要求1中所述的分词词库更新系统,其特征在于,所述分词业务系统包括搜索系统,所述相关有效数据包括搜索结果的订购次数或者浏览次数和/或搜索关键词的转换率和/或搜索结果的首页命中比例和/或搜索关键词的召回率和/或分词输入的分词结果;所述评价规则包括搜索关键词的转换率小于第一预设阈值和/或搜索结果个数小于第二预设阈值和/或使用量小于预设阈值和/或分词输入的分词结果大于第三预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓望数码技术(深圳)有限公司,未经卓望数码技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510715638.8/1.html,转载请声明来源钻瓜专利网。