[发明专利]一种基于查询日志的新词自动查找系统和方法无效
申请号: | 201210274901.0 | 申请日: | 2012-08-03 |
公开(公告)号: | CN102831194A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 张爱琦;崔世起;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 查询 日志 新词 自动 查找 系统 方法 | ||
1. 一种基于查询日志的新词自动查找系统,其特征在于,主要包括查询日志预处理模块、新词发现模块和新词生成模块;其中:
查询日志预处理模块,用于根据设置的定时新词发现的时间,定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次,并对查询串进行分词处理,保存每个n-gram串及相应的频次;
新词发现模块,根据所述查询串的分词结果,统计相同n-gram串的频次;根据单个词的频次和n-gram串的频次计算n-gram词串的共现率,并选取共现率较高的词串作为候选新词集合;归并候选新词集合中相近频次的父子串;
新词生成模块,对候选新词集合应用过滤和剪枝策略,去除候选新词集合中的垃圾串,得到最终的新词集合。
2.将最终新词集合导入分词词库中,从而实现增量式新词发现。
3.根据权利要求1所述的基于查询日志的新词自动查找系统,其特征在于,所述过滤和剪枝策略包括基本语言学构词规则策略和成词模式过滤策略。
4.根据权利要求2所述的基于查询日志的新词自动查找系统,其特征在于,所述基本语言学构词规则策略,包括字数过滤规则,纯数字字母串和日期过滤规则,常见辅助词过滤规则和常见查询搭配词过滤规则。
5.根据权利要求2所述的基于查询日志的新词自动查找系统,其特征在于,所述成词模式过滤策略,包括叠词模式过滤和四字词的2-2模式剪枝。
6.一种基于查询日志的新词自动查找方法,其特征在于,该方法包括:
A、查询串的分词处理步骤:选取一段时间的查询日志,使用查询串及查询频次,删除该查询日志中的其他信息,并使用分词工具对查询串进行切分;
B、新词发现的实现步骤,包括词串频率的统计、词串共现率计算以及父子串归并;
C、新词过滤的步骤,包括对生成的候选新词集合进行过滤,去除垃圾串。
7.根据权利要求5所述的基于查询日志的新词自动查找方法,其特征在于,步骤A所述使用分词工具对查询串进行切分,对于一个查询串,分词切分时会返回多个粒度的结果;采用分词的最大粒度结果,以保证词串中任意词的组合均不为已经存在的词。
8.根据权利要求6所述的基于查询日志的新词自动查找方法,其特征在于,步骤A进一步包括:按照传统语言学概念,将词语根据成词字数分为单元词、二元词、三元词、四元词和多元词,并通过扩展该语言学概念,根据数据串进行分词处理后成词的词数,将所述词串分为2-gram、3-gram、…、n-gram;词串中的每个词称为token,则n-gram的格式为:[token-1][空格][token-2]…[token-n]。
9.根据权利要求5、6或7所述的基于查询日志的新词自动查找方法,其特征在于:
词串频率统计,具体为:统计1-gram、2-gram、3-gram、4-gram和5-gram的词串的频次,并将相同词串的词频进行累加,输出为n-gram及其词频,表示为<n-gram,tf(n-gram)>;其中,1-gram的词是已存在的词,不需进入候选新词集合,但在计算词串共现率时需要使用,因此仍需统计该类词串的词频并单独保存起来;
词串共现率计算,具体为:使用词串中所有词共同出现的概率来表示其组合成词的可能性,选取共现率较高的词串作为候选新词集合;所述共现率根据每个词的词频和整个词串的词频计算得到,以解决基于统计的方法中单纯根据单个词的词频筛选时,由于数据稀疏而导致的漏识别低频新词的问题;
父子串归并,具体为:遍历获取到的所有n-gram串,如果两个词串存在父子包含关系,且两者的查询频率相同或相近,则从候选新词集合中删除子串。
10.根据权利要求5所述的基于查询日志的新词自动查找方法,其特征在于,步骤C所述新词过滤策略,具体为:根据语言学构词规则统计及成词模式研究获得垃圾串过滤规则,主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见查询词过滤枝规则及叠词模式过滤规则、2-2模式剪枝规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210274901.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟影院交互系统及方法
- 下一篇:改进型泵