[发明专利]一种词条权重计算的方法及装置有效
申请号: | 201710039081.X | 申请日: | 2017-01-19 |
公开(公告)号: | CN106919649B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 王亮;苗艳军 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/953;G06F40/289 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词条 权重 计算 方法 装置 | ||
1.一种词条权重计算的方法,其特征在于,包括:
获取文本;
对所述文本进行切分,得到term列表;
根据预先得到的term与类tf特征的对应关系,提取所述term列表中各term的类tf特征;所述term与类tf特征的对应关系通过统计长尾query获得;
根据预先得到的term与idf特征的对应关系,提取所述term列表中各term的idf特征;所述term与idf特征的对应关系通过搜索日志获得;
利用所述term的类tf特征与所述term的idf特征计算所述term列表中各term的权重;
其中,所述长尾query为由多个term组成的查询语句;所述类tf特征为所述term列表中各term在所述长尾query中的出现频率;所述idf特征为所述term列表中各term在目标文档集中的出现频率。
2.根据权利要求1的方法,其特征在于,所述获取文本的步骤之前,还包括:
从搜索引擎的搜索日志中获取长尾query集;
从所述长尾query集中统计各term的类tf特征,获得各term与类tf特征的对应关系;
根据各term在所述搜索引擎的文档集中出现的频率,计算各term的idf,获得各term与idf的对应关系。
3.根据权利要求2的方法,其特征在于,所述从所述长尾query集中统计各term的类tf特征,获得各term与类tf特征的对应关系的步骤,包括:
对所述长尾query集中每个长尾query进行切分,对切分结果进行过滤,获得所述长尾query集的term切分集合;
统计所述term切分集合中的term出现的次数;
根据所述term切分集合中的term出现的次数确定term的类tf特征,获得各term与类tf特征的对应关系。
4.根据权利要求3的方法,其特征在于,所述根据所述term切分集合中的term出现的次数确定term的类tf特征,获得各term与类tf特征的对应关系的步骤,包括:
将所述term切分集合中的term出现的次数与所述长尾query集中长尾query的个数之比,作为所述term的类tf特征。
5.根据权利要求3的方法,其特征在于,所述根据所述term切分集合中的term出现的次数确定term的类tf特征,获得各term与类tf特征的对应关系的步骤,包括:
将所述term切分集合中的term出现的次数的对数与所述长尾query集中长尾query个数的对数之比,作为所述term的类tf特征。
6.一种词条权重计算的装置,其特征在于,所述装置包括:
文本获取模块,用于获取文本;
获取term列表模块,用于对所述文本进行切分,得到term列表;
提取类tf特征模块,用于根据预先得到的term与类tf特征的对应关系,提取所述term列表中各term的类tf特征;所述term与类tf特征的对应关系通过统计长尾query获得;
提取idf特征模块,用于根据预先得到的term与idf特征的对应关系,提取所述term列表中各term的idf特征;所述term与idf特征的对应关系通过搜索日志获得;
计算term权重模块,用于利用所述term的类tf特征与所述term的idf特征计算所述term列表中各term的权重;
其中,所述长尾query为由多个term组成的查询语句;所述类tf特征为所述term列表中各term在所述长尾query中的出现频率;所述idf特征为所述term列表中各term在目标文档集中的出现频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710039081.X/1.html,转载请声明来源钻瓜专利网。