[发明专利]关键词列表维护方法及系统在审
申请号: | 201510126006.8 | 申请日: | 2015-03-20 |
公开(公告)号: | CN104765784A | 公开(公告)日: | 2015-07-08 |
发明(设计)人: | 刘洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 列表 维护 方法 系统 | ||
1.一种关键词列表维护方法,其特征在于,包括:
获取邮件内容;
确定所述邮件内容中的分词;
根据确定出的各分词的属性,从各分词中确定出关键词;
更新所述关键词至关键词列表。
2.如权利要求1所述的方法,其特征在于,根据确定出的各分词的属性,从各分词中确定出关键词,具体包括:
针对每个分词,统计该分词的出现次数;
若该分词的出现次数异常,则确定该分词为关键词。
3.如权利要求2所述的方法,其特征在于,统计该分词的出现次数,具体包括:
根据预设的时间间隔,统计该分词在所述时间间隔内的出现次数;
该分词的出现次数异常的判定方法,具体包括:
若该分词在所述时间间隔内的出现次数超过设定的第一阈值,则确定所述该分词的出现次数异常;或者
若该分词在所述时间间隔内的出现次数与在上一个时间间隔内的出现次数的差值或增长率超过设定的第二阈值,则确定该分词的出现次数出现异常。
4.如权利要求1-3中任意一项所述的方法,其特征在于,在更新所述关键词至关键词列表之前,所述方法还包括:
通过对所述关键词进行语义分析,验证所述关键词符合预设异常关键词规定。
5.如权利要求1-3中任意一项所述的方法,其特征在于,在确定所述邮件内容中的分词之前,所述方法还包括:
去除所述邮件内容中的属性标签;
将所述邮件内容中预设的第一指定类型的字符转换为对应的第二指定类型的字符;
去除所述邮件内容中的干扰字符,并合并字符。
6.一种关键词列表维护系统,其特征在于,包括:
获取模块,用于获取邮件内容;
提取模块,用于确定所述邮件内容中的分词;
分析模块,用于根据确定出的各分词的属性,从各分词中确定出关键词;
更新模块;用于更新所述关键词至关键词列表。
7.如权利要求6所述的系统,其特征在于,所述分析模块具体用于,针对每个分词,统计该分词的出现次数;若该分词的出现次数异常,则确定该分词为关键词。
8.如权利要求7所述的系统,其特征在于,所述分析模块具体用于,根据预设的时间间隔,统计该分词在所述时间间隔内的出现次数;
若该分词在所述时间间隔内的出现次数超过设定的第一阈值,则确定所述该分词的出现次数异常;或者
若该分词在所述时间间隔内的出现次数与在上一个时间间隔内的出现次数的差值或增长率超过设定的第二阈值,则确定该分词的出现次数出现异常。
9.如权利要求6-8中任意一项所述的系统,其特征在于,所述系统还包括:
验证模块,用于在更新模块更新所述关键词至关键词列表之前,通过对所述关键词进行语义分析,验证所述关键词符合预设异常关键词规定。
10.如权利要求6-8中任意一项所述的系统,其特征在于,所述系统还包括:
预处理模块,用于去除所述邮件内容中的属性标签;将所述邮件内容中预设的第一指定类型的字符转换为对应的第二指定类型的字符;去除所述邮件内容中的干扰字符,并合并字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510126006.8/1.html,转载请声明来源钻瓜专利网。