[发明专利]关键词提取方法及装置有效
申请号: | 201610409544.2 | 申请日: | 2016-06-12 |
公开(公告)号: | CN106649422B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 徐云恒;冯文仲;熊胜;吴勤华;杨晶蕾 | 申请(专利权)人: | 中国移动通信集团湖北有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;张振伟 |
地址: | 430040 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 | ||
本发明公开一种关键词提取方法及装置;方法包括:解析待分析短信,得到各待分析短信所属的类别,从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,解析所提取的候选关键词得到相应候选关键词的特征,从所提取的候选关键词中提取出与预设特征匹配的目标关键词。采用本发明实施例,实现了对待分析短信关键词的自动提取,减少了对待分析短信关键词提取的时间,节省了人工成本。
技术领域
本发明涉及计算机领域的数据处理技术,尤其涉及一种关键词提取方法及装置。
背景技术
随着实时通信需求的与日俱增,垃圾短信、非法消息日益泛滥,已经严重影响到人们正常生活。为此,各运营商积极采取措施,对通信消息进行实时监控,尽可能限制垃圾短信的下发,提高用户服务质量。垃圾短信之所以对用户造成不良影响,大多是因为其内容非法,因此对短信内容进行监控是一种极为有效的手段,而关键词监控策略的制定显得尤为重要,关键词选择的不准确既可能造成对合法消息的拦截,又可能造成对非法消息的漏拦,大大降低通信服务质量。
现有技术中,短信监控系统配置的关键词提取一般由人工提取而成,但是,由于人工提取关键词策略对人员素质要求很高,对于不熟悉短信监控业务的人员很难提取出高质量的关键词;另外,由于疑似垃圾短信量很大,而且呈上涨趋势,如此,使用人工方式提取关键词,不仅大大增加了人工成本,而且耗时较多。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种关键词提取方法及装置,能实现对疑似垃圾短信的关键词自动提取,减少了关键词提取成本,节省了关键词提取时间。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种关键词提取方法,方法包括:
解析待分析短信,得到各所述待分析短信所属的类别;
从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键 词;
解析所提取的候选关键词得到相应候选关键词的特征;
从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
在上述方案中,所述解析待分析短信,得到各所述待分析短信所属的类别,包括:
根据第一预置相似度阈值对所述待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;
根据所述满足第二预置相似度阈值的待分析短信的字符串特征,获取所述满足第二预置相似度阈值的待分析短信的相似度;
根据所述满足第二预置相似度阈值的待分析短信的相似度,得到各所述待分析短信所属的类别。
在上述方案中,所述从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,包括:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出所述同一类别的待分析短信的词序列;
确定所述同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的所述候选关键词;其中,所述预设词库包括预设分词词库和预设有效词词库。
在上述方案中,从所提取的候选关键词中提取出与预设特征匹配的目标关键词,包括:
根据所述候选关键词的词频统计特性,获取所述候选关键词中最高词频关键词和所述候选关键词中词频由高到低选取的次高频关键词集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团湖北有限公司,未经中国移动通信集团湖北有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610409544.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人机对话平台
- 下一篇:一种基于内容相关度的检索模型计算方法