[发明专利]一种即时通信中识别广告消息的装置和方法在审
申请号: | 201310537715.6 | 申请日: | 2013-11-04 |
公开(公告)号: | CN103605690A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 孙林;陈培军;秦吉胜 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 即时 通信 识别 广告 消息 装置 方法 | ||
技术领域
本发明涉及计算机网络领域,具体涉及一种即时通信中识别广告消息的装置和方法。
背景技术
随着互联网的发展,各种网络应用,尤其是即时通信工具,成为人们获取信息、交流信息的重要渠道。然而在即时通信的即时消息中,存在相当量的广告内容,给用户带来了诸多不便,同时也降低了即时通信的质量。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种即时通信中识别广告消息的装置和相应的一种即时通信中识别广告消息的方法。
依据本发明的一个方面,提供了一种即时通信中识别广告消息的装置,包括:文本获取单元,适于检测即时通信客户端发送的即时消息中的文本字段;特征向量提取单元,适于提取所述文本字段中包含的一个或多个特征向量;识别单元,适于根据所述特征向量,识别与广告消息匹配的即时消息。
可选地,该装置还包括:屏蔽单元,适于在识别单元识别出与广告消息匹配的即时消息时,对与广告消息匹配的即时消息进行屏蔽处理。
可选地,该装置还包括:管理单元,适于在识别单元识别出与广告消息匹配的即时消息时,标识所述与广告消息匹配的即时消息及发送所述与广告消息匹配的即时消息的客户端,并在预定时间内不转发由该客户端所发送的即时消息。
可选地,所述识别单元,适于根据所述特征向量判断即时消息是否与广告特征数据库中的记录匹配。
可选地,所述识别单元,适于对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;所述识别单元,适于判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述即时消息与广告特征数据库中的记录匹配,否则不匹配。
可选地,所述识别单元,适于对所述特征向量中的每个特征,从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
可选地,该装置进一步包括广告特征数据库更新单元,所述广告特征数据库更新单元,适于在确定所述即时消息与广告特征数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则将广告特征数据库中该特征的权值加1。
可选地,所述识别单元,适于在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述即时消息与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
可选地,所述特征向量提取单元包括:中文文本获取子单元,适于对文本字段进行文本处理以获取中文文本;拼音文本获取子单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;指纹获取子单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
可选地,所述中文文本获取子单元,适于对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符;将拼音转化为汉字;以及将保留常用的汉字。
可选地,所述中文文本获取子单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将文本字段中的内容转换为规则字符;所述中文文本获取子单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取子单元,适于使用GBK编码表中的常用汉字对文本字段进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。
可选地,所述拼音文本获取子单元,适于使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
可选地,所述指纹获取子单元,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
依据本发明的另一个方面,提供了一种即时通信中识别广告消息的方法,包括:检测即时通信客户端发送的即时消息中的文本字段;提取所述文本字段中包含的一个或多个特征向量;根据所述特征向量,识别与广告消息匹配的即时消息。
可选地,该方法还包括:当识别出与广告消息匹配的即时消息时,对与广告消息匹配的即时消息进行屏蔽处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310537715.6/2.html,转载请声明来源钻瓜专利网。