[发明专利]一种语义段的转换方法及装置有效
申请号: | 201610839728.2 | 申请日: | 2016-09-21 |
公开(公告)号: | CN106649257B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 张惠亮;赵晓庆;刘胜;吴锋海 | 申请(专利权)人: | 联动优势科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100088 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 转换 方法 装置 | ||
本发明涉及计算机技术领域,尤其涉及一种语义段的转换方法及装置,包括:根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。从而在广告模板库中存储的均为语义段对应的哈希值,比较节约空间;以及在对通知信息进行广告过滤时,将通知信息中语义段对应的哈希值与广告模板库中的哈希值进行比较,效率比较高。
技术领域
本发明涉及计算机技术领域,尤其涉及一种语义段的转换方法及装置。
背景技术
对于现在很多手机、信息提醒类APP和第三方平台的运营商,为了提高用户的使用感受,都会推出类似于卡片式短信、通知提醒类业务等应用,当用户授权读取本机短信和服务推送信息后,会解析短信、APP应用、站内推送等通知信息中的有效内容,并把其内容项显示在手机短信系统或手机应用页面上。另一方面,企业为了更好的推广自己,会在通知信息中出现很多广告,而广告信息对于本条信息中有效特征的提取具有很大的干扰作用。因此,如何对用户手机中的通知短信、推送文本等通知信息去除广告噪声,以便可以更准确的提取通知信息中对用户有意义的特征信息,对于手机开发商、APP开发者、第三方平台是非常重要的。
目前大多数广告过滤方法都是采用预设设置一个广告模板库,其中存储的是被定义为广告信息的语义段,在实际过滤时,若一个通知信息中的一个语义段与广告模板库中的某个语义段具有超过一定程度的相似度,则将该语义段确定为广告信息并过滤掉。
上述方法存在的问题是:首先,由于在广告模板库中存储的是被定义为广告信息的语义段,因此造成要存储的信息量比较大,浪费存储空间;其次,在具体对语义段进行判断时,将语义段与广告模块库中的语义段进行比对,由于是文本比对,效率比较低。
综上所述,现有技术对通知信息进行广告过滤时,存在浪费存储空间及广告过滤效率低的技术问题。
发明内容
本发明提供一种语义段的转换方法及装置,用以对通知信息进行广告过滤时,节约存储空间及提高广告过滤的效率。
一方面,本发明实施例提供一种语义段的转换方法,包括:
根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;
对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;
根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。
可选地,所述每个语义段中的每个词语对应的哈希值为包含预设位数的二进制数值;
根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值,包括:
针对所述语义段中的任意一个词语,将所述词语对应的哈希值中的0替换为-1,得到所述词语对应的第一目标值;根据所述语义段对应的权重值、所述词语对应的权重值及所述第一目标值,得到所述词语对应的第二目标值;
将所述语义段中每个词语对应的第二目标值在对应的位上相加,得到所述语义段对应的目标值;
针对所述语义段对应的目标值中的任意一位,若所述任意一位对应的数值大于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为1;若所述任意一位对应的数值小于或等于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为0。
可选地,根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联动优势科技有限公司,未经联动优势科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610839728.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子病历高质短语抽取方法
- 下一篇:一种智能的问答系统