[发明专利]消息识别方法、装置、设备及存储介质在审
申请号: | 202011047114.3 | 申请日: | 2020-09-29 |
公开(公告)号: | CN114330263A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 陈志强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/126;G06F16/33 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消息 识别 方法 装置 设备 存储 介质 | ||
本申请提供了一种消息识别方法、装置、设备及存储介质,属于互联网技术领域。方法包括:对于基于模板生成的消息,可以获取这类模板的指纹样本,也即是能够表示消息中编辑文本内容的多个参考字符串,来与消息中的对应字符串进行匹配,以确定该消息是否属于目标类型。通过采用表示编辑文本内容的字符串之间的匹配,减少了消息识别过程中数据处理的计算量,不需要进行大量的模型计算,且指纹样本的维护代价小,且,这种方式,充分利用了基于消息模板生成的消息具有相似或相同语法结构的特征,匹配准确率高,提高了消息识别的准确率和效率。
技术领域
本申请涉及互联网技术领域,特别涉及一种消息识别方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展和终端功能的多样化,社交类应用提供了一种便于用户之间进行交流的社交平台,在社交平台上可以通过消息交互来达到交流目的。例如,社交平台提供了一种基于模板的消息交互方式,用户可以调用社交平台所提供的固定模板,基于该固定模板所规定的排版以及信息类型等,在固定模板的基础上进行编辑,以便生成待推送的消息。有一些恶意用户会利用这类消息来进行一些恶意行为,例如发广告、进行欺诈等等,对用户造成了不必要的骚扰,还可能会对用户的财产安全造成威胁。
在相关技术中,为了避免对用户造成骚扰或者财产安全的威胁,社交平台的服务器会对待下发的消息内容进行识别,具体识别方法可以包括:将获取到的大量消息作为文本直接输入到文本识别模型中,由该识别模型对文本进行识别,以确定消息是否为恶意消息。
在上述过程中,由于待识别的消息的数量级大,导致服务器在识别过程中的计算量大,需要耗费大量的数据处理资源,且,由于被识别的是消息的完整文本,其中会夹杂很多冗余信息,例如格式类的信息,导致识别的准确率和效率较低。
发明内容
本申请实施例提供了一种消息识别方法、装置、设备及存储介质,提高了消息识别的准确率和效率。所述技术方案如下:
一方面,提供了一种消息识别方法,所述方法包括:
获取第一消息,所述第一消息基于模板生成;
确定指纹样本,所述指纹样本包括基于目标类型的样本消息得到的多个参考字符串,所述多个参考字符串用于表示所述样本消息的编辑文本内容;
获取所述第一消息所包括的多个字符串,所述多个字符串用于表示所述第一消息的编辑文本内容;
对所述多个参考字符串和所述多个字符串进行匹配,得到匹配结果,响应于所述匹配结果符合目标条件,确定所述第一消息属于所述目标类型。
另一方面,提供了一种消息识别装置,所述装置包括:
消息获取模块,用于获取第一消息,所述第一消息基于模板生成;
样本确定模块,用于确定指纹样本,所述指纹样本包括基于目标类型的样本消息得到的多个参考字符串,所述多个参考字符串用于表示样本消息的编辑文本内容;
字符串获取模块,用于获取所述第一消息所包括的多个字符串,所述多个字符串用于表示所述第一消息的编辑文本内容;
匹配模块,用于对所述多个参考字符串和所述多个字符串进行匹配,得到匹配结果;
类型确定模块,用于响应于所述匹配结果符合目标条件,确定所述第一消息属于所述目标类型。
在一种可选的实现方式中,所述匹配结果符合目标条件是指:
匹配成功的参考字符串的数量大于或等于目标数量;
匹配成功的参考字符串的数量占所述多个参考字符串的数量的比例大于或等于目标比例。
在一种可选的实现方式中,所述装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011047114.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体结构及其形成方法
- 下一篇:用于茯苓加工的生物质燃烧锅炉