[发明专利]一种文本处理方法、装置以及相关设备在审
申请号: | 201910304358.6 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110162624A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 唐亚腾 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标内容 属性参数 目标文本 安全类型 目标主题 文本处理 文本 参数组合 多个单位 多个目标 获取目标 内容属性 内容信息 序列识别 主题信息 | ||
本发明实施例公开了一种文本处理方法、装置以及相关设备,方法包括:获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。采用本发明,可以提高识别文本安全类型的效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法、装置以及相关设备。
背景技术
随着通信信息技术的迅速发展,网络信息安全问题日益突出,特别是互联网上色情、暴力、低俗等不良信息的传播,严重破坏社会风气,极大地影响广大青少年的健康成长。数据统计,互联网上的色情文章已经超过2亿篇,由于大多数色情文章都可以随意访问,因此识别出互联网中的色情文章具有重要的社会价值。
现有的识别互联网上的色情文章主要是通过人工审核,即由人工阅读文章并人工自主判断该篇文章是否为色情文章,进而根据人工识别结果确定在互联网上删除该篇文章或者保留该篇文章。
人工识别一篇文章是否为色情文章需要经历人工阅读、理解,判别过程,会耗费大量的时间,造成对色情文章的识别效率低下。
发明内容
本发明实施例提供一种文本处理方法、装置以及相关设备,可以提高识别文本安全类型的效率。
本发明实施例一方面提供了一种文本处理方法,包括:
获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;
根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
其中,所述主题信息包括标题信息和封面图像;
所述从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数,包括:
根据所述标题信息所包含的字符,生成标题关键词信息;
获取所述目标文本所属的消息分发群组对应的质量属性参数;
识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数;
识别所述标题信息的文本安全参数;
将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
其中,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
获取标题关键词字典,并创建关键词数组;所述标题关键词字典包括多个标题关键词;
从所述多个标题关键词中选择目标标题关键词,并确定所述目标标题关键词在所述标题关键词字典中的位置信息;
若所述目标标题关键词存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第一数值;
若所述目标标题关键词不存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第二数值;
当所有的标题关键词均被确定为所述目标标题关键词时,将填充后的关键词数组作为所述标题关键词信息。
其中,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910304358.6/2.html,转载请声明来源钻瓜专利网。