[发明专利]短信文本模版的识别方法在审

专利信息
申请号: 201910949281.8 申请日: 2019-10-08
公开(公告)号: CN110688831A 公开(公告)日: 2020-01-14
发明(设计)人: 元方;林渠策;唐小波;宋争光 申请(专利权)人: 上海创蓝文化传播有限公司
主分类号: G06F40/186 分类号: G06F40/186;G06F16/903
代理公司: 51241 成都方圆聿联专利代理事务所(普通合伙) 代理人: 胡文莉
地址: 201613 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及文本审核技术领域,尤其是一种短信文本模版的识别方法,包括下述步骤:S1.取出需要去重的短信文本;S2.检测短信文本的字符集是否含有网址信息,若字符集中包含网址信息通过正则表达式识别并删除;S3.命名实体识别器识别短信文本中剩余的字符串;S4.删除命名实体器识别出的实体字符集;S5.检测短信文本的字符集是否有标点符号或者特殊字符。本发明不用设置匹配阀值和相似度阀值来判断文本是否属于同一个模版,从而不存在一个固定阀值应用所有文本模版;本发明是对文本字符集的完整比较,先比较字符集大小与再比较文本字符的顺序,所以该发明准确率高;本发明适用于所有通过模版生成的文本的去重功能。
搜索关键词: 字符集 短信文本 文本 模版 命名实体 网址信息 去重 删除 标点符号 正则表达式 模版生成 文本字符 固定阀 匹配阀 识别器 相似度 字符串 检测 准确率 取出 审核 应用
【主权项】:
1.一种短信文本模版的识别方法,其特征在于,包括以下步骤:/nS1.取出需要去重的短信文本;/nS2.检测短信文本的字符集是否含有网址信息,若字符集中包含网址信息通过正则表达式识别并删除,若字符集中不包含网址信息则直接进入S3;/nS3.命名实体识别器识别短信文本中剩余的字符串,识别出实体字符串;/nS4.删除命名实体器识别出的实体字符集;/nS5.检测短信文本的字符集是否有标点符号或者特殊字符,若字符集中包含标点符号或者特殊字符通过正则表达式识别并删除,若字符集中不包含标点符号或者特殊字符则直接进入S6;/nS6.比较处理后的短信文本的字符串长度大小,把字符串长度大小一致的短信文本归类为一个集合;/nS7.比较各集合中的短信文本,如果同集合中的文本完全一致,则只保留一个,删除重复文本。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910949281.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top