[发明专利]短信文本模版的识别方法在审
申请号: | 201910949281.8 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110688831A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 元方;林渠策;唐小波;宋争光 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F16/903 |
代理公司: | 51241 成都方圆聿联专利代理事务所(普通合伙) | 代理人: | 胡文莉 |
地址: | 201613 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及文本审核技术领域,尤其是一种短信文本模版的识别方法,包括下述步骤:S1.取出需要去重的短信文本;S2.检测短信文本的字符集是否含有网址信息,若字符集中包含网址信息通过正则表达式识别并删除;S3.命名实体识别器识别短信文本中剩余的字符串;S4.删除命名实体器识别出的实体字符集;S5.检测短信文本的字符集是否有标点符号或者特殊字符。本发明不用设置匹配阀值和相似度阀值来判断文本是否属于同一个模版,从而不存在一个固定阀值应用所有文本模版;本发明是对文本字符集的完整比较,先比较字符集大小与再比较文本字符的顺序,所以该发明准确率高;本发明适用于所有通过模版生成的文本的去重功能。 | ||
搜索关键词: | 字符集 短信文本 文本 模版 命名实体 网址信息 去重 删除 标点符号 正则表达式 模版生成 文本字符 固定阀 匹配阀 识别器 相似度 字符串 检测 准确率 取出 审核 应用 | ||
【主权项】:
1.一种短信文本模版的识别方法,其特征在于,包括以下步骤:/nS1.取出需要去重的短信文本;/nS2.检测短信文本的字符集是否含有网址信息,若字符集中包含网址信息通过正则表达式识别并删除,若字符集中不包含网址信息则直接进入S3;/nS3.命名实体识别器识别短信文本中剩余的字符串,识别出实体字符串;/nS4.删除命名实体器识别出的实体字符集;/nS5.检测短信文本的字符集是否有标点符号或者特殊字符,若字符集中包含标点符号或者特殊字符通过正则表达式识别并删除,若字符集中不包含标点符号或者特殊字符则直接进入S6;/nS6.比较处理后的短信文本的字符串长度大小,把字符串长度大小一致的短信文本归类为一个集合;/nS7.比较各集合中的短信文本,如果同集合中的文本完全一致,则只保留一个,删除重复文本。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910949281.8/,转载请声明来源钻瓜专利网。
- 上一篇:征信模板的转换方法及装置
- 下一篇:一种评论生成方法、装置、设备及存储介质