[发明专利]短信文本模版的识别方法在审
申请号: | 201910949281.8 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110688831A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 元方;林渠策;唐小波;宋争光 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F16/903 |
代理公司: | 51241 成都方圆聿联专利代理事务所(普通合伙) | 代理人: | 胡文莉 |
地址: | 201613 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符集 短信文本 文本 模版 命名实体 网址信息 去重 删除 标点符号 正则表达式 模版生成 文本字符 固定阀 匹配阀 识别器 相似度 字符串 检测 准确率 取出 审核 应用 | ||
1.一种短信文本模版的识别方法,其特征在于,包括以下步骤:
S1.取出需要去重的短信文本;
S2.检测短信文本的字符集是否含有网址信息,若字符集中包含网址信息通过正则表达式识别并删除,若字符集中不包含网址信息则直接进入S3;
S3.命名实体识别器识别短信文本中剩余的字符串,识别出实体字符串;
S4.删除命名实体器识别出的实体字符集;
S5.检测短信文本的字符集是否有标点符号或者特殊字符,若字符集中包含标点符号或者特殊字符通过正则表达式识别并删除,若字符集中不包含标点符号或者特殊字符则直接进入S6;
S6.比较处理后的短信文本的字符串长度大小,把字符串长度大小一致的短信文本归类为一个集合;
S7.比较各集合中的短信文本,如果同集合中的文本完全一致,则只保留一个,删除重复文本。
2.根据权利要求1所述的一种短信文本模版的识别方法,其特征在于:S1所述的具体步骤为取出所有基于某个平台发送的短信数据,包含所有经过固定模版的群发短信文本。
3.根据权利要求2所述的一种短信文本模版的识别方法,其特征在于:S2中检测短信文本的字符集是否含有网址信息的正则表达式具体如下:url_pattern=re.compile(r'[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?')。
4.根据权利要求3所述的一种短信文本模版的识别方法,其特征在于:S3所述的实体字符串包括昵称、用户名、密码、时间、地点、金额和优惠码的任意组合。
5.根据权利要求1至4任何一项所述的一种短信文本模版的识别方法,其特征在于:S3的具体步骤如下:S31.从短信文本中找出定义好的实体词;S32.用特殊符号标识出实体,把这种标识后的文本当作样本进行模型的训练;S33.设计深度学习模型Bi-LSTM+RCF;S34.把步骤S32中的样本数据喂给深度学习模型进行训练;S35.用训练好的深度模型对短信文本进行检测,可自动识别出命名实体。
6.根据权利要求5所述的一种短信文本模版的识别方法,其特征在于:S5所述的特殊字符包括表情符号。
7.根据权利要求5所述的一种短信文本模版的识别方法,其特征在于:S7的具体步骤如下:判断集合中短信文本是否一致,需要进行文本两两对比,直到遍历完集合中所有文件,如果两文本字符完全一样,则一致;否则判断为不一致。
8.根据权利要求7所述的一种短信文本模版的识别方法,其特征在于:S7的具体步骤如下:两文档对比的方法采用基于逐字比较的LCS算法。
9.根据权利要求7所述的一种短信文本模版的识别方法,其特征在于:S7的具体步骤如下:使用simhash算法,先simhash计算所有文档,再比较两两之间的simhash距离,若距离为0则,则判断两文档完全一样。
10.根据权利要求1所述的一种短信文本模版的识别方法,其特征在于:S5中使用的正则表达式具体如下:
text=re.sub(u([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a]),,text)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910949281.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:征信模板的转换方法及装置
- 下一篇:一种评论生成方法、装置、设备及存储介质