[发明专利]短信文本模版的识别方法在审
申请号: | 201910949281.8 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110688831A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 元方;林渠策;唐小波;宋争光 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F16/903 |
代理公司: | 51241 成都方圆聿联专利代理事务所(普通合伙) | 代理人: | 胡文莉 |
地址: | 201613 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符集 短信文本 文本 模版 命名实体 网址信息 去重 删除 标点符号 正则表达式 模版生成 文本字符 固定阀 匹配阀 识别器 相似度 字符串 检测 准确率 取出 审核 应用 | ||
本发明涉及文本审核技术领域,尤其是一种短信文本模版的识别方法,包括下述步骤:S1.取出需要去重的短信文本;S2.检测短信文本的字符集是否含有网址信息,若字符集中包含网址信息通过正则表达式识别并删除;S3.命名实体识别器识别短信文本中剩余的字符串;S4.删除命名实体器识别出的实体字符集;S5.检测短信文本的字符集是否有标点符号或者特殊字符。本发明不用设置匹配阀值和相似度阀值来判断文本是否属于同一个模版,从而不存在一个固定阀值应用所有文本模版;本发明是对文本字符集的完整比较,先比较字符集大小与再比较文本字符的顺序,所以该发明准确率高;本发明适用于所有通过模版生成的文本的去重功能。
技术领域
本发明涉及文本审核技术领域,尤其是一种短信文本模版的识别方法。
背景技术
一般情况下,如果存在大量重复的文档有诸多不便,比如新闻博文的抄袭,到处蔓延的广告,垃圾信息的批量发送等,这些情况会给网络造成负担,也会给存储带来额外开销。针对文本审核工作的人来说,对同一份文本模版需要阅读多次,进而产生时间消耗与增加心理疲劳。因此消除重复文本,正式为这目的而生。
最符合人类直观的办法,是对文本逐一按字比较。这种方式覆盖了非常具体的对比,所以准确率也高。面对小数量文本的时候,比较次数可以接受,耗时也可控;但是针对上亿级别的数量级文档的时候,对应的时间消耗成本是无法接受的。
现有文本去重的技术,核心技术是计算文本相似度。文本领域计算相似度的方法包括基于字符串的(string-based)、基于预料集的(corpus-based)和基于知识的(knowledg-based)。
其中基于字符串的包括下述方式:
1.LCS最长公共子字符串方式:比较两文本中不需要连续出现但一定是相同字符出现且顺序一致,越长则越相似。这种方法去除重复的时候,只能通过一个阀值来判断是否为重复内容。比如两个100个字的文本中,如果出现连续99个字符相同,则认为两文本一样。这个99就是阀值。该算法的缺陷有两点:一个固定的阀值无法适用所有文本,可能有些文本是99,有些是80,等等;阀值之外的字符,是两文本中不相同的字符,如果这些字符很重要,比如正好是否定词,则导致两个文本意思完全相反,这种情况如果只考虑CLS的阀值,进行去重会出错。
2.Damerau-Levenshtein方式:通过对文本中字符进行增删改的操作,使文本1变成文本2的操作次数,这个也称为编辑距离,该距离越小则两文本越相似。这种方式不要求字符是连续一样,但也需要一个阀值,当小于该值则认为是文本为重复进而去除重复,也有上述阀值的缺陷问题。
3.Jaro方式:这个引入窗口,窗口大小为设置的阀值。在阀值内两字符相等则匹配上两字符,再进行相似度计算,最后的值越大说明两文本越相似。这个相似值超过阀值则认为重复进而删去重复。除上述的阀值缺陷外,这里引入窗口,忽略了字符的局部顺序,对于有模版的文本没办法检测。因为有模版的文本,模版部分是完全一致。
4.Jaro-Winkler方式:在Jaro方式的基础上修改,更加突出了前缀相同的重要性。如果两个字符串在前几个字符都相同的情况下,它们会获得更高的相似性,依然存在Jaro的三个缺陷。
5.Needleman-Wunsch方式:是一种基于LCS结合动态规划全局匹配的方式。全局意思为单字符与其余文本的所有字符进行匹配。缺陷是耗内存,同时也有上述阀值的缺陷问题。
6.Smith-Waterman方式:类似与Needleman-wunsch方式,不过它搜索的是局部信息匹配,也就是只看文本中一部分。缺陷是耗内存,同时也有上述阀值的缺陷问题。
7.N-gram方式:把字符拼成词,然后匹配。其中,N表示字符的数量。这里也存在上述阀值的缺陷问题。
除此之外还有jaccard距离,heming距离,simhash等的计算方式,都存在阀值缺陷。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910949281.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:征信模板的转换方法及装置
- 下一篇:一种评论生成方法、装置、设备及存储介质