[发明专利]一种基于编辑距离的负面信息模式模糊匹配方法有效
申请号: | 201610395661.8 | 申请日: | 2016-06-07 |
公开(公告)号: | CN106168954B | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 张鑫;李越洋;李沛;丁兆云;王晖;蒋薇薇;程佳军;乔凤才;何速;李韬伟 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/33;G06Q50/00 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 谈杰 |
地址: | 410073 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于编辑距离的负面信息模式模糊匹配方法,包括:通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离;通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离;采用将汉字距离与拼音距离相结合的模式模糊匹配方法,来进行负面信息检测,在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离,当值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。通过本发明的技术方案,能够有效的提高模式匹配的查全率,同时,在保证查准率的情况下提高模式匹配的F‑score。 | ||
搜索关键词: | 一种 基于 编辑 距离 负面 信息 模式 模糊 匹配 方法 | ||
【主权项】:
1.一种基于编辑距离的负面信息模式模糊匹配方法,其特征在于,包括:通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离;通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离;采用将汉字距离与拼音距离相结合的模式模糊匹配方法,来进行负面信息检测,在模式匹配的过程中先计算推文中所有的词语与触发词Trigger类关键词的距离Dist,当存在Dist的值小于设定的编辑距离阈值时再与实体词Entity类关键词进行匹配;所述基于汉字的编辑距离计算过程中,只考虑Trigger表中的词语与待匹配词语之间的距离,Trigger表中的词语为模式串,待匹配词语为目标串,目标串按模式串长度进行连续字符串匹配,汉字的编辑距离Dist1计算公式为:
其中,x为目标串,tij表示第i类负面信息的第j个Trigger词,|tij∩x|为目标串与模式串集合的交集,实际意义为目标串与模式串的最大匹配长度,|tij|为模式串的长度;所述基于拼音的编辑距离计算过程中,通过比较待匹配的词语的拼音与Trigger表中的词语的拼音,计算编辑距离,拼音的编辑距离Dist2计算公式为:
其中,
x′为目标串,t′mk表示第m类负面信息的第k个Trigger词,|t′mk∩x′|为模式串与目标串集合的交集,实际意义为模式串和目标串的最大匹配长度,|t′mk∪x′|为模式串与目标串集合的并集,实际意义是模式串与目标串中包含所有字符的最小长度和,Dif(||x′|‑|t′mk||)为模式串与目标串的字符长度差,|β|为键盘中两字母的距离;在标准的键盘手势使用规则中,根据同一个手指负责的字母之间的距离更小的原则,将第二行和第三行的字母向左靠齐,同时对右边的位置进行填充处理,定义β的取值公式如下:
在考虑键盘距离的影响不会弱化其他距离的作用情况下,得到:
键盘中任意两个字母之间的距离计算公式为:
得到键盘中两个字母的最大距离
进而得到:![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610395661.8/,转载请声明来源钻瓜专利网。
- 上一篇:面向弱关系社交网络的博文推荐方法
- 下一篇:一种网络页面缓存方法及设备