[发明专利]网络文本处理方法及装置有效
申请号: | 201410564652.8 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104317883B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 何鑫;侯明午 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 李志刚,吴贵明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 文本 处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种网络文本处理方法及装置。
背景技术
在对网络文本的处理中,例如,对网络文本中的情感词汇的处理,文本词汇的提取是非常关键的一个环节。通常提取文本词汇的方法是载入预设词汇集合(词典),将文本与词典中的词汇逐一进行匹配,并记录匹配到的词汇,用于后续进行词汇分析。在匹配过程中,若词汇在文本中出现,则实例化该词汇对象,记录该词汇的权重,通过一系列包括但不限于否定、程度等逻辑的修正,得到该词汇的得分,最后对所有匹配到的词汇进行统计意义上的汇总。例如,对某网站访客评价的网络文本进行情感词汇的分析,有助于网站对评价对象做出情感倾向性判断。
但是在上述文本和预设词汇集合的匹配过程中存在重复匹配的问题。重复匹配,指一个文章中同一个位置的文本词汇被多个不同的预设词汇匹配到,造成实例化的词汇对象指代重复。例如,如果预设情感词汇集合(情感词典)中同时存在“高高兴兴”和“高兴”两个预设情感词汇,那么当文本中出现“高高兴兴”时,将同时提取出两个情感词汇元素,即“高高兴兴”和“高兴”,造成重复匹配。
现有的进行词汇匹配的方式主要有两种:第一种方法是通过遍历预设词汇集合,直接对网络文本进行匹配,判断文本中是否包含预设词汇集合中的词汇,如果有则记录该词汇;第二种方法,首先对文本进行切分,产生多个切分词,通过与预设词汇集合比对,判断每一个切分词是否为预设词汇集合中的词汇,如果是则记录该词汇。第一种方法的特点是执行效率较高,时间复杂度为O(n),是线性的,但是可能发生重复匹配现象;第二种方法匹配时采用的方式不再是原有的包含查询,而是切分词与预设词汇集合中词汇的完全匹配查询,因此能够有效避免重复匹配的发生,但是该方法需要对切分词进行遍历,执行效率较低,时间复杂度为O(m*n),是非线性的,同时,匹配结果依赖于分词系统的分词结果,中文分词效果的好坏会直接对文本中词汇的提取造成影响。
针对相关技术在进行网络文本处理过程中不能兼顾避免文本词汇重复匹配和提高文本词汇匹配效率的问题,目前尚未提出有效的解决方案。
发明内容
针对现有的对网络文本进行处理过程中不能兼顾避免文本词汇重复匹配和提高文本词汇匹配效率的问题,为此,本发明的主要目的在于提供一种网络文本处理方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网络文本处理方法。该方法包括:获取待分析的网络文本,其中,网络文本包括多个词汇,多个词汇中至少有一个词汇包括另一个词汇;获取预设词汇集合,其中,预设词汇集合包含多个预设词汇,多个预设词汇包括第一预设词汇和第二预设词汇,第一预设词汇的长度大于第二预设词汇的长度;按照多个预设词汇的长度由长到短的顺序,依次判断多个预设词汇是否出现在网络文本中,其中,依次判断多个预设词汇是否出现在网络文本中包括:判断第一预设词汇是否出现在网络文本中,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中与第一预设词汇相同的词汇;获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。
进一步地,按照以下方法对多个预设词汇按词汇长度由长到短的顺序进行排序:获取多个预设词汇的首字母;按照首字母的顺序对多个预设词汇进行第一次排序;计算多个预设词汇的长度;在第一次排序的基础上,按照词汇长度由长到短的顺序对多个预设词汇进行再次排序。
进一步地,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中与第一预设词汇相同的词汇包括:如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网络文本中之前,将网络文本中与第一预设词汇相同的词汇替换为非文字符号。
进一步地,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中与第一预设词汇相同的词汇包括:如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网络文本中之前,记录网络文本中与第一预设词汇相同的词汇在网络文本中的位置,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中位于第一预设词汇位置处的词汇。
进一步地,获取网络文本中与第一预设词汇和第二预设词汇相同的词汇之后,该方法还包括:将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化;获取实例化的词汇的权重;对实例化的词汇进行逻辑修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410564652.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通过新一代测序进行基因分型
- 下一篇:通过由酶催化的合成生产聚酯的方法