[发明专利]网络文本处理方法及装置有效
申请号: | 201410564652.8 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104317883B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 何鑫;侯明午 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 李志刚,吴贵明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网络文本处理方法及装置。该网络文本处理方法包括获取待分析的网络文本;获取预设词汇集合;按照多个预设词汇的长度由长到短的顺序,依次判断多个预设词汇是否出现在网络文本中,其中,依次判断多个预设词汇是否出现在网络文本中包括判断第一预设词汇是否出现在网络文本中,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中与第一预设词汇相同的词汇;获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。通过本发明,在网络文本处理过程中有效避免了文本词汇重复匹配问题,并且提高了文本词汇的匹配效率。 | ||
搜索关键词: | 网络 文本 处理 方法 装置 | ||
【主权项】:
一种网络文本处理方法,其特征在于,包括:获取待分析的网络文本,其中,所述网络文本包括多个词汇,所述多个词汇中至少有一个词汇包括另一个词汇;获取预设词汇集合,其中,所述预设词汇集合包含多个预设词汇,所述多个预设词汇包括第一预设词汇和第二预设词汇,所述第一预设词汇的长度大于所述第二预设词汇的长度;按照所述多个预设词汇的长度由长到短的顺序,依次判断所述多个预设词汇是否出现在所述网络文本中,其中,依次判断所述多个预设词汇是否出现在所述网络文本中包括:判断所述第一预设词汇是否出现在所述网络文本中,如果所述第一预设词汇出现在所述网络文本中,在判断所述第二预设词汇是否出现在所述网络文本中时,忽略所述网络文本中与所述第一预设词汇相同的词汇;以及获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410564652.8/,转载请声明来源钻瓜专利网。
- 上一篇:通过新一代测序进行基因分型
- 下一篇:通过由酶催化的合成生产聚酯的方法