[发明专利]文本内容的筛选方法及装置有效

专利信息
申请号: 201410666150.6 申请日: 2014-11-19
公开(公告)号: CN104408103B 公开(公告)日: 2018-05-18
发明(设计)人: 杨韬;陈俊宏;余德乐;赵冬玲 申请(专利权)人: 北京国双科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 吴贵明;张永明
地址: 100086 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 内容 筛选 方法 装置
【说明书】:

发明公开了一种文本内容的筛选方法及装置。其中,文本内容的筛选方法包括:获取网页页面的文本内容;添加筛选条件至目标词包,其中,目标词包为包括目标对象和关联对象的词包,目标对象为文本内容中的待筛选对象,关联对象为与目标对象具有关联关系的对象;利用具有筛选条件的目标词包对文本内容进行筛选,得到目标对象的目标内容。通过本发明,解决了现有技术中筛选的文本内容不够准确的问题,进而达到了提高筛选的文本内容准确性的效果。

技术领域

本发明涉及文本内容处理领域,具体而言,涉及一种文本内容的筛选方法及装置。

背景技术

现有的舆情监测系统能够基于一个对象来进行对该对象的多维度观察和分析,例如对象是可口可乐歌词瓶,舆情监测系统可以让使用者观察到在互联网中,网民对可口可乐歌词瓶的情绪态度是怎样的,例如:网民说了什么关于可乐歌词瓶的话、可乐歌词瓶活动在互联网的口碑变化趋势等等。上述情绪态度的结果都是根据围绕“可口可乐歌词瓶”这个词语筛选出的相关内容分析得出的,然而在互联网中,不仅只有“可口可乐歌词瓶”代表可口可乐歌词瓶,类似的“cola歌词瓶”“coca cola歌词瓶”等词语同样代表着可口可乐,所以舆情监测系统加入了一个词包的概念,即将“cola歌词瓶”“coca cola歌词瓶”“可口可乐歌词瓶”等词打包放入可口可乐歌词瓶的词包中,互联网上凡是提到“cola歌词瓶”、“cocacola歌词瓶”或者“可口可乐歌词瓶”都指代可口可乐歌词瓶,相关内容也都可以被筛选出来。

因为互联网上文字内容的多样性特点,虽然在舆情监测系统中加入了词包的方式,但通过增加词包内包含的词语筛选到的结果始终不能比较全面的覆盖所有情况。例如:舆情监测系统进行监测的对象是可乐歌词瓶,当文本内容为“我今天买可乐,发现一个歌词与瓶子组合的活动,还挺不错的”和“这个笑话可乐坏了我,笑话里面的歌词真实幽默,笑得我喝水把瓶子都打翻了”时,这两句话都会被筛选出来。虽然上述文本内容上面两句话都同时提到了“可乐”、“歌词”、和“瓶”这三个词,但可以发现第一句话需要筛选出来的内容,而第二句话完全是干扰,不应该被筛选出来。若筛选出来的信息不够准确,会导致舆情监测系统后续基于筛选的信息进行分析的分析结果有误。

针对现有技术中筛选的文本内容不够准确的问题,目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种文本内容的筛选方法及装置,以解决现有技术中筛选的文本内容不够准确的问题。

为了实现上述目的,根据本发明实施例的一个方面,提供了一种文本内容的筛选方法。

根据本发明的文本内容的筛选方法包括:获取网页页面的文本内容;添加筛选条件至目标词包,其中,所述目标词包为包括目标对象和关联对象的词包,所述目标对象为所述文本内容中的待筛选对象,所述关联对象为与所述目标对象具有关联关系的对象;以及利用具有所述筛选条件的所述目标词包对所述文本内容进行筛选,得到所述目标对象的目标内容。

进一步地,添加筛选条件至目标词包包括:利用所述筛选条件关联所述目标对象和所述关联对象。

进一步地,所述关联对象的数量为多个,所述筛选条件包括第一子条件和第二子条件,添加筛选条件至目标词包包括:分别利用所述第一子条件关联每个所述关联对象和所述目标对象,得到多个词包元素;以及利用所述第二子条件关联多个所述词包元素,得到具有所述筛选条件的所述目标词包。

进一步地,所述关联对象的数量为多个,所述筛选条件包括第一子条件和第二子条件,添加筛选条件至目标词包包括:利用所述第一子条件关联至少一个所述关联对象和所述目标对象,得到至少一个第一词包元素;利用所述第一子条件关联第一关联对象和第二关联对象,得到第二词包元素,其中,所述第一关联对象和所述第二关联对象均为多个所述关联对象中的对象;以及利用所述第二子条件关联所述至少一个第一词包元素和所述第二词包元素,得到具有所述筛选条件的所述目标词包。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410666150.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top