[发明专利]文本内容的筛选方法及装置有效
申请号: | 201410666150.6 | 申请日: | 2014-11-19 |
公开(公告)号: | CN104408103B | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 杨韬;陈俊宏;余德乐;赵冬玲 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 内容 筛选 方法 装置 | ||
本发明公开了一种文本内容的筛选方法及装置。其中,文本内容的筛选方法包括:获取网页页面的文本内容;添加筛选条件至目标词包,其中,目标词包为包括目标对象和关联对象的词包,目标对象为文本内容中的待筛选对象,关联对象为与目标对象具有关联关系的对象;利用具有筛选条件的目标词包对文本内容进行筛选,得到目标对象的目标内容。通过本发明,解决了现有技术中筛选的文本内容不够准确的问题,进而达到了提高筛选的文本内容准确性的效果。
技术领域
本发明涉及文本内容处理领域,具体而言,涉及一种文本内容的筛选方法及装置。
背景技术
现有的舆情监测系统能够基于一个对象来进行对该对象的多维度观察和分析,例如对象是可口可乐歌词瓶,舆情监测系统可以让使用者观察到在互联网中,网民对可口可乐歌词瓶的情绪态度是怎样的,例如:网民说了什么关于可乐歌词瓶的话、可乐歌词瓶活动在互联网的口碑变化趋势等等。上述情绪态度的结果都是根据围绕“可口可乐歌词瓶”这个词语筛选出的相关内容分析得出的,然而在互联网中,不仅只有“可口可乐歌词瓶”代表可口可乐歌词瓶,类似的“cola歌词瓶”“coca cola歌词瓶”等词语同样代表着可口可乐,所以舆情监测系统加入了一个词包的概念,即将“cola歌词瓶”“coca cola歌词瓶”“可口可乐歌词瓶”等词打包放入可口可乐歌词瓶的词包中,互联网上凡是提到“cola歌词瓶”、“cocacola歌词瓶”或者“可口可乐歌词瓶”都指代可口可乐歌词瓶,相关内容也都可以被筛选出来。
因为互联网上文字内容的多样性特点,虽然在舆情监测系统中加入了词包的方式,但通过增加词包内包含的词语筛选到的结果始终不能比较全面的覆盖所有情况。例如:舆情监测系统进行监测的对象是可乐歌词瓶,当文本内容为“我今天买可乐,发现一个歌词与瓶子组合的活动,还挺不错的”和“这个笑话可乐坏了我,笑话里面的歌词真实幽默,笑得我喝水把瓶子都打翻了”时,这两句话都会被筛选出来。虽然上述文本内容上面两句话都同时提到了“可乐”、“歌词”、和“瓶”这三个词,但可以发现第一句话需要筛选出来的内容,而第二句话完全是干扰,不应该被筛选出来。若筛选出来的信息不够准确,会导致舆情监测系统后续基于筛选的信息进行分析的分析结果有误。
针对现有技术中筛选的文本内容不够准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种文本内容的筛选方法及装置,以解决现有技术中筛选的文本内容不够准确的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种文本内容的筛选方法。
根据本发明的文本内容的筛选方法包括:获取网页页面的文本内容;添加筛选条件至目标词包,其中,所述目标词包为包括目标对象和关联对象的词包,所述目标对象为所述文本内容中的待筛选对象,所述关联对象为与所述目标对象具有关联关系的对象;以及利用具有所述筛选条件的所述目标词包对所述文本内容进行筛选,得到所述目标对象的目标内容。
进一步地,添加筛选条件至目标词包包括:利用所述筛选条件关联所述目标对象和所述关联对象。
进一步地,所述关联对象的数量为多个,所述筛选条件包括第一子条件和第二子条件,添加筛选条件至目标词包包括:分别利用所述第一子条件关联每个所述关联对象和所述目标对象,得到多个词包元素;以及利用所述第二子条件关联多个所述词包元素,得到具有所述筛选条件的所述目标词包。
进一步地,所述关联对象的数量为多个,所述筛选条件包括第一子条件和第二子条件,添加筛选条件至目标词包包括:利用所述第一子条件关联至少一个所述关联对象和所述目标对象,得到至少一个第一词包元素;利用所述第一子条件关联第一关联对象和第二关联对象,得到第二词包元素,其中,所述第一关联对象和所述第二关联对象均为多个所述关联对象中的对象;以及利用所述第二子条件关联所述至少一个第一词包元素和所述第二词包元素,得到具有所述筛选条件的所述目标词包。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410666150.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种304不锈钢拉伸工件的温间拉伸工艺
- 下一篇:用于连接到管的连接器
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法