[发明专利]关联词语集合的处理方法及装置有效
申请号: | 201510726038.1 | 申请日: | 2015-10-29 |
公开(公告)号: | CN106649334B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 梁梦溪;何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联 词语 集合 处理 方法 装置 | ||
本申请公开了一种关联词语集合的处理方法及装置。其中,该处理方法包括:基于待分析对象的关联词语集合中的关联词语从目标数据源上爬取网络文本;对网络文本进行分词得到多个文本词汇,并获取各个文本词汇的词汇信息,其中,词汇信息包括各个文本词汇的关联指标数据和/或各个文本词汇的词性信息,关联指标数据用于指示各个文本词汇与关联词语的关联度;按照预设筛选条件对多个文本词汇的关联指标数据和/或多个文本词汇的词性信息进行筛选,得到筛选出的关联词汇;使用筛选出的关联词汇更新关联词语集合。本申请解决了现有的词包积累的方法词汇量偏少的技术问题。
技术领域
本申请涉及互联网领域,具体而言,涉及一种关联词语集合的处理方法及装置。
背景技术
在企业发布产品、推出服务时,或政府部门颁布某项政策,以及发生某一引起社会关注的即时事件时,互联网上势必会出现一些网络媒体报道的相关的新闻等内容,这些网络新闻将会引起网民的关注和探讨。在针对某一分析对象(如:时事、产品、人物、政策等)的网络舆情内容(即与对象相关的网络文本)的搜集过程中,若采用网络爬虫爬取与分析对象有关的网络文本的方式,来收集信息,由于在爬取时并不对内容是否与分析对象有关加以区分,则在爬取得到网络文本之后,需要对其进行筛选,以过滤出和待分析对象相关的内容。
一般在筛选和过滤网络文本的过程中,通过设定某些判断条件来判断一段网络文本是否为待分析对象的相关内容,将与待分析对象相关的内容的集合作为“词包”,将“词包”中的内容来代替分析对象,来对网络文本进程筛选与过滤,这一过程也可以称之为词包积累。
现有的词包积累的基本方法为人工联想手动输入,多采用以下词汇的组合方法:以待分析对象名称作为词包;以待分析对象名称和同义词的组合作为词包;以及以待分析对象名称和竞品词的组合作为词包。可以看出现有词包积累方法的缺点在于:词汇量偏少;词汇与分析对象之间的关系是否紧密无法量化衡量;人工参与词汇积累所需时间较长,效率偏低;以及可扩展性差。
针对上述现有的词包积累的方法词汇量偏少的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种关联词语集合的处理方法及装置,以至少解决现有的词包积累的方法词汇量偏少的技术问题。
根据本申请实施例的一个方面,提供了一种关联词语集合的处理方法,该处理方法包括:基于待分析对象的关联词语集合中的关联词语从目标数据源上爬取网络文本;对网络文本进行分词得到多个文本词汇,并获取各个文本词汇的词汇信息,其中,词汇信息包括各个文本词汇的关联指标数据和/或各个文本词汇的词性信息,关联指标数据用于指示各个文本词汇与关联词语的关联度;按照预设筛选条件对多个文本词汇的关联指标数据和/或多个文本词汇的词性信息进行筛选,得到筛选出的关联词汇;使用筛选出的关联词汇更新关联词语集合。
进一步地,对网络文本进行分词得到多个文本词汇,并获取各个文本词汇的词汇信息包括:在对网络文本进行分词得到多个文本词汇之后,创建多个文本词汇的文本词典;按照预设关联条件确定文本词典中各个文本词汇的关联指标数据,和/或提取文本词典中各个文本词汇的词性信息。
进一步地,按照预设关联条件确定文本词典中各个文本词汇的关联指标数据包括:若预设关联条件为一个,则获取各个文本词汇对应预设关联条件的关联性数值,得到各个文本词汇的关联指标数据;若预设关联条件为多个,则获取每个文本词汇对应各个预设关联条件的关联性数值,对每个文本词汇的所有关联性数值作融合操作,将融和结果作为每个文本词汇的关联指标数据,其中,融合操作包括加权计算、加和计算以及乘除计算中的至少之一。
进一步地,按照预设关联条件确定文本词典中各个文本词汇的关联指标数据包括:将各个文本词汇符合预设关联条件的次数作为各个文本词汇的关联指标数据,其中,预设关联条件包括:各个文本词汇与关联词语在网络文本的同一语句中同时出现;和/或各个文本词汇与关联词语在网络文本内以相同词性出现在网络文本的语句中的相同位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510726038.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:字段顺序一致性检测方法和装置
- 下一篇:办公椅(2016‑8)