[发明专利]名称获取方法和装置在审
申请号: | 201610522357.5 | 申请日: | 2016-07-05 |
公开(公告)号: | CN107577655A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 韩建伟,张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 名称 获取 方法 装置 | ||
技术领域
本发明涉及计算机领域,具体而言,涉及一种名称获取方法和装置。
背景技术
随着互联网的不断发展,用户在网络上对产品、影视作品的评价愈发受到了各个企业的关注,例如:企业通常会注意自身的品牌或产品在互联网上是如何被用户评价的,电影发行方也会关注电影在社交媒体上的用户口碑等。对于上述需求,现有技术通常的做法是:将类似于品牌名称或产品名称这样的实体词作为关键词,在互联网中进行检索,找到含有上述实体词的网络文本或用户评论,再对网络文本或用户评论进行分析。
但是由于互联网具有较大灵活性的特点,用户在发表评论或者讨论内容时是基于用户自身出发的,而用户对品牌、产品或作品的称呼并不总是品牌、产品或作品本身的名称,用户通常会以更亲切,或更简洁的别名或昵称来指代评论的对象,这就造成了通过传统的处理逻辑,会遗漏大量的相关问题。因此,识别出在网络中用户对品牌、产品或作品的昵称,便成为进行全面、准确检索的前提。
在现有技术中,获取实体词对应的别名或昵称都依靠人工整理完成,但采用这种方式需要依赖大量的人工和时间,并且,人工整理的结果在全面性上以及面对变化时的响应能力上都是极其有限的。通常是采用人工整理昵称和别名的方式,但是人工的缺点是耗费人工量大,而且别名整理很难保证全。
针对现有技术中,获取实体名对应的昵称通常依赖人工来完成,导致获取昵称的效率较低且昵称的全面性不高的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种名称获取方法和装置,以至少解决现有技术中,获取实体名对应的昵称通常依赖人工来完成,导致获取昵称的效率较低且昵称的全面性不高的技术问题。
根据本发明实施例的一个方面,提供了一种名称获取方法,包括:在目标实体词对应的目标网站中提取语料;按照预设特征从语料中提取与目标实体词对应的候选名称;根据预设条件在候选名称中筛选出与实体词对应的名称。
进一步地,获取用于提取候选名称的规则模板;在语料中提取与规则模板匹配的语句,其中,与规则模板匹配的语句包括:包含目标实体词的第一语句和不包含目标实体词的第二语句;在第二语句中查找与目标实体词对应的替换词,并使用替换词替换第一语句中的目标实体词;在替换后第一语句的意义不发生改变的情况下,确认第二语句中的名称为候选名称。
进一步地,获取目标实体词出现的语句的上下文信息,其中,上下文信息包括在语句中,出现于目标实体词前的词语和出现于目标实体词后的词语;在语料中统计上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数;在上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时,确认目标实体词出现的语句为规则模板。
进一步地,获取每个候选名称的标签信息、每个候选名称在不同语料中出现次数的分布情况以及出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例,其中,不同语料包括目标实体词的语料和其他词的语料;汇总标签信息、分布情况以及比例,得到每个候选名称的得分;将每个候选名称的得分与预设分数比对,确认候选名称集合中得分超过预设分数的候选名称为目标实体词对应的名称。
进一步地,候选名称的词性与目标实体词的词性相同;候选名称在不同语料中出现次数的分布满足预设分布条件;出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例满足预设比例值。
根据本发明实施例的另一方面,还提供了一种名称获取装置,包括:第一提取模块,用于在目标实体词对应的目标网站中提取语料;第二提取模块,用于按照预设特征从语料中提取与目标实体词对应的候选名称;筛选模块,用于根据预设条件在候选名称中筛选出与目标实体词对应的名称。
进一步地,第二提取模块包括:第一获取模块,用于获取用于提取候选名称的规则模板;提取子模块,用于在语料中提取与规则模板匹配的语句,其中,与规则模板匹配的语句包括:包含目标实体词的第一语句和不包含目标实体词的第二语句;查找模块,用于在第二语句中查找与目标实体词对应的替换词,并使用替换词替换第一语句中的目标实体词;第一确认模块,用于在替换后第一语句的意义不发生改变的情况下,确认第二语句中的名称为候选名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610522357.5/2.html,转载请声明来源钻瓜专利网。