[发明专利]一种获取词语的方法及装置在审

专利信息
申请号: 201510886318.9 申请日: 2015-12-04
公开(公告)号: CN106844326A 公开(公告)日: 2017-06-13
发明(设计)人: 钦滨杰;陈晓敏 申请(专利权)人: 北京国双科技有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京鼎佳达知识产权代理事务所(普通合伙)11348 代理人: 王伟锋,刘铁生
地址: 100086 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 获取 词语 方法 装置
【说明书】:

技术领域

发明涉及计算机技术领域,尤其涉及一种获取词语的方法及装置。

背景技术

随着网络技术的发展,数据信息的规模越来越庞大,要从中获取到有用的数据信息就需要更加有效的文本分类技术。而现有的一些成熟文本分类技术对于英文文本的应用效果相对理想,而对于中文文本的分类效果并不理想。究其原因,其中中文文本中的语义因素的作用是不容忽视的。最为基础的语义关系有两类:1、上位概念和下位概念之间的关系,下位概念的出现仅仅是为了限定上位概念的外延;2、述谓关系,这是最多也最基础的关系。一个基本词汇单位对另一个基本词汇单位的陈述。而语法形式则大部分是为了表达这些关系而产生的。

在上位和下位概念的关系中,最为常见的就是整体与部分的关系:整体通常有一个结构,它们的组成部分是可分离的并且有特定的功能。目前的分本分类处理中,提取整体与部分关系词语的方式一般都是基于一些固定的模式,包括词汇、句法模式来确定词语间的整体与部分关系。例如,基于并列结构的从网页中获取部分整体关系的方法,利用整体与部分关系模式从Google获取语料,匹配出具有并列结构的句子,从中获取出给定的整体概念的部分概念,用层次聚类算法对候选的部分概念进行自动聚类,以确定具有整体与部分关系的词语。但是,这种并列结构的方式所能够匹配出的语料数据只是在形式上与模板的结构相匹配,而在实际的内容上并非是整体与部分的关系,因此该方式的提取准确率相对较低。

发明内容

有鉴于此,本发明提供一种获取词语的方法及装置,主要目的在于通过词语标注领域信息来提高语料词语间整体与部分关系的提取准确率。

为达到上述目的,本发明主要提供如下技术方案:

一方面,本发明提供了一种获取词语的方法,该方法包括:

对获取的文本数据进行预处理,得到带有分词信息的独立语句;

在所述独立语句中,利用结构模板筛选出具有并列结构的候选语句;

利用领域词典以及所述候选语句中的分词信息,确定所述候选语句中具有并列结构的领域分词,所述领域词典是记录有相同领域分词的词典;

根据所述领域分词的位置特征,输出具有整体与部分关系的领域分词集合。

另一方面,本发明提供了一种获取词语的装置,该装置包括:

预处理单元,用于对获取的文本数据进行预处理,得到带有分词信息的独立语句;

筛选单元,用于在所述预处理单元得到的独立语句中,利用结构模板筛选出具有并列结构的候选语句;

确定单元,用于利用领域词典以及所述候选语句中的分词信息,确定所述筛选单元选择的候选语句中具有并列结构的领域分词;

输出单元,用于根据所述确定单元确定的领域分词的位置特征,输出具有整体与部分关系的领域分词集合。

依据上述本发明所提出的一种获取词语的方法及装置,通过对文本语料进行的分词、分句处理,并利用结构模板筛选出具有并列结构的获选语句。就可以初步选定在给文本语料中为并列结构可能是具有整体与部分关系的候选语句。在利用该候选语句中的分词信息,以及选定的领域词典,判断出具有并列结构的分词是否属于相同的领域,若是,则可以根据分词在句中的位置来确定各个分词之间的整体与部分关系,同时以相对应的关系加以输出显示。相对于现有的判断整体与部分关系所采用的固定模板的比对方式而言,本发明所采用的方法通过对句子中的分词加入进一步的判断,确定具有并列结构的分词是属于同一类领域中的分词,从而能够根据分词的具体内容避免分词提取的形式化。再根据分词之间的位置关系判断哪些分词属于整体领域分词,哪些属于部分领域分词。从而进一步提高分词整体与部分关系的提取准确性。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提出的一种获取词语的方法的流程图;

图2示出了本发明实施例提出的另一种获取词语的方法的流程图;

图3示出了本发明实施例提出的一种获取词语的装置的组成框图;

图4示出了本发明实施例提出的另一种获取词语的装置的组成框图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510886318.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top