[发明专利]单词语义关系估计装置和单词语义关系估计方法有效
申请号: | 201780096022.4 | 申请日: | 2017-10-26 |
公开(公告)号: | CN111226223B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 内出隼人 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06F16/33 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 马建军;邓毅 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 单词 语义 关系 估计 装置 方法 | ||
具有:单词检索部(101),其从数据库检索构成所输入的单词对的各单词;单词向量提取部(102),其从单词向量数据库(103)提取与检索到的各单词对应的单词向量;字符向量转换部(104),其将构成单词对的字符转换成字符向量;特征量取得部(105),其将提取出的各单词的单词向量和转换后的字符向量结合,取得特征量;以及估计部(106),其根据所取得的特征量估计各单词间的语义关系。
技术领域
本发明涉及对单词间的语义上的关系进行估计的技术。
背景技术
近年来,随着个人计算机和因特网的普及,用户能够访问的电子化文档的量不断增大。要求用于从大规模的文档信息中有效地发现用户期望的文档的技术。在以文档检索技术为代表的处理自然语言的技术中,要求适当地处理语言的模糊性即多义性或同义性。多义性是指对于同一单词存在多个语义,成为噪声的原因。另一方面,同义性是指存在多个具有相同语义的单词,成为遗漏的原因,即成为信息缺失的原因。
考虑到上位下位关系等而对单词进行分类的同义词词典是用于吸收文档中的语言表达的波动而解决多义性或同义性的问题的语言资源,用于各种语言处理应用。另一方面,手工制作同义词词典需要花费成本,因此,以往不断尝试根据文本数据自动制作同义词词典。在非专利文献1中,提出使用现有的同义词词典作为正解来估计单词间的语义关系的统计模型的学习方式。
另外,在非专利文献1中公开有:利用将单词转换成多维数值向量的单词向量,作为用于学习统计模型的特征量,该统计模型估计2个单词(以下记作单词对)间的上位下位同位关系这样的语义关系。在此,转换成单词向量的技术例如应用非专利文献2公开的如下方式:通过考虑上下文而利用句中的单词的位置关系,转换成表示单词语义的密集的多维数值向量。在应用非专利文献2公开的方式作为转换成单词向量的技术的情况下,存在如下问题:如反义词那样在相似的上下文中出现的语义不同的单词被转换成相似的单词向量,对于包含可能成为反义词的单词的单词对,有时无法估计出正确的含义关系。
作为用于解决该问题的技术,在专利文献1中公开有如下的单词语义关系提取装置:对于文本中的任意单词对,计算基于上下文的相似度、基于表述的相似度以及基于模式的相似度,生成以计算出的多种相似度为元素的特征向量,识别单词间的语义关系。
现有技术文献
专利文献
专利文献1:WO 2014/033799
非专利文献
非专利文献1:Julie Weeds et al.,“Learning to Distinguish Hypernyms andCo-Hyponyms”,COLING,2014.
非专利文献2:Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean,“Efficient Estimation of Word Representations in Vector Space”,ICLR2013.
发明内容
发明要解决的课题
但是,在上述专利文献1公开的技术中,计算相似度的方法是稀疏的,存在以该相似度为元素的特征向量有时不能成为有效的特征量的问题。
本发明正是为了解决上述课题而完成的,其目的在于,取得识别单词间的语义关系的有效的特征量,提高估计可能成为反义词的2个单词间的语义关系的精度。
用于解决课题的手段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780096022.4/2.html,转载请声明来源钻瓜专利网。