[发明专利]中文语义关系的识别方法及装置有效
申请号: | 201710980063.1 | 申请日: | 2017-10-19 |
公开(公告)号: | CN107832290B | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 李长亮;马腾;程健 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279;G06F40/242 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 郭文浩;王世超 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 语义 关系 识别 方法 装置 | ||
本发明涉及自然语言处理领域,具体涉及一种中文语义关系的识别方法及装置,旨在解决中文语义关系识别准确率低的问题。为此目的,本发明中的中文语义关系识别方法,包括下述步骤:步骤1,判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系,若否则进行步骤2;步骤2,利用所述待检测中文词语词对的词向量,获取其第一语义关系;步骤3,利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。通过本发明可以从多个维度考量词语,高效、快速、准确地识别中文词语语义关系。
技术领域
本发明涉及自然语言技术领域,具体涉及一种中文语义关系的识别方法和装置。
背景技术
随着大数据时代的发展以及深度学习方面的技术突破,自然语言处理(NaturalLanguage Processing,NLP)逐步变成了计算机应用与人工智能研究领域的热点,而语义关系的自动识别又是自然语言处理领域的巨大的挑战。在进行词汇学习时,需要将具有不同语义关系的词区分开。
语义关系识别技术主要包括基于语义词典的语义识别方法和基于词向量的语义识别方法。其中,基于语义词典的语义识别方法,如同义词词林和知网HowNet等,具有分类明确和分类过程较快的优点,但是该方法依赖语义词典的构建,耗费大量人力、物力以及财力且有后期更新困难,更无法处理语义词典之外的词汇。
基于词向量的语义识别方法通过自然语言模型将词汇语义转化成词向量,进而通过词向量之间的计算,或者基于词向量建立模型识别中文语义关系,该方法虽然无需构建语义词典但是识别精度有限,仅能在一定程度上识别中文词语的语义关系。
发明内容
为了解决现有技术中的上述问题,即为了解决中文语义关系识别精准度低的技术问题,本发明提供了一种中文语义关系的识别方法及装置。
在第一方面,本发明中的中文语义关系的识别方法,包括:
步骤1,判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系,若否则进行步骤2;
步骤2,利用所述待检测中文词语词对的词向量,获取其第一语义关系;
步骤3,利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。
优选地,“利用所述待检测中文词语词对的词向量,获取其第一语义关系”的步骤具体包括:
根据预设词向量字典获取待检测中文词语词对的词向量;
提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量;
利用预设softmax分类模型获取所述组合向量对应的各预设语义关系的概率,并将概率值最大的语义关系作为所述待检测中文词语词对的第一语义关系。
优选地,“提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量”的步骤具体包括:
计算所述待检测中文词语词对对应的词向量的相似度;
计算所述待检测中文词语词对对应的词向量的差向量;
获取待检测中文词语的词性,并对所述词性进行编码得到对应的词性信息;
融合所述词向量的相似度、差向量以及所述待检测中文词语词对的词性信息,构成组合向量。
优选地,“根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系”的步骤具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710980063.1/2.html,转载请声明来源钻瓜专利网。