[发明专利]一种为中英文单词对预测义原树的方法及系统有效
申请号: | 202011565924.8 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112579794B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 李涓子;刘宝巨;侯磊;张鹏;唐杰;许斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 聂俊伟 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中英文 单词 预测 义原树 方法 系统 | ||
1.一种为中英文单词对预测义原树的方法,其特征在于,包括:
获取待预测单词对,以及所述待预测单词对对应的类别义原;
基于已知的预设义原集合和语义关系集合,和所述待预测单词对对应的类别义原,采用预设义原树生成算法为所述待预测单词对预测生成义原树;
所述预设义原树生成算法包括路径生成算法或标签传播算法;
所述路径生成算法具体包括:
构建义原树边生成器,获取义原树中以每个节点为头节点的边;
构建义原树节点生成器,获取义原树中以给定头节点出发的尾结点;
构建树生成器,获取整棵义原树;
所述构建义原树边生成器,获取义原树中以每个节点为头节点的边,具体包括:
将根节点到当前节点的路径、单词对词义和所述类别义原作为所述义原树边生成器的输入;
采用RNN进行路径信息建模,将义原和语义关系建模为独热向量,预训练的英文词向量和中文词向量级联表示词义;
获取第一预设分类器,在所述第一预设分类器中输入所述RNN最后一个状态,任一节点和词义,输出所有语义关系得分;
通过L1范数对所述所有语义关系得分进行归一化,得到所有语义关系归一化得分;
将所述所有语义关系归一化得分按照从高到低进行降序排列,若判断获知第一预设个数加1的累计得分超过第一预设阈值时,则停止遍历,取所述第一预设个数的语义关系归一化得分作为第一输出结果;
所述构建义原树节点生成器,获取义原树中以给定头节点出发的尾结点,具体包括:
将根节点到任一边的路径、单词对词义和所述类别义原作为所述义原树节点生成器的输入;
采用RNN进行节点信息建模,将义原和语义关系建模为独热向量,预训练的英文词向量和中文词向量级联表示词义;
获取第二预设分类器,在所述第二预设分类器中输入所述RNN最后一个状态,任一节点和词义,输出所有义原得分;
通过L1范数对所述所有义原得分进行归一化,得到所有义原归一化得分;
将所述所有义原归一化得分按照从高到低进行降序排列,若判断获知第二预设个数加1的累计得分超过第二预设阈值时,则停止遍历,取所述第二预设个数的语义关系归一化得分作为第二输出结果;
所述构建树生成器,获取整棵义原树,具体包括:
采用递归算法,在所述树生成器中输入词义和根节点到任一节点的路径,生成所述整棵义原树;
所述标签传播算法具体包括:
构造词义图,将所述待预测单词对与已知义原树信息的单词对进行连接,得到若干条连接边;
将已知单词对的义原树解析为已知三元组集合,将所述已知三元组集合中的每一个三元组表达为单个多热标签向量;
分别计算所述已知单词对中的英文单词和待预测单词对中的英文单词之间的英文语义相似度,以及所述已知单词对中的中文单词和待预测单词对中的中文单词之间的中文语义相似度,并通过预设相似函数计算所述英文语义相似度和所述中文语义相似度的相关性,得到所述若干条连接边的权重系数;
获取预设激活函数,基于所述单个多热标签向量和所述权重系数得到所述预测单词对的多热标签向量;
通过L1范数对所述预测单词对的多热标签向量进行归一化,得到多热标签向量归一化得分;
将所述多热标签向量归一化得分按照从高到低进行降序排列,若判断获知第三预设个数加1的累计得分超过第三预设阈值时,则停止遍历,取所述第三预设个数的语义关系归一化得分作为第三输出结果;
将所述第三输出结果和单个类别义原,转换输出为整颗义原树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011565924.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:遥感图像地物语义分割方法
- 下一篇:废水阀及净水设备