[发明专利]一种英语文本概念理解方法有效
申请号: | 202011382136.5 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112487806B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 李俊;姜兰兰;黄桂敏 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/194;G06F40/30;G06F40/216 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 英语 文本 概念 理解 方法 | ||
1.一种英语文本概念理解方法,其特征是:包括一个由顺序连接的英语文本理解预处理模块、英语文本关键词概念语义特征提取模块、英语文本关键词及其概念语义依存关系提取模块、候选答案选择模块组成的理解模型,其理解方法包括如下步骤:
(1)英语文本理解预处理模块输入待阅读的英语文本和问题,对待阅读的英语文本和问题分别进行分词、去除停用词、单词小写化处理;对分词、去除停用词、单词小写化处理后的待阅读的英语文本和问题进行词性标注、短语切分处理;输出处理的待阅读的英语文本和问题的预处理结果;
(2)英语文本关键词概念语义特征提取模块,首先,输入英语文本预处理模块中待阅读英语文本的预处理结果及问题的预处理结果,对待阅读英语文本和问题中的名词或名词短语进行标注;第二,计算待阅读英语文本和问题中的标注名词或名词短语的词向量;第三,计算待阅读文本中名词或名词短语与问题中名词或名词短语之间的余弦相似度,并对计算的余弦相似度结果进行降序排序,选择排名前五的结果作为候选的关键名词或名词短语;第四,通过计算候选的关键名词或名词短语与其所属候选概念的共现概率,如果共现概率结果为零,则继续执行第五步,否则选择概率最大的结果作为候选关键名词或名词短语所属的概念;第五,若候选的关键名词或名词短语与其所属概念的共现概率结果为零,则直接使用当前名词或名词短语作为其所属概念;第六,计算当前关键词同其上下文单词之间的权重系数,然后加权求和得到当前关键词最终重要程度得分;
(3)英语文本关键词及其概念语义依存关系提取模块输入候选的关键名词或名词短语的词向量表示;输入候选的关键名词或名词短语的概念化表示;使用预先训练好的语义依存关系集,提取候选关键名词或名词短语之间的语义依存关系;使用预先训练好的概念依存关系集,提取候选关键名词或名词短语之间的概念依存关系;计算候选关键名词或名词短语的语义依存关系和概念依存关系之间的余弦相似度,并对计算的结果进行降序排序,选择相似度最高的结果作为当前关键词及其概念语义依存关系;
(4)候选答案选择模块输入候选关键名词或名词短语的概念化表示;输入已经选取的关键词及其概念语义依存关系;使用候选关键名词或短语的概念化表示作为节点,使用已经选取的关键词及其概念语义依存关系作为边构建概念语义表示图模型;计算概念语义图模型中各个节点向量同所有节点加权平均向量之间的欧式距离,并将此欧式距离的概率分布作为节点的权重值;选择权重值最高的节点作为最终答案。
2.根据权利要求1所述的理解方法,其特征是:所述的英语文本理解预处理模块处理步骤如下:
P201开始;
P202读入待阅读的英语文本和问题;
P203将待阅读的文本和问题使用标识隔开;
P204对待阅读的文本和问题进行去停用词处理;
P205对待阅读的文本和问题进行单词小写化处理;
P206对待阅读的文本和问题进行分句,组成若干句子序列;
P207对待阅读的文本和问题进行分词和短语切分处理;
P208对分词后的文本序列进行词性标注,并输出待阅读文本中名词或名词短语、动词和形容词列表;
P209对分词后的问题序列进行词性标注,并输出问题中名词或名词短语、动词和形容词列表;
P210分别统计分词后待阅读文本和问题序列中单词总数;
P211对分词后的待阅读文本序列进行分组处理,每20个单词一组隔开,不足20个单词的小组用NULL补齐;
P212对分词后的问题序列进行分组处理,通常问题序列少于20个单词,使用NULL补齐;
P212结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011382136.5/1.html,转载请声明来源钻瓜专利网。