[发明专利]一种英语文本概念理解方法有效
申请号: | 202011382136.5 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112487806B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 李俊;姜兰兰;黄桂敏 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/194;G06F40/30;G06F40/216 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 英语 文本 概念 理解 方法 | ||
本发明公开一种英语文本概念理解方法,该方法是一个由顺序连接的英语文本理解预处理模块、英语文本关键词概念语义特征提取模块、英语文本关键词及其概念语义依存关系提取模块、候选答案选择模块组成的理解模型。一篇英语文本以及和该英语文本相关的问题通过本发明理解方法处理后,最后能够得到该问题的相关概念答案。本发明的方法解决了英语文本概念理解的问题,其回答的结果比传统的英语文本理解方法结果更准确。
技术领域
本发明涉及自然语言处理技术,是一种英语文本概念理解方法,本发明的理解方法只适合英语文本,不适合中文文本。
背景技术
机器自动化的英语文本理解是通过输入一段英语文本以及与文本相关的若干问题,机器依靠自身的算法从输入的英语文本找出问题的答案。传统的英语文本理解方法主要有文本-问题语义分析理解方法和文本-问题词汇匹配理解方法。文本-问题语义分析理解方法主要依赖于预先定义的规则模板,利用手工设计的语言特征对文本和问题之间的关系进行学习,这种方法首先需要大量的手工标注数据,这些数据会造成语义特征稀疏的问题,而且这种方法只适合于某些限定的领域。文本-问题词汇匹配理解方法通过计算文本和问题中关键词语的语义相似度,从而选择相似度较高的词语或短语作为答案,这种方法仅仅通过匹配问题和英语文本中词语之间的相似度信息,难以获得英语文本中多义词的准确语义,从而导致阅读理解答案选择不准确的问题。针对上述问题,本发明提出一种英语文本概念理解方法,该方法通过挖掘英语文本中关键词语的深层概念语义特征,获取英语文本的概念化的语义信息,并通过英语文本和问题中词语之间的概念语义依存关系,最终获取更为准确的答案。
发明内容
本发明的一种英语文本概念理解方法的总体处理流程如图1所示,其中包括英语文本理解预处理模块、英语文本关键词概念语义特征提取模块、英语文本关键词及其概念语义依存关系提取模块、候选答案选择模块。
其中的英语文本理解预处理模块的处理流程是:第一,输入待阅读的英语文本及问题,并对待阅读的英语文本及问题分别进行分词、去除停用词、单词小写化处理,并对待阅读的英语文本分句形成有若干句子组成的文本序列;第二,对第一步中输出的文本序列进行分词、短语切分处理、词性标注,得到待阅读英语文本及问题的单词和短语组成的序列;第三,分别输出待阅读英语文本中句子序列的名词及名词短语、动词、形容词列表,问题句子序列的名词及名词短语、动词、形容词列表。
其中的英语文本关键词概念语义特征提取模块的处理流程是:第一,输入英语文本预处理模块中待阅读英语文本及问题的预处理结果,选择其中的名词或名词短语;第二,通过使用预先训练好的阅读理解数据集,对第一步中选择的名词或名词短语进行词向量表示;第三,分别计算问题中名词或名词短语与待阅读英语文本中选取的名词或名词短语之间的余弦相似度,并对计算结果进行降序排序,选择排名前五的结果作为候选的关键名词或名词短语;第四,通过计算候选的关键名词或名词短语与其所属候选概念的共现概率,如果共现概率结果为零,则继续执行第五步,否则选择概率最大的结果作为候选关键名词或名词短语所属的概念;第五,若候选的关键名词或名词短语与其所属概念的共现概率结果为零,则直接使用当前名词或名词短语作为其所属概念;第六,对选取的关键词进行重要程度计算,通过计算当前关键词同其上下文单词之间的权重系数,然后加权求和得到当前关键词最终重要程度得分。
其中英语文本关键词及其概念语义依存关系提取模块的处理流程是:第一,输入候选的关键名词或名词短语的词向量表示;第二;输入候选的关键名词或名词短语的概念化表示;第三,使用预先训练好的语义依存关系集,提取候选关键名词或名词短语之间的语义依存关系;第四,使用预先训练好的概念依存关系集,提取候选关键名词或名词短语之间的概念依存关系;第五,计算候选关键名词或名词短语的语义依存关系和概念依存关系之间的余弦相似度,并对计算的结果进行降序排序,并选择相似度最高的结果作为当前关键词及其概念语义依存关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011382136.5/2.html,转载请声明来源钻瓜专利网。