[发明专利]一种英语短文句子层次主题连贯分析方法有效
申请号: | 202010573975.9 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111709224B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 黄桂敏;范春丽;黄思睿 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 英语 短文 句子 层次 主题 连贯 分析 方法 | ||
本发明提供一种英语短文句子层次主题连贯分析方法,该方法是一个由顺序连接的英语短文句子预处理模块、英语短文层次主题树混合语义空间分析模块、英语短文句子层次主题连贯分析模块、英语短文句子层次主题连贯分析输出模块组成的分析模型。一篇英语短文通过该分析模型和分析方法处理后,最后能够得到这篇英语短文句子层次的主题连贯分析结果。本发明分析方法解决了英语短文句子层次主题连贯的自动分析问题,其分析结果比传统的英语短文句子层次主题连贯分析结果更好。
技术领域
本发明涉及自然语言处理技术,具体是一种使用计算机自动分析英语短文中句子层次主题是否连贯的方法,本发明的分析方法只适用于分析英语短文,不适用于分析中文短文。
背景技术
在英语短文中句子主题连贯程度决定了句子是否围绕主题,目前国内外英语短文句子主题连贯分析方法主要分为无监督的英语短文句子主题连贯分析方法和有监督的英语短文句子主题连贯分析方法,有监督的英语短文句子主题连贯分析方法,需要参考英语短文范文,不适用于对大量的英语短文进行句子层次主题连贯分析;无监督的英语短文句子主题连贯分析方法,是通过分布式向量直接计算英语短文句子层次主题连贯语义相似度,来判断英语短文句子的主题连贯程度,缺乏对英语短文句子层次主题连贯特征的分析。本发明为了解决上述问题,提供了一种英语短文句子层次主题连贯分析方法。
发明内容
本发明的一种英语短文句子层次主题连贯分析方法的总体处理流程如图1所示,其中包括英语短文句子预处理模块、英语短文层次主题树混合语义空间分析模块、英语短文句子层次主题连贯分析模块、英语短文句子层次主题连贯分析输出模块。
其中的英语短文句子预处理模块的处理流程是:第一,输入英语短文的题目和全文,对英语短文题目和英语短文全文分别进行分词分句、删除停用词、词干化处理;第二,对分词分句、删除停用词、词干化处理后的英语短文的题目和全文进行词性标注、关系三元组提取;第三,输出上述两步处理的英语短文的题目和全文的预处理结果。
其中的英语短文层次主题树混合语义空间分析模块的处理流程是:第一,输入英语短文的题目和全文的预处理结果,使用构建的关系三元组层次主题树模型,对从英语短文的题目、全文、段落、句子的关系三元组信息分别进行主题聚类;第二,将主题聚类映射到分布式语义空间中,生成英语短文的题目主题关系三元组分布式向量、全文主题关系三元组分布式向量、段落主题关系三元组分布式向量、句子主题关系三元组分布式向量;第三,对生成的英语短文的题目主题关系三元组分布式向量、全文主题关系三元组分布式向量、段落主题关系三元组分布式向量、句子主题关系三元组分布式向量,匹配英语知识库中语义概念,抽取相邻关系三元组,并通过迭代的方法分析出最优英语短文的题目、全文、段落、句子的候选主题关系三元组集合,扩展英语短文的题目主题关系三元组分布式向量、全文主题关系三元组分布式向量、段落主题关系三元组分布式向量、句子主题关系三元组分布式向量。
其中的英语短文句子层次主题连贯分析模块的处理流程是:第一,输入英语短文的题目主题关系三元组分布式向量、全文主题关系三元组分布式向量、段落主题关系三元组分布式向量、句子主题关系三元组分布式向量,分别计算英语短文中题目与句子之间的层次主题连贯语义相似度、段落与句子之间的层次主题连贯语义相似度;第二,根据计算出的英语短文中题目与句子之间的层次主题连贯语义相似度、段落与句子之间的层次主题连贯语义相似度,设置计算英语短文中题目与句子之间的层次主题连贯语义相似度的权重值、段落与句子之间的层次主题连贯语义相似度的权重值,计算出英语短文中句子的层次主题连贯语义相似度,根据计算出的英语短文中句子的层次主题连贯语义相似度,计算英语短文层次主题连贯语义相似度评分值;第三,计算英语短文中句子与段落的层次主题连贯值、段落与段落的层次主题连贯值、各段落与全文的层次主题连贯值;第四,根据英语短文中句子与段落的层次主题连贯值,将各句子与段落的层次主题连贯值排序,设置层次主题连贯阈值抽取英语短文中主题不连贯句子;第五,根据英语短文中句子与段落的层次主题连贯值、段落与段落的层次主题连贯值、段落与全文的层次主题连贯值,计算出英语短文的层次主题连贯评分均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010573975.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电梯按键控制装置和电梯按键系统
- 下一篇:一种预分频器及分频器