[发明专利]一种基于自由文本的中文选择题干扰项生成方法有效
申请号: | 202110113550.4 | 申请日: | 2021-01-27 |
公开(公告)号: | CN112686025B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 戴剑锋;吴梦莹;董黎刚;蒋献 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/30;G06F18/22;G06F16/36;G06N3/049;G06N3/08;G06N3/088 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自由 文本 中文 选择题 干扰 生成 方法 | ||
1.一种基于自由文本的中文选择题干扰项生成方法,其特征在于,包括如下步骤:
1-1)输入文本,对文本进行预处理:对一段输入的自由文本进行依存句法分析(Dependency Parsing, DP),分析语句成分之间的依存关系揭示其句法结构,解析出自由文本中的核心关键词;
1-2)选择信息句:将解析出的核心关键词放入知识图谱中进行搜索,选取核心关键词在知识图谱中匹配到的最多的句子作为信息句;
1-3)生成正确答案:对信息句进行实体抽取,提取出实体对,再进行实体关系识别,得到实体对之间的关系,将由自然语言表述的信息句转化为三元组结构化的语句:三元组(实体1,实体关系,实体2),实体1即核心关键词,实体2选择为正确答案;
1-4)生成问题题干:将1-2)所述的信息句与1-3)所述的正确答案结合,生成选择题的问题题干;
1-5)扩展正确答案:使用Word2vec模型对1-3)所述的正确答案进行词向量扩展,将正确答案用词向量表示,然后根据语义相似度选择相似度高的词语作为扩展词;
1-6)生成干扰项:基于向量空间模型进行扩展词向量化,使用TF-IDF(TermFrequency- Inverse Document Frequency,词频-逆文档频率)方法计算各个扩展词在向量空间里的权重;
利用LSI模型将文本用“词语-文本”矩阵表示,利用奇异值分解(Singular ValueDecomposition,SVD)将高维稀疏的矩阵转换成低维的文本向量和单词向量,结合扩展词向量空间权重,用余弦相似度方法计算扩展词与知识图谱中三元组的语义相似度;
结合题干内容,根据语义相似度,筛选出三个符合题意且语义相似度较高的干扰项;
1-7)结合题干和干扰项生成选择题。
2.根据权利要求1所述的一种基于自由文本的中文选择题干扰项生成方法,其特征在于,在所述的步骤1-1)中,解析核心关键词的方法步骤如下:
2-1)标记自由文本语句各个部分之间的依存关系,依存关系包括但不限于“主谓关系”、“动宾关系”、“定中关系”、“核心关系”;
2-2)分析语句中存在的“核心关系”,以“谓语”中的动词作为整个语句的中心成分Root,与Root具有核心关系的支配词为语句的核心关键词。
3.根据权利要求1所述的一种基于自由文本的中文选择题干扰项生成方法,其特征在于,在所述的步骤1-6)中,相似度计算的方法步骤如下:
3-1)利用TF-IDF权重计算方法,将每个扩展词的词频与逆文档频率相乘,得到扩展词的TF-IDF权重值;
3-2)基于TF-IDF权重,语句可以用向量表示,语句相似度引申为向量的夹角大小并用余弦相似值,余弦相似值通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110113550.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于温度测量仪的防跟进安全闸门装置
- 下一篇:一种新型暖风器系统布置方法