[发明专利]一种写人作文篇章结构合理性自动评测方法有效
申请号: | 201910552305.6 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110427609B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 刘杰;余笑岩;周建设;张凯;骆力明 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06N3/08 |
代理公司: | 北京荟英捷创知识产权代理事务所(普通合伙) 11726 | 代理人: | 左文 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 作文 篇章 结构 合理性 自动 评测 方法 | ||
1.一种写人作文篇章结构合理性评测方法,其特征在于,包括篇章结构组成评测的步骤以基于该篇章结构组成评测的结果从结构组成角度评估篇章结构合理性;所述篇章结构组成评测包括待评测文本自动分类的步骤:
(a1)获取文本样本集,所述文本样本集中每一文本均包含若干段落,所述段落均具有事先确定的段落类别标签;
(a2)将所述文本样本集中的一部分文本作为训练集,另一部分作为测试集;
(a3)提取所述训练集中文本的文本特征,并与所述训练集中文本以及所述训练集中所述事先确定的段落类别标签一同输入机器学习模型中进行机器学习训练;
(a4)提取所述测试集中文本的文本特征,并与所述测试集中文本一同输入经所述机器学习训练的机器学习模型,获得所述测试集中文本段落对应的段落类别标签;
(a5)若所述测试集中文本的获得的测试集中文本段落对应的段落类别标签,相对于所述测试集中文本的所述事先确定的段落类别标签的准确率未达到第一预定准确率则返回步骤(a3)和(a4)迭代训练,直至达到所述第一预定准确率后进入步骤(a6);
(a6)将待评测文本集输入步骤(a5)中达到所述第一预定准确率后的机器学习模型,以获得所述待评测文本集中文本的各段落对应的段落类别标签;
其中,所述段落类别标签为:“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类;
其中,在所述步骤(a3)和(a4)中,提取的文本特征均为:词性占比的特征提取、方差的特征提取和Doc2Vec的特征提取;
其中,所述词性占比的特征提取为提取文本中各段落中的名词、动词、形容词和副词占比;
所述方差的特征提取为:提取各特征词在不同类别的段落中的经归一化处理的平均偏方差V(t)归一,如下式所示:
式中,m的取值为1,2,3,4,5,分别代表所述“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签,Dfi(t)表示特征词t在ci中出现的频度,ci为某种类别的段落,代表t在各类段落中的平均值;所述特征词为名词、动词、形容词和副词中之一;
所述Doc2Vec的特征提取为利用Doc2Vec算法对文本中各段落进行向量化运算并提取特征向量;
并且,所述机器学习模型为基于条件随机场CRF算法的模型。
2.根据权利要求1所述的写人作文篇章结构合理性评测方法,其特征在于:所述篇章结构组成评测还包括篇章结构组成评分的步骤:
(b1)判断所述5类段落类别标签中的每一类在所述步骤(a6)分类后的待评测文本集中的存在情况,如下式所示:
n的取值为1,2,3,4,5,分别代表所述“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签,comvaln代表类别n的赋值;
(b2)将“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签分别赋予权重comweightn,如下式所示:
(b3)综合步骤(b1)中存在情况的表达式和步骤(b2)中赋予权重的表达式,得到篇章结构组成评测模型comscore,如下式所示,以对篇章结构组成进行评分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910552305.6/1.html,转载请声明来源钻瓜专利网。