[发明专利]一种面向国际汉语教学的句子难度等级评定方法及系统有效
申请号: | 202010180634.5 | 申请日: | 2020-03-16 |
公开(公告)号: | CN111523299B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 宋继华;朱淑琴;张引兵;孙京博;陈晨;彭炜明;郭冬冬;宋天宝 | 申请(专利权)人: | 宋继华;彭炜明;宋天宝 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 国际 汉语 教学 句子 难度 等级 评定 方法 系统 | ||
1.一种面向国际汉语教学的句子难度等级评定方法,其特征在于,包括以下步骤:
S1,获取需要进行句子难度等级评定的句子;
S2,根据语法难度等级评定的精度需求,对S1获取的句子进行信息标注;其中,所述信息标注包括词法信息标注或句法信息标注;所述词法信息标注是指:对句子进行中文分词和词类标注,得到词语、词类的序列信息;所述句法信息标注是指:对句子进行句法信息标注,得到词语、词类编码、义项编码和句法结构的XML信息;
S3,根据国际汉语教学词汇大纲构建国际汉语分级词汇知识库;
S301,获取带词类和释义信息的现代汉语基础词库,所述带词类和释义信息的现代汉语基础词库包括不成词的语素;在所述带词类和释义信息的现代汉语基础词库的基础上,增补信息处理用词汇,得到国际汉语教学综合词库;对所述国际汉语教学综合词库中的词条的词类和义项进行编码;
S302,获取国际汉语教学语料库,采用S2所述方法对所述国际汉语教学语料库进行信息标注,对S301得到的所述国际汉语教学综合词库中的词语统计其在国际汉语教学语料库中的频次;
S303,对S301中的国际汉语教学综合词库中的词语进行构词分析,标注词素及其词类、义项,以及词语的结构方式、词义合成类型,得到词汇构词模式知识库;
S304,根据S303所得词汇构词模式知识库,为S3所述国际汉语教学词汇大纲中的词条补充词类编码、义项编码、词语的结构方式、词义合成类型以及词语的频次信息,得到新的国际汉语教学词汇大纲;
S305,对S304所述新的国际汉语教学词汇大纲进行词汇类推扩展,得到国际汉语分级词汇知识库;
S4,根据S3所述国际汉语分级词汇知识库,获取S2中所得词语的等级信息,并确定句子的词汇难度等级;
S5,根据国际汉语教学语法大纲构建国际汉语分级语法知识库;
S6,根据S5所述国际汉语分级语法知识库,获取S2中句子的语法点,并确定句子的语法难度等级;
S7,根据S4所述词汇难度等级和S6所述语法难度等级,评定句子难度等级;
S305包括如下步骤:
S30501,基于S304所述新的国际汉语教学词汇大纲,采用“减字默认词”扩展学习示例,总结词汇减字扩展类推方法,进行系统性的减字等级类推,得到减字扩展词表;
S30502,基于S304所述新的国际汉语教学词汇大纲和S30501所得的减字扩展词表,根据“重组默认词”扩展学习示例,总结词汇组合扩展类推方法,进行系统性的组合等级类推,得到组合扩展词表;
S30503,根据S304所述新的国际汉语教学词汇大纲、S30501所得的减字扩展词表、S30502所得的组合扩展词表以及现代汉语分类词典进行同类等级类推,得到同类扩展词表;
S30504,根据S304所述新的国际汉语教学词汇大纲、S30501所得的减字扩展词表、S30502所得的组合扩展词表、S30503所得的同类扩展词表,得到国际汉语分级词汇知识库;
其中,S30501中的减字等级类推,以及S30502中的组合等级类推的方法如下:
根据S304所述新的国际汉语教学词汇大纲中的词语的结构方式和词义合成类型,选取每一词义合成类型为“惯指”的词条;
基于S2中的词法信息标注方法,根据S3所述的国际汉语分级词汇知识库,按照“词素+词类编码”进行减字等级类推和组合等级类推;
基于S2中的句法信息标注方法,根据S3所述的国际汉语分级词汇知识库,按照“词素+义项编码”进行减字等级类推和组合等级类推;
其中,S30503包括如下步骤:
S30503a,获取S302中所述国际汉语教学语料库中的所有词语,并删除单音节词语、S30501所述减字扩展词表和S30502所述组合扩展词表中的词语,获得待类推词语集;
S30503b,根据S30503所述现代汉语分类词典,针对S30503a所述待类推词语集进行分类,获取同类词集;
S30503c,针对S30503b所述同类词集的每一类别的词语,获取每一类别中出现在S304所述新的国际汉语教学词汇大纲中的词语及其等级,得到词语等级集合;
S30503d,根据S30503c所述词语等级集合,选取每一类别中等级最高的词语的等级,作为该类别出现在S30503a所述待类推词语集,但未出现在S304所述新的国际汉语教学词汇大纲中词语的等级,得到同类扩展词表;
其中,S4中,根据S3所述国际汉语分级词汇知识库,获取S2中所得词语的等级信息,具体包括以下步骤:
基于S2所述词法信息标注的方法,按照“词素+词类编码”方式,查找得到词汇难度等级;
基于S2所述句法信息标注的方法,按照“词素+义项编码”方式,查找得到词汇难度等级;
S4中,句子的词汇难度等级采用以下公式计算:
SentWordLevel=Max(wl1,…wli,…wln)
其中:
SentWordLevel:句子的词汇难度等级;
Max:取最大值;
wl1:句子中第1个词语的难度等级;
wli:句子中第i个词语的难度等级;
wln:句子中第n个词语的难度等级,n为句子的词语总数;
其中,S6中,获取S2中句子的语法点,具体方式如下:
基于S2中的所述词法信息标注的方法,根据国际汉语分级语法知识库,采用面向国际汉语教学的语法点识别方法,获得含有正则表达式的国际汉语分级语法知识库;
基于S2中的所述句法信息标注的方法,根据国际汉语分级语法知识库和S2中所述XML信息,编写XPath表达式,构建含有XPath表达式的国际汉语分级语法知识库;
S6中,句子的语法难度等级通过以下公式计算:
SentGramLevel=Max(gl1,…gli,…gln)
其中:
SentGramLevel:句子的语法难度等级;
Max:取最大值;
gl1:句子中第1个语法的难度等级;
gli:句子中第i个语法的难度等级;
gln:句子中第n个语法的难度等级,n为句子的语法总数;
其中,S7中,句子难度等级通过以下公式计算:
SentLevel=Max(SentWordLevel,SentGramLevel)
其中:
SentLevel:句子难度等级;
SentWordLevel:词汇难度等级;
SentGramLevel:语法难度等级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋继华;彭炜明;宋天宝,未经宋继华;彭炜明;宋天宝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010180634.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水知识概念图谱模型构建方法
- 下一篇:一种建筑工地堆放材料用的防护棚