[发明专利]一种面向国际汉语教学的语法点识别方法有效
申请号: | 201610073550.5 | 申请日: | 2016-02-02 |
公开(公告)号: | CN105786971B | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 宋继华;彭炜明;王宁;宋天宝;胞央央;郭冬冬;朱雪 | 申请(专利权)人: | 宋继华;彭炜明;王宁;宋天宝;郭冬冬 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F17/27;G06N5/02 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国富 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 国际 汉语 教学 语法 识别 方法 | ||
1.一种面向国际汉语教学的语法点自动识别的方法,其特征在于,包括如下步骤:
S1,依据语法大纲确定语法知识库;
S2,通过对国际汉语教材的标注分析,结合S1中确定的所述语法知识库,获取面向教学实际选取的待识别语法点;
S3,结合所述待识别语法点,通过正则匹配技术对待分析文本进行语法点自动识别,获取所述待分析文本中包含的语法点;
S3之后还包括步骤:S4,根据不同的教学等级,或,计算表征所述待分析文本中识别出的各语法点重要程度的TF-IDF-W值,根据TF-IDF-W值对所述待分析文本中包含的语法点进行推荐;
S4包括如下步骤:
①检验用户是否输入等级信息,若是,则根据用户输入的所述等级信息推荐所述待分析文本中包含的语法点;否则,执行第②步;
②计算所述待分析文本中包含的语法点的TF值,TF值衡量各语法点在待分析文本中的重要程度;
③计算所述待分析文本中包含的语法点的IDF值,IDF值衡量各语法点在教材库课文中的重要程度;
④计算所述待分析文本中包含的语法点的W值,W值衡量各语法点在教材库课后讲解中的重要程度;
⑤综合TF值、IDF值和W值,计算得到表征所述待分析文本中包含的各语法点重要程度的TF-IDF-W值;
⑥按照所述待分析文本中包含的语法点的TF-IDF-W值从高到低的顺序,对所述待分析文本中包含的语法点进行推荐。
2.根据权利要求1所述的语法点自动识别的方法,其特征在于,S1中,按照“语法类→分级语法项→语法点”的层级组织确定所述语法知识库框架,所述语法类包括:语素、实词、虚词、短语、句子成分、单句、句式、动作的态和复句,每个所述语法类下设置若干所述分级语法项,所述分级语法项最终细化为若干所述语法点,最终形成若干层级的所述语法知识库框架。
3.根据权利要求2所述的语法点自动识别的方法,其特征在于,所述层级为5级,所述语法类、分级语法项、语法点共715条,所述待识别语法点为10358条。
4.根据权利要求1所述的语法点自动识别的方法,其特征在于,S2包括如下步骤:
S201,对国际汉语教材进行标注分析,获取所述国际汉语教材的语法点;
S202,根据所述国际汉语教材的语法点对所述语法知识库进行扩充和补足,得到更新的语法知识库;
S203,判断所述更新的语法知识库中的语法点在教学实际中的讲解频次是否达到了设定值,如果是,则作为待识别语法点,并执行S3,否则,结束。
5.根据权利要求4所述的语法点自动识别的方法,其特征在于,S202具体为:将所述国际汉语教材的语法点与所述语法知识库中的语法点进行比对,找出所述语法知识库中,不存在的语法点、描述语不同的已有语法点以及等级设置不一致的语法点,然后对所述语法知识库进行扩充和补足。
6.根据权利要求1所述的语法点自动识别的方法,其特征在于,S3包括如下步骤:
S301,对待分析文本按照断句标点进行切句,得到切分好的句子;
S302,对每一个所述待识别语法点,编写正则表达式,得到所有所述待识别语法点的正则表达式;
S303,利用S302中编写的所述待识别语法点的正则表达式循环匹配S301中得到的所述切分好的句子,自动识别所述待分析文本中包含的语法点;
其中,S301和S302的顺序可对调。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋继华;彭炜明;王宁;宋天宝;郭冬冬,未经宋继华;彭炜明;王宁;宋天宝;郭冬冬许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610073550.5/1.html,转载请声明来源钻瓜专利网。