[发明专利]一种面向国际汉语教学的语法点识别方法有效
申请号: | 201610073550.5 | 申请日: | 2016-02-02 |
公开(公告)号: | CN105786971B | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 宋继华;彭炜明;王宁;宋天宝;胞央央;郭冬冬;朱雪 | 申请(专利权)人: | 宋继华;彭炜明;王宁;宋天宝;郭冬冬 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F17/27;G06N5/02 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国富 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 国际 汉语 教学 语法 识别 方法 | ||
本发明公开了一种面向国际汉语教学的语法点识别方法,涉及汉语语法点识别技术领域。该方法,依据语法大纲确定语法知识库,结合对国际汉语教材的标注分析,补充完善语法知识库,并面向教学实际选取待识别语法点,通过正则匹配技术实现待分析文本中语法点的自动识别。本发明没有考虑基于短语结构和依存结构的自动句法分析方法,而是基于教学实际,构建配套的资源,采用实用的工具,最终实现了面向国际汉语教学的语法点的自动识别,达到了满足国际汉语教学语法点识别需求的目标。
技术领域
本发明涉及汉语语法点识别技术领域,尤其涉及一种面向国际汉语教学的语法点识别方法。
背景技术
语法是实现语言交际功能的规则,是正确理解和表达意思的基础,在汉语国际推广的过程中,掌握汉语语法规律始终是教学的重点与难点。
目前,语法特征信息的提取依赖于句式结构的整体格局,而在削弱了句式结构整体性的短语树和依存树这两大主流树库中,语法点的特征信息的提取变得极其困难,语法教学资源建设在规范化、规模化、信息化、自动化等方面均无法满足当前国际汉语教学的领域需求。
因此解决面向国际汉语教学的语法点自动识别问题,对国际汉语教学的推广及教学效果的提升有着重要意义。
发明内容
本发明的目的在于提供一种面向国际汉语教学的语法点识别方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种面向国际汉语教学的语法点自动识别的方法,包括如下步骤:
S1,依据语法大纲确定语法知识库;
S2,通过对国际汉语教材的标注分析,结合S1中确定的所述语法知识库,获取面向教学实际选取的待识别语法点;
S3,结合所述待识别语法点,通过正则匹配技术对待分析文本进行语法点自动识别,获取所述待分析文本中包含的语法点。
优选地,S1中,按照“语法类→分级语法项→语法点”的层级组织确定所述语法知识库框架,所述语法类包括:语素、实词、虚词、短语、句子成分、单句、句式、动作的态和复句,每个所述语法类下设置若干所述分级语法项,所述分级语法项最终细化为若干所述语法点,最终形成若干层级的所述语法知识库框架。
优选地,所述层级为5级,所述语法类、分级语法项、语法点共715条,所述待识别语法点为10358条。
优选地,S2包括如下步骤:
S201,对国际汉语教材进行标注分析,获取所述国际汉语教材的语法点;
S202,根据所述国际汉语教材的语法点对所述语法知识库进行扩充和补足,得到更新的语法知识库;
S203,判断所述更新的语法知识库中的语法点在教学实际中的讲解频次是否达到了设定值,如果是,则作为待识别语法点,并执行S3,否则,结束。
优选地,S202具体为:将所述国际汉语教材的语法点与所述语法知识库中的语法点进行比对,找出所述语法知识库中,不存在的语法点、描述语不同的已有语法点以及等级设置不一致的语法点,然后对所述语法知识库进行扩充和补足。
优选地,S3包括如下步骤:
S301,对待分析文本按照断句标点进行切句,得到切分好的句子;
S302,对每一个所述待识别语法点,编写正则表达式,得到所有所述待识别语法点的正则表达式;
S303,利用S302中编写的所述待识别语法点的正则表达式循环匹配S301中得到的所述切分好的句子,自动识别所述待分析文本中包含的语法点;
其中,S301和S302的顺序可对调。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋继华;彭炜明;王宁;宋天宝;郭冬冬,未经宋继华;彭炜明;王宁;宋天宝;郭冬冬许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610073550.5/2.html,转载请声明来源钻瓜专利网。