[发明专利]一种汉语国际教育领域命名实体识别方法在审
申请号: | 201810632981.X | 申请日: | 2018-06-20 |
公开(公告)号: | CN108829678A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 吕晨;姬东鸿;任亚峰;陈波 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 领域命名实体 国际教育 汉语 向量 嵌入 人工设计 标注 规则模板 记忆网络 领域文本 自动特征 数据集 词性 标签 文本 测试 机场 学习 | ||
本发明公开了一种汉语国际教育领域命名实体识别方法,该汉语国际教育领域命名实体识别方法具体步骤如下:S1:设计命名实体标签,用于识别文本中的命名实体,S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,S3:对未标注的汉语国际教育领域文本进行命名实体识别测试,利用已经训练好的模型,跟基于规则的方法相比,本发明避免了领域专家大量人工设计规则模板的问题。本发明采用基于双向长短时记忆网络和条件随机场的深度学习方法,来进行命名实体识别。该方法不需针对该任务人工设计特征,仅仅采用词嵌入向量、字嵌入向量和词性嵌入向量这些自动特征,能够达到很好的效果。
技术领域
本发明涉及汉语国际教育技术领域,具体为一种汉语国际教育领域命名实体识别方法。
背景技术
汉语国际教育的目标是教外国人学习汉语,是中国文化软实力的核心之一,是发扬和传播中华文化的重要载体。近年来,对汉语国际教育而言,利用大数据进行教学和研究是一个比较新的尝试。对汉语国际教育领域文本,包括互联网媒体数据、学术文章、标注资源和教学素材等进行信息抽取,将非结构化文本转换为结构数据,有助于对外汉语教师对该领域知识的理解,辅助汉语教学。
命名实体识别是信息抽取领域的一个关键步骤,目标是从文本中识别重要的实体。对汉语国际教育领域文本,其目标是识别出语音、语法、汉字等用户关心的实体。命名实体识别主要采用基于规则的方法和基于统计的方法。
基于规则的方法主要是通过专家对文本的分析,总结命名实体的内部特征及上下文特征,然后人工设计规则模板,主要以正则表达式匹配的方法来进行命名实体识别。但是这些规则往往依赖于具体语言、文本领域及类型,编写规则耗时且难以涵盖所有的语言现象,需要对规则进行频繁更新才能够保持优秀性能。
目前在命名实体领域,基于统计统计机器学习的方法是当前最广泛使用的方法。各种机器学习方法,包括支持向量机和条件随机场模型,在该领域展现出了优越的性能,但是当前优秀系统的成功依赖于大量人工设计的特征模板。最近深度学习方法在自然语言处理领域取得了显著的进展,在一些任务上获得了优秀的性能,并且能够缓解领域专家人工设计特征的问题。
发明内容
本发明的目的在于提供一种汉语国际教育领域命名实体识别方法,其特征在于:该汉语国际教育领域命名实体识别方法具体步骤如下:
S1:设计命名实体标签,用于识别文本中的命名实体,对汉语国际教育领域文本识别一下几种类别的实体:
语音(Voice):包括元音、辅音、声母、韵母、声调等,
语法(Grammar):包括句子成分、句子结构、固定短语等,
汉字(Character):包括结构、笔画、笔顺等,
文化(Culture):包括基本文化、交际文化、对比文化等,
语言技能(Skill):包括听力、口语、商务汉语、新闻听读等,
教学法(Teach):教学原则、类型、目标等,
命名实体识别就被形式化为一个序列标注问题,采用BIESO标签来表示命名实体边界,其中,S表示仅包含一个词的实体;当实体包含大于一个词时,B表示实体的开始词,E表示实体的结束词,I表示实体的内部词;O表示不属于任何实体的词;
S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,
首先,给定一个输入句子,输入层用于计算每个输入词的向量表示,该向量表示包括三部分:词嵌入向量、词性嵌入向量和字级别表示,将这三部分联接起来,得到句子中每个词的向量表示,并将其作为输入层输入到LSTM层,在LSTM输出的基础上,采用CRF对整个句子的标签序列进行联合解码,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810632981.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多模态注意力的图像标题自动生成方法
- 下一篇:语料标注方法及装置