[发明专利]一种汉语国际教育领域命名实体识别方法在审
申请号: | 201810632981.X | 申请日: | 2018-06-20 |
公开(公告)号: | CN108829678A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 吕晨;姬东鸿;任亚峰;陈波 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种汉语国际教育领域命名实体识别方法,该汉语国际教育领域命名实体识别方法具体步骤如下:S1:设计命名实体标签,用于识别文本中的命名实体,S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,S3:对未标注的汉语国际教育领域文本进行命名实体识别测试,利用已经训练好的模型,跟基于规则的方法相比,本发明避免了领域专家大量人工设计规则模板的问题。本发明采用基于双向长短时记忆网络和条件随机场的深度学习方法,来进行命名实体识别。该方法不需针对该任务人工设计特征,仅仅采用词嵌入向量、字嵌入向量和词性嵌入向量这些自动特征,能够达到很好的效果。 | ||
搜索关键词: | 命名实体 领域命名实体 国际教育 汉语 向量 嵌入 人工设计 标注 规则模板 记忆网络 领域文本 自动特征 数据集 词性 标签 文本 测试 机场 学习 | ||
【主权项】:
1.一种汉语国际教育领域命名实体识别方法,其特征在于:该汉语国际教育领域命名实体识别方法具体步骤如下:S1:设计命名实体标签,用于识别文本中的命名实体,对汉语国际教育领域文本识别一下几种类别的实体:语音(Voice):包括元音、辅音、声母、韵母、声调等,语法(Grammar):包括句子成分、句子结构、固定短语等,汉字(Character):包括结构、笔画、笔顺等,文化(Culture):包括基本文化、交际文化、对比文化等,语言技能(Skill):包括听力、口语、商务汉语、新闻听读等,教学法(Teach):教学原则、类型、目标等,命名实体识别就被形式化为一个序列标注问题,采用BIESO标签来表示命名实体边界,其中,S表示仅包含一个词的实体;当实体包含大于一个词时,B表示实体的开始词,E表示实体的结束词,I表示实体的内部词;O表示不属于任何实体的词;S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,首先,给定一个输入句子,输入层用于计算每个输入词的向量表示,该向量表示包括三部分:词嵌入向量、词性嵌入向量和字级别表示,将这三部分联接起来,得到句子中每个词的向量表示,并将其作为输入层输入到LSTM层,在LSTM输出的基础上,采用CRF对整个句子的标签序列进行联合解码,对于输入层,给定一个输入句子s,可以看作包含m个词的有序链表s={wi,…,wm},为了获取词的字级别表示,我们用{c1,…,cn}表示词wi的字序列,其中cj是词的第j个字,字嵌入查找表函数用于将每个字cj映射到它的字嵌入表示对词wi,采用注意力模型来对词本身包含的字信息进行编码,获取词的字级别表示,在该模型中,其中是wi的字信息表示,是对应的权重,⊙是点积函数并且每个的计算基于当前词wi的词嵌入表示和当前字的字嵌入表示具体计算公式如下:其中是向量联接函数,Wc、Wt、Ut、bc和bt是模型参数,将字级别表示词性嵌入向量和词嵌入向量结合起来得到当前位置的词表示,然后,我们使用一个窗口函数来对当前词的上下文建模,将以当前词wi为中心的5个词的词表示联接起来作为当前词最终的词表示输入到下一层,下一步,将句子序列对应的词的向量表示序列,输入到LSTM神经网络层,LSTM用于获取一个词的上下文信息,能够进行自动的特征抽取,前向LSTM和后向LSTM能够在该层结合起来,LSTM神经网络层之后,是一个用于组成更丰富特征的非线性前馈神经网络层;最后,神经网络的输出向量传输到CRF层,我们通过CRF层对该句子的标记序列进行联合解码,能够考虑到相邻标记间的相关性;在模型训练方面,采用最大似然目标来训练模型,并且采用AdaGrad算法来更新模型参数;模型的参数包含输入层中的各种嵌入向量、每个神经层的权重矩阵W和偏置向量b,以及CRF层的转移分值矩阵;在模型参数初始化方面,词嵌入向量需要大规模无标注语料预先训练得到,采用的训练语料来自于互联网爬取的汉语国际教育相关语料,所选语料并不是通用语料,这样训练出来的词嵌入向量更适合于该领域任务。然后我们对该语料进行分词,使用当前常用的词嵌入向量学习方法word2vec来训练词嵌入向量,对字嵌入向量和词性嵌入向量,我们将其向量维度设置为30,并且采用[0,1]范围之间的随机初始化,对神经网络模型中的每个神经层,权重矩阵W和偏置向量b采用之间的随机初始化,其中r和c分别是矩阵W和行数和列数;S3:对未标注的汉语国际教育领域文本进行命名实体识别测试,利用已经训练好的模型,对整个句子进行解码,得到每个句子的实体标签序列,进而得到命名实体识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810632981.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多模态注意力的图像标题自动生成方法
- 下一篇:语料标注方法及装置