[发明专利]一种藏文命名实体的标注方法有效

申请号：	201810059120.7	申请日：	2018-01-22
公开（公告）号：	CN108268447B	公开（公告）日：	2020-12-01
发明（设计）人：	夏建华;张进兵;韩立新	申请（专利权）人：	河海大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06K9/62
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	211100 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种藏文命名实体标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种藏文命名实体的标注方法，其特征在于，该方法包括如下步骤：

对未标注数据进行规范化处理，得到未标注的规范化语料，将新标注的命名实体加入到原标注语料；

利用标注语料训练名词短语标注器Semi-Markov CRFs_1，再利用其对规范化语料进行名词短语的分割和标注；

读取标注语料和规范化语料，建立字、词、短语和命名实体联合的CBOW模型，通过CBOW模型的训练得到语料矩阵和名词性的字、词、短语和命名实体的向量空间；

基于向量空间，利用KNN算法找到未标注名词短语的K个最近邻的标注命名实体，计算未标注名词短语与K个最近邻的标注命名实体之间的cosine相似度，然后先从K近邻中选择相似值大于预设阈值λ的q个命名实体，0≤q≤K，如果q0，则把未标注名词短语的命名实体类别取为K个最近邻中最大cosine相似度的命名实体的类别；将新标注的命名实体加入到标注语料，使规范化语料得到部分标注；

读取标注语料的序列数据，对细粒度标注器Semi-Markov CRFs_2进行训练；再利用Semi-Markov CRFs_2对规范化语料中未标注的命名实体进行标注，实现命名实体的全标注。

2.根据权利要求1藏文命名实体的标注方法，其特征在于，所述规范化处理包括：分词和语句规范化、标点符号规范化、分词与词性标注规范化和去停用词规范化。

3.根据权利要求1藏文命名实体的标注方法，其特征在于，所述语料矩阵的获取方法如下：

首先，构建一个包含字、词、短语和命名实体四个子集合的字典，将字典的每个元素进行向量初始化操作：给每个元素赋值一个400～600维的随机向量，每个维度取值限制在[-1,1]；

其次，建立一个长度为5的滑动窗口，从标注语料和已名词标注的规范化语料中顺序地滑动读取数据，得到窗口数据win＝x_-2x_-1x₀x₊₁x₊₂，其中0表示窗口的中心位置，x₀表示目标词；

用Context＝{x_±p，p＝1，2}表示x₀的上下文，并进行x₀的上下文词向量的预处理，对x_±p为词、短语或命名实体时，分别作如下处理：

当x_±p∈{字}，x_±p的向量取值为字向量characher_vector；

当x_±p∈{词}，x_±p的向量取值为词向量word_vecotr，公式如下：

式中，word_vecotr表示x_±p属于词时对应的向量，character_jvector表示词中第j个藏文字的向量，|N_±p|表示目标词x₀的某个上下文词x_±p包含的字的个数；

当x_±p∈{短语}，x_±p的向量取值为短语向量chunking_vector，公式如下：

其中，chunking_vector表示x_±p属于短语时对应的向量，表示短语中第q个藏文词的向量，|N′_±p|表示目标词x₀的某个上下文词x_±p包含的词个数；

当x_±p∈{命名实体}，则按其属于上述字、词、短语的对应类别进行相应处理；

然后，计算输入到CBOW的x₀的上下文的向量均值Context(x₀)，公式如下：

式中，Context(x₀)表示CBOW模型的输入；p＝1，2；

利用对比噪音估计，建立CBOW学习算法的目标函数，公式如下：

式中，θ表示Context(x₀)的权重向量；D表示语料库；表示激活函数；x′₀表示负样本；NCE(x′₀)表示负样本集合，x₀不属于此集合；Context(x′₀)表示负样本的上下文的词向量均值，负样本是指窗口中的原目标词被替换为x′₀；

最后，利用随机梯度上升算法学习参数，更新上下文词向量；当CBOW遍历整个语料，得到语料矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810059120.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种缺陷信息的处理方法及装置
下一篇：一种基于网络新闻的舆情分析方法、系统及介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种藏文命名实体的标注方法有效

专利文献下载