[发明专利]一种藏文命名实体的标注方法有效

申请号：	201810059120.7	申请日：	2018-01-22
公开（公告）号：	CN108268447B	公开（公告）日：	2020-12-01
发明（设计）人：	夏建华;张进兵;韩立新	申请（专利权）人：	河海大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06K9/62
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	211100 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种藏文命名实体的标注方法，通过半监督学习方式，利用标注语料训练双粒度模型，即粗粒度级的基于词向量KNN聚类的NER和细粒度级的基于半马尔可夫的CRFs的NER，然后对未标注语料进行标注，并将新标注实体加入到标注语料进行双粒度模型的二次训练，迭代式提升双粒度NER。本发明克服了监督学习过度依赖标注语料的局限性、传统CRFs类方法单独式判别方式的问题，融合了实体语义特征、命名实体之间的相互作用等特征，以及结合了聚类和概率图，从命名实体的语义和语法结构的优势互补角度来提高模型拟合度，实现了集体式地NER，有效地提高了藏文命名实体识别的准确率和效率。
搜索关键词：	一种藏文命名实体标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种藏文命名实体的标注方法，其特征在于，该方法包括如下步骤：对未标注数据进行规范化处理，得到未标注的规范化语料，将新标注的命名实体加入到原标注语料；利用标注语料训练名词短语标注器Semi‑Markov CRFs_1，再利用其对规范化语料进行名词短语的分割和标注；读取标注语料和规范化语料，建立字、词、短语和命名实体联合的CBOW模型，通过CBOW模型的训练得到语料矩阵和名词性的字、词、短语和命名实体的向量空间；基于向量空间，利用KNN算法找到未标注名词短语的K个最近邻的标注命名实体，计算未标注名词短语与K个最近邻的标注命名实体之间的cosine相似度，然后先从K近邻中选择相似值大于预设阈值λ的q个命名实体，0≤q≤K，如果q>0，则把未标注名词短语的命名实体类别取为K个最近邻中最大cosine相似度的命名实体的类别；将新标注的命名实体加入到标注语料，使规范化语料得到部分标注；读取标注语料的序列数据，对细粒度标注器Semi‑Markov CRFs_2进行训练；再利用Semi‑Markov CRFs_2对规范化语料中未标注的命名实体进行标注，实现命名实体的全标注。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810059120.7/，转载请声明来源钻瓜专利网。

上一篇：一种缺陷信息的处理方法及装置
下一篇：一种基于网络新闻的舆情分析方法、系统及介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种藏文命名实体的标注方法有效

专利文献下载