[发明专利]一种基于混合模型的命名实体识别方法有效

专利信息
申请号: 201611205877.X 申请日: 2016-12-23
公开(公告)号: CN106649272B 公开(公告)日: 2019-06-25
发明(设计)人: 信俊昌;贾大宇;王国仁;聂铁铮 申请(专利权)人: 东北大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 李运萍
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于混合模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成的基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建基于基础词典和自适应的统计识别模型的混合模型,对待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别结果补充到知识库中,更新基础词典,供下一次识别使用。本发明的识别准确率和识别召回率有显著提高。
搜索关键词: 一种 基于 混合 模型 命名 实体 识别 方法
【主权项】:
1.一种基于混合模型的命名实体识别方法,其特征在于,包括以下步骤:步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;F值是识别准确率和识别召回率的加权调和平均值,即步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;步骤4:构建基于基础词典和自适应的统计识别模型的混合模型,在混合模型中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别出的识别结果补充到基础词典的知识库中,更新基础词典,供下一次识别使用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611205877.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top