[发明专利]一种基于混合模型的命名实体识别方法有效
申请号: | 201611205877.X | 申请日: | 2016-12-23 |
公开(公告)号: | CN106649272B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 信俊昌;贾大宇;王国仁;聂铁铮 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 命名 实体 识别 方法 | ||
1.一种基于混合模型的命名实体识别方法,其特征在于,包括以下步骤:
步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;
步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;
F值是识别准确率和识别召回率的加权调和平均值,即
步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;
步骤4:构建基于基础词典和自适应的统计识别模型的混合模型,在混合模型中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别出的识别结果补充到基础词典的知识库中,更新基础词典,供下一次识别使用。
2.根据权利要求1所述的一种基于混合模型的命名实体识别方法,其特征在于,所述的步骤2包括以下步骤:
步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;
步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;
步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;
步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。
3.根据权利要求1所述的一种基于混合模型的命名实体识别方法,其特征在于,所述的
步骤3包括以下步骤:
步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;
步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;
步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611205877.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:儿童安全座椅(CC02)
- 下一篇:休闲椅(61081)