[发明专利]一种地理学科领域命名实体识别方法有效
申请号: | 201710422919.3 | 申请日: | 2017-06-07 |
公开(公告)号: | CN107133220B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 李慧颖;徐飞飞 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/284;G06F40/30;G06F40/211 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 211189 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种地理学科领域命名实体识别方法,识别出地理学科核心术语类和地理区域位置类实体,主要包括三个步骤:(1)地理学科领域词典构建,采用新词发现算法无监督地识别出地理学科领域新词。(2)基于条件随机场(CRF)模型和多通道卷积神经网络(MCCNN)模型进行训练与测试。(3)基于规则的方法,纠错和融合模型识别出的实体。本发明采用新词发现算法无监督识别领域新词作为词典,以提高分词效果。从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为MCCNN模型的输入特征,避免了手动选取和构建特征。自定义规则融合两种模型的预测结果,纠正识别过程中的错误标记问题。 | ||
搜索关键词: | 一种 地理 学科 领域 命名 实体 识别 方法 | ||
【主权项】:
一种地理学科领域命名实体识别方法,其特征在于,包括如下步骤:1)先标注语料,然后采用新词发现算法构建地理学科领域词典;2)通过无标注的文本和步骤1中构建的地理学科领域词典,进行学习单词的特征表示;3)通过多通道卷积神经网络模型训练和预测,多通道中其中一个通道的输入是句子中每个单词wi的上下文特征φ(wi),倾向于捕捉词的句法和语义信息;另一个通道的输入是单词wi的基础特征,选取词性、词长和词频,关于词的基本特征,倾向于捕捉词的表层特征;4)首先对无标注的文本和地理学科领域词典构成的数据集进行预处理,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取,选取出常用特征和地理学科领域特征,最后根据条件随机场模型进行训练和预测;5)采用基于规则的方法对步骤3和步骤4预测结果进行纠错和融合,得到最后的预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710422919.3/,转载请声明来源钻瓜专利网。