[发明专利]基于百科知识库和词向量的中文地名语义消歧方法有效
申请号: | 201911029961.4 | 申请日: | 2019-10-28 |
公开(公告)号: | CN110781670B | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 张春菊;陈玉冰;张雪英;汪陈;张凯 | 申请(专利权)人: | 合肥工业大学;南京师范大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F40/216;G06F40/194;G06N3/0442;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 百科 知识库 向量 中文 地名 语义 方法 | ||
1.一种基于百科知识库和词向量的中文地名语义消歧方法,其特征在于,包括如下步骤:
步骤一:采用开源中文维基百科语料,利用Jieba工具进行分词,基于Word2vec工具进行训练得到预训练词向量模型;
步骤二:利用地名标注语料对Bi-LSTM与CRF集成的地名识别模型进行训练得到预训练地名识别模型;
步骤三:采用步骤二得到的预训练地名识别模型,识别待消歧地名所在文本中的所有地名,形成地名列表Q,并通过步骤一得到的预训练词向量模型进行表示,得到词向量VecQ;
步骤四:基于百科知识库,搜索歧义地名,并利用网络爬虫技术通过抓取百科内层的URL地址并解析,获取歧义地名对应的义项名列表和义项内容;
步骤五:采用步骤二得到的预训练地名识别模型,对步骤四中每条义项内容进行地名识别,分别生成对应的地名列表Ki,并通过步骤一得到的预训练词向量模型进行表示,得到词向量
步骤六:使用余弦相似度方法计算VecQ与每个的相似度,得到词向量相似度
步骤七:采用Jieba工具对歧义地名的每个义项名进行分词,得到歧义地名的共现词组列表;然后进行歧义地名的义项频率统计,统计词组列表中的每个词组在地名列表Q中出现的频率Pi;
步骤八:采用评分方式对词向量相似度和义项频率Pi进行综合考虑,得分最高的义项名即为歧义地名最可能指代的地理位置。
2.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤二中具体包括:
Step 1:获取地名训练语料:包括地理百科语料和微软语料;
Step 2:将两种语料进行混合,将实验语料分为85%的训练集,8%的测试集和7%的验证集三个部分;
Step 3:将Step 2中训练语料转化为将输入层的句子序列作为Bi-LSTM各个时间步的输入,再将正向LSTM隐输出序列与反向LSTM隐输入序列按位置拼接,得到完整的隐输出序列,充分考虑上文和下文的语义描述信息,实现特征的深度学习与表示;
Step 4:结合CRF模型,预测句子的序列标注,并与所输入句子的序列标注标签进行比对和迭代,得到最终预训练的地名识别模型。
3.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤六中使用余弦相似度方法判断待消歧地名所在文本中的地名列表对应的词向量与歧义地名的每个义项内容中的地名列表对应的词向量的相似度,计算公式为:
上式中,VecQ表示待消歧地名所在文本中的地名列表对应的词向量,表示歧义地名的每个义项内容中的地名列表对应的词向量,N表示歧义地名的义项名个数。
4.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤七中义项频率计算公式为:
式中,ni表示第i个义项名的共现词组在待消歧文本生成的地名列表Q中出现的次数,M表示从待消岐文本中识别出的地名总数,N表示歧义地名的义项名个数。
5.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤八中采用评分方式对词向量相似度和义项频率Pi进行综合考虑的计算公式为:
式中,参数α∈(0,1),表示比重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学;南京师范大学,未经合肥工业大学;南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911029961.4/1.html,转载请声明来源钻瓜专利网。