[发明专利]一种融入文档词权重的跨境民族文化文本检索方法在审
申请号: | 202110096623.3 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112948537A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 张亚飞;龙小龙 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 文档 权重 民族文化 文本 检索 方法 | ||
1.一种融入文档词权重的跨境民族文化文本检索方法,其特征在于:所述方法的具体步骤如下:
Step1、用深度学习开源词向量工具word2vec的Skip-gram方法对跨境民族文化文本数据集中进行词向量语义学习训练,得到预训练好的查询词向量和文档词向量;
Step2、将训练好的查询词向量和文档词向量输入到BiLSTM方法,得到查询词隐向量和文档词隐向量;
Step3、通过TF-IDF方法计算出文档词中每个实体的权重,并融入到文档词隐向量中,再把查询词隐向量和融入实体权重后的文档词隐向量通过相似度计算构建成一个交互矩阵;
Step4、利用CNN提取交互矩阵上的特征,得到基本的关联特征,再通过max-pooling提取最强特征,并投影到多层感知器神经网络中,最终获得查询与文档的匹配得分。
2.根据权利要求1所述的融入文档词权重的跨境民族文化文本检索方法,其特征在于:所述步骤Step3中,构建交互矩阵的公式如下:
gqi=softmax(wqiqi),gdj=wdjdj (2)
i=1,2,...M,j=1,2,...N
将文本匹配的输入表示为匹配交互矩阵m,则上述每个元素mij表示基本交互,即qi和dj的相似度,qi表示查询文本中的第i个字的隐向量,dj表示文档中的第j个字的隐向量,M表示查询的长度,N表示文档的长度,gqi和gdj分别表示查询词和文档词的权重,wqi和wdj分别为对应神经节点的权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110096623.3/1.html,转载请声明来源钻瓜专利网。