[发明专利]一种基于NLP复合句分割的图像检索的方法在审
申请号: | 202211438366.8 | 申请日: | 2022-11-17 |
公开(公告)号: | CN115658850A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 温震宇;彭影影;於志成;钱稼旭;裘盼佳;洪榛 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F16/532;G06F40/211;G06F40/253 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 舒良 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nlp 复合句 分割 图像 检索 方法 | ||
1.一种基于NLP复合句分割的图像检索的方法,其特征在于,包括以下步骤:
1)分割复合句:根据用户所提出的复合句,使用Part-of-Speech为输入句子中的每个词性标注词分配词性标记,通过这种方法消除单词词性的歧义,为单词找到正确的标签;得出单词的词性标记后,使用Enhanced++Dependencies得出单词与单词之间的依存关系,结合语法最终分割为多个简单句;
2)对多个简单句子排序:对步骤1)中得到的多个简单句进行排序;根据计算机语言学,简单句由主语、谓语和宾语组成,由于涉及的问题是复合问题,存在主语和谓语的连续性,根据其特性将简单句子进行排序;
3)对检索图像的句子进行抽象:在知识图谱中,图像中的每一个实体对应一个结点,所以只需要对上述句子中涉及的结点进行遍历和迭代就可以确定查询的第一个结点;首先是对第一个简单句进行查询,得出查询结果(复合问题的中间结果),这时候得出的结果可能会有许多,为了最终查询的准确性,需要把得出来的每一个结果作为下一个简单句的第一个实体节点进行查询,如此反复,直到得出复合问题的最终答案;
4)查询剪枝:英文复合句分割为简单句子,在不同的问题类型中,会涉及“most”、“least”、“second”的关键词,若这些关键词出现在查询的第一个简单句中,就需要对查询的结果做一个统计,得出最符合此句子问题的答案(复合问题的中间结果),这时候得到的结果往往只有一个,只需要将这一个结果作为下一个简单句的初始节点进行查询,对比3)中类似的此过程,可以大大的减少下一步的检索量,故把它称为剪枝过程;
5)检索图像:首先将查询次序为1的简单句输入到数据库中进行查询,将获得的此查询结果作为接下来要查询的简单句的初始节点,在数据库中继续查询,以此类推,直到得出最终复合句的答案;
6)评估结果:使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1_score来评估方法的性能。
2.如权利要求1所述的一种基于NLP复合句分割的图像检索的方法,其特征在于,步骤1)中分割复合句包括以下过程:
步骤101,词性标注阶段,采用概率序列模型HMM进行词性标注,HMM计算可能的标签序列的概率分布,并选择最佳标签序列;对于HMM模型,首先假设Q是所有可能的隐藏状态的集合,V是所有可能的观测状态的集合,即:
Q={q1,q2,...,qN},V={v1,v2,...vM} (1)
其中,N是可能的隐藏状态数,M是所有的可能的观察状态数;
对于一个长度为T的序列,I对应的状态序列,O是对应的观察序列,即:
I={i1,i2,...,iT},O={o1,o2,...oT} (2)
其中,任意一个隐藏状态it∈Q,任意一个观察状态ot∈V;
HMM模型做了两个很重要的假设如下:
(1)齐次马尔科夫链假设;即任意时刻的隐藏状态只依赖于它前一个隐藏状态;当然这样假设有点极端,因为很多时候的某一个隐藏状态不仅仅只依赖于前一个隐藏状态,可能是前两个或者是前三个;但是这样假设的好处就是模型简单,便于求解;如果在时刻t的隐藏状态是it=qi,在时刻t+1的隐藏状态是it+1=qj,则从时刻t到时刻t+1的HMM状态转移概率aij可以表示为:
aij=P(it+1=qj|it=qi) (3)
这样aij可以组成马尔科夫链的状态转移矩阵A:
A=[aij]N×N (4)
(2)观测独立性假设;即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设;如果在时刻t的隐藏状态是it=qj,而对应的观察状态为ot=vk,则该时刻观察状态vk在隐藏状态qj下生成的概率为bj(k),满足:
bj(k)=P(ot=vk|it=qj) (5)
这样bj(k)可以组成观测状态生成的概率矩阵B:
B=[bj(k)]N×M (6)
除此之外,需要一组在时刻t=1的隐藏状态概率分布Π:
Π=[π(i)]N (7)
其中π(i)=P(i1=qi)
一个HMM模型,可以由隐藏状态初始概率分布Π,状态转移概率矩阵A和观测状态概率矩阵B决定;Π,A决定状态序列,B决定观测序列;因此,HMM模型可以由一个三元组λ表示如下:
λ=(A,B,Π) (8)
步骤102,依存句法分析阶段,依存关系表示是一个加标签的有向图,其中节点是词汇项,加标签的弧表示依赖关系,从中心词到依赖;
依存语法中关于依存关系的四条公理:
(1)一个句子中只有一个成分是独立的;
(2)其它成分直接依存于某一成分;
(3)任何一个成分都不能依存与两个或两个以上的成分;
(4)如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211438366.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用碳酸氢铵生产碳酸镁的方法
- 下一篇:一种地下室防水板渗水变形加固方法