[发明专利]一种基于NLP复合句分割的图像检索的方法在审

申请号：	202211438366.8	申请日：	2022-11-17
公开（公告）号：	CN115658850A	公开（公告）日：	2023-01-31
发明（设计）人：	温震宇;彭影影;於志成;钱稼旭;裘盼佳;洪榛	申请（专利权）人：	浙江工业大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/36;G06F16/532;G06F40/211;G06F40/253
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	舒良
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 nlp 复合句分割图像检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于NLP复合句分割的图像检索的方法，其特征在于，包括以下步骤：

1)分割复合句：根据用户所提出的复合句，使用Part-of-Speech为输入句子中的每个词性标注词分配词性标记，通过这种方法消除单词词性的歧义，为单词找到正确的标签；得出单词的词性标记后，使用Enhanced++Dependencies得出单词与单词之间的依存关系，结合语法最终分割为多个简单句；

2)对多个简单句子排序：对步骤1)中得到的多个简单句进行排序；根据计算机语言学，简单句由主语、谓语和宾语组成，由于涉及的问题是复合问题，存在主语和谓语的连续性，根据其特性将简单句子进行排序；

3)对检索图像的句子进行抽象：在知识图谱中，图像中的每一个实体对应一个结点，所以只需要对上述句子中涉及的结点进行遍历和迭代就可以确定查询的第一个结点；首先是对第一个简单句进行查询，得出查询结果(复合问题的中间结果)，这时候得出的结果可能会有许多，为了最终查询的准确性，需要把得出来的每一个结果作为下一个简单句的第一个实体节点进行查询，如此反复，直到得出复合问题的最终答案；

4)查询剪枝：英文复合句分割为简单句子，在不同的问题类型中，会涉及“most”、“least”、“second”的关键词，若这些关键词出现在查询的第一个简单句中，就需要对查询的结果做一个统计，得出最符合此句子问题的答案(复合问题的中间结果)，这时候得到的结果往往只有一个，只需要将这一个结果作为下一个简单句的初始节点进行查询，对比3)中类似的此过程，可以大大的减少下一步的检索量，故把它称为剪枝过程；

5)检索图像：首先将查询次序为1的简单句输入到数据库中进行查询，将获得的此查询结果作为接下来要查询的简单句的初始节点，在数据库中继续查询，以此类推，直到得出最终复合句的答案；

6)评估结果：使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1_score来评估方法的性能。

2.如权利要求1所述的一种基于NLP复合句分割的图像检索的方法，其特征在于，步骤1)中分割复合句包括以下过程：

步骤101，词性标注阶段，采用概率序列模型HMM进行词性标注，HMM计算可能的标签序列的概率分布，并选择最佳标签序列；对于HMM模型，首先假设Q是所有可能的隐藏状态的集合，V是所有可能的观测状态的集合，即：

Q＝{q1,q2,...,qN},V＝{v1,v2,...vM} (1)

其中，N是可能的隐藏状态数，M是所有的可能的观察状态数；

对于一个长度为T的序列，I对应的状态序列,O是对应的观察序列，即：

I＝{i1,i2,...,iT},O＝{o1,o2,...oT} (2)

其中，任意一个隐藏状态it∈Q,任意一个观察状态ot∈V；

HMM模型做了两个很重要的假设如下：

(1)齐次马尔科夫链假设；即任意时刻的隐藏状态只依赖于它前一个隐藏状态；当然这样假设有点极端，因为很多时候的某一个隐藏状态不仅仅只依赖于前一个隐藏状态，可能是前两个或者是前三个；但是这样假设的好处就是模型简单，便于求解；如果在时刻t的隐藏状态是it＝qi,在时刻t+1的隐藏状态是it+1＝qj,则从时刻t到时刻t+1的HMM状态转移概率aij可以表示为：

aij＝P(it+1＝qj|it＝qi) (3)

这样aij可以组成马尔科夫链的状态转移矩阵A:

A＝[aij]N×N (4)

(2)观测独立性假设；即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态，这也是一个为了简化模型的假设；如果在时刻t的隐藏状态是it＝qj,而对应的观察状态为ot＝vk,则该时刻观察状态vk在隐藏状态qj下生成的概率为bj(k),满足：

bj(k)＝P(ot＝vk|it＝qj) (5)

这样bj(k)可以组成观测状态生成的概率矩阵B:

B＝[bj(k)]N×M (6)

除此之外，需要一组在时刻t＝1的隐藏状态概率分布Π:

Π＝[π(i)]N (7)

其中π(i)＝P(i1＝qi)

一个HMM模型，可以由隐藏状态初始概率分布Π,状态转移概率矩阵A和观测状态概率矩阵B决定；Π,A决定状态序列，B决定观测序列；因此，HMM模型可以由一个三元组λ表示如下：

λ＝(A,B,Π) (8)