[发明专利]面向自然语言形式基于讲义和网站的API信息检索方法有效

申请号：	201910228664.6	申请日：	2019-03-25
公开（公告）号：	CN109933660B	公开（公告）日：	2019-11-12
发明（设计）人：	荆晓远;吴迪;黄鹤;谢宇;姚永芳;訾璐;李云鹤	申请（专利权）人：	广东石油化工学院
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06N3/08
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	杨采良
地址：	525***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于信息检索领域，公开了一种面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法，构建API与知识项的API‑KI库；API‑KI库包含API与讲义段的API‑段对、API与问答帖的API‑Q&A对，并进行提取；对自然语言形式的提问进行分析，获取与问题对应的潜在API；使用相关性鉴别模型TDML对相关的API‑KI对进行鉴别；将潜在API与相关的API‑KI对匹配生成候选列表，并根据排序策略对候选列表进行降序排列，最后返回排序后的API‑KI列表作为问题的解答。本发明提出的检索方法整合了API讲义和SO的信息，有效提高了检索精度，并能为开发者提供更多更有用的API相关知识。
搜索关键词：	讲义自然语言形式检索信息检索领域鉴别模型降序排列排序策略构建整合排序匹配鉴别返回提问分析开发
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法，其特征在于，所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法包括以下步骤：步骤一，构建API与知识项的API‑KI库；API‑KI库包含API与讲义段的API‑段对、API与问答帖的API‑Q&A对，并进行提取；步骤二，对自然语言形式的提问进行分析，获取与问题相应的潜在API；步骤三，基于迁移的深度度量学习方法TDML对相关的API‑KI对进行鉴别；为API‑讲义段对的训练集，x_iT为第i个带标签的API‑讲义段对样本，N_T是API‑KI库中API‑讲义段对的数目；为API‑Q&A对的训练集，包含N_S的API‑Q&A对，其中x_iS为第i个带标签的API‑Q&A对样本；X＝[x₁,…,x_i,…,x_N]为API‑KI对的总集合，其中X是既包含API‑讲义段对又包含API‑Q&A对的N个API‑KI对集合，x_i表示第i个带标签的API‑KI对；将X_T和X_S映射至共同的特征空间，同时两者的分布也会趋于相似；生成的特征空间使非线性相关系数最大化，非线性相关系数如下：其中cov(·)表示协方差，var(·)表示自方差，(·)^T表示矩阵的转置；和φ(X_S)表示两个非线性映射，将X_T和X_S映射至非线性的特征空间中；W_T和W_S分别为投影方向；公式(2)使用不完全的Cholesky分解计算求得的投影方向W_T和W_S使得和φ(X_S)分别投影至相同的特征空间，并且映射后的样例和W_Sφ(X_S)相关性最大；X′表示X经过映射后的新的训练样本集合，包含新的X_T′即和新的X_S′即W_Sφ(X_S)；将新的训练集X′作为TDML的输入，其中TDML为一个三层的深度神经网络，包括输入层、隐藏层和输出层，对应神经节点的数量分别为d，d‑1和d‑3；对于输入的x′，经过前向传播，在第m层的输出为：其中f^(m)(x′)为由第m层的权重矩阵W^(m)和偏差b^(m)决定；为激活函数，此处为tanh函数；深度神经网络学习到所有的权重W^(m)和偏差b^(m)；输入层设置h⁽⁰⁾＝x′；基于极小极大原理，TDML将同时最小化类内API‑KI对的距离以及最大化类间API‑KI对的距离；输出层的目标函数为：其中g(W^(m),b^(m),X′)为判定项，γ(γ＞0)为可调的正归一化参数；||·||_F表示Frobenius范数；判定项g(W^(m),b^(m),X′)如下：其中若x_j′为x_i′的k₁个类内最近邻，P_ij为1，否则为0；若x_j′为x_i′的k₂个类间最近邻，Q_ij为1，否则为0；α(α＞0)作为类内耦合和类间分散的重要性平衡参数；将公式(5)带入，将TDML方法的目标函数(4)整理为：公式(4)通过梯度下降的方法计算最优权重矩阵W^(m)和偏差b^(m)；此处k₁、k₂、α和γ经验性的设置为(27,45)、(5,10)、0.1和0.1；根据学习到的权重矩阵W^(m)和偏差b^(m)，鉴别相关API‑KI对首先根据W^(m)和b^(m)，计算公式(3)中f^(m)(x′)，然后通过公式||f⁽²⁾(x_i′)‑f⁽²⁾(x_j′)||2₂计算x_i′和x_j′之间的距离，并对相关的API‑KI对进行鉴别；步骤四，将潜在API与相关的API‑KI对匹配生成候选列表，并根据排序策略对候选列表进行降序排列，最后返回排序后的API‑KI列表作为问题的解答。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东石油化工学院，未经广东石油化工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910228664.6/，转载请声明来源钻瓜专利网。

上一篇：一种面向出行领域的车载多轮对话方法
下一篇：一种基于深度生成模型的半监督问答对归纳方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向自然语言形式基于讲义和网站的API信息检索方法有效

专利文献下载