[发明专利]面向自然语言形式基于讲义和网站的API信息检索方法有效
申请号: | 201910228664.6 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109933660B | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 荆晓远;吴迪;黄鹤;谢宇;姚永芳;訾璐;李云鹤 | 申请(专利权)人: | 广东石油化工学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/08 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 525*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于信息检索领域,公开了一种面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法,构建API与知识项的API‑KI库;API‑KI库包含API与讲义段的API‑段对、API与问答帖的API‑Q&A对,并进行提取;对自然语言形式的提问进行分析,获取与问题对应的潜在API;使用相关性鉴别模型TDML对相关的API‑KI对进行鉴别;将潜在API与相关的API‑KI对匹配生成候选列表,并根据排序策略对候选列表进行降序排列,最后返回排序后的API‑KI列表作为问题的解答。本发明提出的检索方法整合了API讲义和SO的信息,有效提高了检索精度,并能为开发者提供更多更有用的API相关知识。 | ||
搜索关键词: | 讲义 自然语言形式 检索 信息检索领域 鉴别模型 降序排列 排序策略 构建 整合 排序 匹配 鉴别 返回 提问 分析 开发 | ||
【主权项】:
1.一种面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法,其特征在于,所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法包括以下步骤:步骤一,构建API与知识项的API‑KI库;API‑KI库包含API与讲义段的API‑段对、API与问答帖的API‑Q&A对,并进行提取;步骤二,对自然语言形式的提问进行分析,获取与问题相应的潜在API;步骤三,基于迁移的深度度量学习方法TDML对相关的API‑KI对进行鉴别;
为API‑讲义段对的训练集,xiT为第i个带标签的API‑讲义段对样本,NT是API‑KI库中API‑讲义段对的数目;
为API‑Q&A对的训练集,包含NS的API‑Q&A对,其中xiS为第i个带标签的API‑Q&A对样本;X=[x1,…,xi,…,xN]为API‑KI对的总集合,其中X是既包含API‑讲义段对又包含API‑Q&A对的N个API‑KI对集合,xi表示第i个带标签的API‑KI对;将XT和XS映射至共同的特征空间,同时两者的分布也会趋于相似;生成的特征空间使非线性相关系数最大化,非线性相关系数如下:
其中cov(·)表示协方差,var(·)表示自方差,(·)T表示矩阵的转置;
和φ(XS)表示两个非线性映射,将XT和XS映射至非线性的特征空间中;WT和WS分别为投影方向;公式(2)使用不完全的Cholesky分解计算求得的投影方向WT和WS使得
和φ(XS)分别投影至相同的特征空间,并且映射后的样例
和WSφ(XS)相关性最大;X′表示X经过映射后的新的训练样本集合,包含新的XT′即
和新的XS′即WSφ(XS);将新的训练集X′作为TDML的输入,其中TDML为一个三层的深度神经网络,包括输入层、隐藏层和输出层,对应神经节点的数量分别为d,d‑1和d‑3;对于输入的x′,经过前向传播,在第m层的输出为:
其中f(m)(x′)为由第m层的权重矩阵W(m)和偏差b(m)决定;
为激活函数,此处为tanh函数;深度神经网络学习到所有的权重W(m)和偏差b(m);输入层设置h(0)=x′;基于极小极大原理,TDML将同时最小化类内API‑KI对的距离以及最大化类间API‑KI对的距离;输出层的目标函数为:
其中g(W(m),b(m),X′)为判定项,γ(γ>0)为可调的正归一化参数;||·||F表示Frobenius范数;判定项g(W(m),b(m),X′)如下:
其中若xj′为xi′的k1个类内最近邻,Pij为1,否则为0;若xj′为xi′的k2个类间最近邻,Qij为1,否则为0;α(α>0)作为类内耦合和类间分散的重要性平衡参数;将公式(5)带入,将TDML方法的目标函数(4)整理为:
公式(4)通过梯度下降的方法计算最优权重矩阵W(m)和偏差b(m);此处k1、k2、α和γ经验性的设置为(27,45)、(5,10)、0.1和0.1;根据学习到的权重矩阵W(m)和偏差b(m),鉴别相关API‑KI对首先根据W(m)和b(m),计算公式(3)中f(m)(x′),然后通过公式||f(2)(xi′)‑f(2)(xj′)||22计算xi′和xj′之间的距离,并对相关的API‑KI对进行鉴别;步骤四,将潜在API与相关的API‑KI对匹配生成候选列表,并根据排序策略对候选列表进行降序排列,最后返回排序后的API‑KI列表作为问题的解答。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910228664.6/,转载请声明来源钻瓜专利网。