[发明专利]用于挖掘意图的方法和设备有效
申请号: | 201310018519.8 | 申请日: | 2013-01-18 |
公开(公告)号: | CN103942198B | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 胡钦谙;黄耀海;那森;夏云庆 | 申请(专利权)人: | 佳能株式会社;清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 陈华成 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 挖掘 意图 方法 设备 | ||
技术领域
本发明涉及信息搜索的方法和设备。特别地,本发明涉及用于挖掘意图的方法和设备。并且更特别地,本发明涉及用于针对由用户所提出的查询进行意图挖掘的方法和设备。
背景技术
随着计算机和信息技术的不断发展,现在在整个世界中的信息产生的速率不断增加。现今世界中存在个人信息、职业信息、娱乐信息、科技信息、政府信息等诸多信息。因为信息过多,所以导致对信息的组织和访问成为问题。
为了改进用户在信息搜索过程中的体验,用于帮助用户访问其所寻找的信息的方法和系统不断被研发。例如,在Wei Song,etc.HITSCIR System in NTCIR-9 Subtopic Mining Task,Proceedings ofNTCIR-9 Workshop Meeting,December6-9,2011,Tokyo,Japan中提出了尝试理解用户所输入的查询背后的潜在意图。在用户输入简短并且含糊的查询的情况下,希望能够输出n个(例如,n=10)重要的并且多样化的最佳意图结果。表1示出了一种示例。
表1
例如,如表1所示,如果用户输入查询“the beatles:rock band”(“the beatles:rock band”为一款音乐视频游戏),则可以输出若干个与“the beatles:rock band”有关的意图,以供用户进行选择。
在意图挖掘处理中,通常用以下公式来评价意图挖掘结果的好坏:
其中I-rec(Intent recall)表示意图召回率,即在所获得的意图中,所获得的有用的意图的数量(即,所获得的正确结果)相对于希望获得的那些意图的数量(所有正确结果)的比率,往往用于度量意图的多样化;D-nDCG表示意图准确率(Intent precision),D-nDCG为多样化的归一化折扣累积增益(Diversified-Normalized DiscountedCumulative Gain),它基于位置计算搜索引擎返回的结果文档列表的相关度(参见Sakai和Song,Evaluating Diversified Search ResultUsing Per-intent Graded Relevance,Proceedings of SIGIR’11,2011Beijing),其用于度量意图的整体相关度;而D#-nDCG表示I-rec和D-nDCG的线性组合。
在上式中,I_rec、D-nDCG以及D#-nDCG是基于查询的真实状态数据(ground truth)被确定的,通常是通过将意图挖掘结果于真实状态数据进行比较来计算得到的,这些指标的获得是本领域公知的,因此将不再详细描述。
作为示例,在现有技术中,可通过如下方式来获得查询的真实状态数据。例如,真实状态数据可以是人为设定的。再如真实状态数据是由评注者所提供并且由多个人投票产生的。
在US2010/198837中公开了一种用于挖掘意图的方法。在该专利文献中,使用相似度分数来度量意图的多样性,所述相似度分数是基于意图名称、文档(例如标题和片段)或路径中的文本计算的。在该专利文献中,目标函数如公式(2)所示:
其中,l代表候选意图的总数,n代表要输出的候选意图的数量,m=1,…,n,表示已选择的候选意图的数量,text similarity()函数是表示文本相似度的函数。在每一轮的选择新候选意图的过程中,通过该目标函数,选择与已经选择的m个候选意图具有最小文本相似度的候选意图。在该专利中通过将流行度分数除以相似度分数来对候选意图进行排序。
图1A和图1B示出了在专利申请US2010/198837中所使用的方法的流程图,其中图1A示出了在该专利申请中所使用的方法的主流程图,图1B示出了图1A的步骤830的详细流程图。如图1A所示,首先,在步骤810中,用户输入查询以及要输出的意图的数量n。在步骤820中,针对所输入的查询,挖掘一组候选意图。在步骤830中,产生n个意图。如图1B所示,产生n个意图的步骤830更具体地包括以下三个子步骤。首先,在步骤831中,计算候选意图的流行度分数。接着,在步骤832中,计算候选意图的相似度分数。在步骤833中,基于流行度分数除以相似度分数的商,来获得n个意图。也就是说,在步骤833中,选择与已经选择的m个候选意图具有最小文本相似度的候选意图。返回参看图1A,在步骤840中,输出所获得的n个意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社;清华大学,未经佳能株式会社;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310018519.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蒲公英毛峰茶及其生产方法
- 下一篇:一种加速度传感器承载装置