[发明专利]主题挖掘方法和设备、以及查询扩展方法和设备在审
申请号: | 201310301260.8 | 申请日: | 2013-07-18 |
公开(公告)号: | CN104298676A | 公开(公告)日: | 2015-01-21 |
发明(设计)人: | 黄耀海;张碧川;李荣军;王钊 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 欧阳帆 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 挖掘 方法 设备 以及 查询 扩展 | ||
技术领域
本发明涉及文本挖掘技术,特别地涉及从较大的文本数据库中发掘隐含的用户查询主题的主题挖掘方法,即挖掘出某些没有直接文字记载但是可能作为用户查询的答案的用户查询主题。
背景技术
如今使用的机电装置的功能变得越来越多,并且这些机电装置通常能支持许多个性化的功能。以多功能打印机(MFP)为例,其将复印、打印、扫描、传真和远程操作功能结合在一起,以便满足大多数人的需求。这些强大的装置极大地便利了专业用户,但是通常会给缺乏经验的用户带来麻烦,这是因为功能强大的装置往往带来复杂的操作,从而使得用户不知道如何使用该装置或者不能找出必要的信息来操作该装置。
鉴于这种情形,已经提出了一种对话辅助系统(dialogue assist system),其使得用户能够找出用于操作机电装置的相关信息。用户通过使用语言或文本来向该系统输入查询,该系统预测用户的意图,并且引导用户操作装置。
美国专利No.US7,774,198提出了一种用于通过向用户输入的查询分层地添加短语来生成主题的方法。该专利认为用其它方法针对用户输入的查询生成的短语不一定有意义,因此其使用已经存在的文本串并且通过确定文本串中的各个单元之间的句法关系来生成主题。这个机制使得所生成的主题必须已经存在于知识库中,并且其内容被限制为包含用户输入的查询中的至少一个表达。这个专利提出了通过向原始主题添加词语或短语来产生新的优化的查询主题的方法,所产生的新的优化的查询主题与预定义的依存关系匹配。
发明内容
然而,本申请的发明人发现,现有技术的召回率(匹配用户意图)较低,这是因为现有技术只能挖掘出直接存在于知识库中的主题,而无法挖掘出很多隐含的用户期望的主题。
通过深入研究分析,本申请的发明人发现,在真实状态数据(ground truth)中,除了现有技术(例如上述美国专利)能挖掘出的主题(即,如美国专利No.US7,774,198中公开的由知识库中已经存在的句子中的组块(chunk)之间的依存链接构成的语言上依存主题)之外,还存在一类数量较多的主题,即,用于帮助用户改变配置以实现目标功能的针对查询的推荐主题(下文中将命名为“前提断言对主题(premises assertion pair topic)”),其中在该功能的有效性与一多值属性的值之间存在前提映射。图1示出了本申请的发明人作出的实验结果,其例示了真实状态数据中的各种类型主题的比例。该真实状态数据是通过如下操作而获得的:从一个MFP手册随机选择十个功能名作为用户输入查询,并且针对每个查询由人工收集尽可能多的在该MFP手册中有答案的问题,然后人工对所收集的问题进行投票,并且去除那些不重要的问题,从而得到真实状态数据。最后,分析真实状态数据中的这些主题的类型及其比例。从图1可以看出,前提断言对主题在真实状态数据中占据20.11%的较大比例(请注意,这并非大量统计得出的平均数据,而仅仅是出于例示的目的给出)。
因此,需要一种能够挖掘出前提断言对主题的主题挖掘方法和设备,并且可以将该主题挖掘方法和设备应用于查询扩展方法和设备。
根据本发明的一个方面,为了解决上述技术问题,本发明提供一种主题挖掘方法,其包括:获取步骤,从至少一个知识库中获取多个句子;转换步骤,将所获取的句子中的至少一个转换为条件三元组(condition triple form)形式的第一断言声明(assertion statement),其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成;产生步骤,针对第一断言声明产生条件三元组形式的假设,其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值;计算步骤,通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度,并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二断言声明的置信度大于预定的第一阈值;组合步骤,将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射(mapping),并且验证所述映射是否是满射(surjection);以及输出步骤,在从所述多值属性到所述多模因素的映射是满射的情况下,输出表示所述多值属性是所述多模因素的前提的前提断言对主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310301260.8/2.html,转载请声明来源钻瓜专利网。