[发明专利]一种自动生成问题的语义模板的方法和系统无效

申请号：	200810056168.9	申请日：	2008-01-14
公开（公告）号：	CN101369265A	公开（公告）日：	2009-02-18
发明（设计）人：	刘文印	申请（专利权）人：	北京百问百答网络技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京律诚同业知识产权代理有限公司	代理人：	梁挥;祁建国
地址：	100872北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自动生成问题语义模板方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及利用计算机进行自然语言处理领域，特别是涉及一种自动生成问题的语义模板的方法和系统。

背景技术

利用高速发展的信息技术，用户可通过网络、数据库等渠道，获得越来越多的信息。但是，现有的仅通过搜索引擎输入检索词进行检索的方式，由于其检索到的非相关内容过多，用户的筛选工作量较大，检索命中率低。故而，现已出现交互问答系统等新的信息获取方式，用户可直接提出自由文本形式的问题，由系统承担在庞大的答案数据库中进行分类检索的工作。

因而，用户输入的自由文本形式的问题都需要首先转换为语义模板，即对自由文本形式的问题的各个语法结构组成单元进行归类以及标识，使得在后续的答案搜索过程中，可基于该语义模板，搜索语义相关的问题，从而得到最多最贴近的答案。

发明内容

本所欲解决的问题在于，为了实现上述目的，本发明提供了一种生成问题的语义模板的方法和系统，用以提供高质量的语义模板。

为实现上述目的，本发明提供了一种自动生成问题的语义模板的方法，包括：

步骤一，识别自由文本形式的问题的基本结构；

步骤二，从该基本结构中，选择需要进行泛化的词语；

步骤三，在词语数据库中搜索被选择的词语的所有上位概念，将所述上位概念与一标签本体中的标签进行匹配，利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。

所述步骤一进一步包括：

通过检索该问题中的问题类型关键词获取该问题的问题类型；

获得带有名词和/或动词的基本结构；

对所述基本结构进行命名实体识别。

所述步骤二进一步包括：通过判断该基本结构中的词语的上位概念的信息熵，确定进行泛化的词语，其中，