[发明专利]一种自动生成问题的语义模板的方法和系统无效
申请号: | 200810056168.9 | 申请日: | 2008-01-14 |
公开(公告)号: | CN101369265A | 公开(公告)日: | 2009-02-18 |
发明(设计)人: | 刘文印 | 申请(专利权)人: | 北京百问百答网络技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁挥;祁建国 |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 问题 语义 模板 方法 系统 | ||
技术领域
本发明涉及利用计算机进行自然语言处理领域,特别是涉及一种自动生成问题的语义模板的方法和系统。
背景技术
利用高速发展的信息技术,用户可通过网络、数据库等渠道,获得越来越多的信息。但是,现有的仅通过搜索引擎输入检索词进行检索的方式,由于其检索到的非相关内容过多,用户的筛选工作量较大,检索命中率低。故而,现已出现交互问答系统等新的信息获取方式,用户可直接提出自由文本形式的问题,由系统承担在庞大的答案数据库中进行分类检索的工作。
因而,用户输入的自由文本形式的问题都需要首先转换为语义模板,即对自由文本形式的问题的各个语法结构组成单元进行归类以及标识,使得在后续的答案搜索过程中,可基于该语义模板,搜索语义相关的问题,从而得到最多最贴近的答案。
发明内容
本所欲解决的问题在于,为了实现上述目的,本发明提供了一种生成问题的语义模板的方法和系统,用以提供高质量的语义模板。
为实现上述目的,本发明提供了一种自动生成问题的语义模板的方法,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,从该基本结构中,选择需要进行泛化的词语;
步骤三,在词语数据库中搜索被选择的词语的所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。
所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
所述步骤二进一步包括:通过判断该基本结构中的词语的上位概念的信息熵,确定进行泛化的词语,其中,
Ti:问题中第i个名词或动词;
SCj:Ti的上位概念;
p(Ti):Ti在拥有相同上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。
本发明还公开了一种自动生成问题的语义模板的方法,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,在词语数据库中搜索该基本结构中的词语的所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为所有词语进行语义标注;
步骤三,利用所述标签中的语义关键词,选择需要进行泛化的词语。
所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
所述步骤三进一步包括:通过判断所述名词和/或动词的语义关键词的信息熵,确定进行泛化的词语,其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百问百答网络技术有限公司,未经北京百问百答网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810056168.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种测量运动物体倾斜角的系统及其测量方法
- 下一篇:车身动态强度分析方法