[发明专利]一种自动生成问题的语义模板的方法和系统无效
申请号: | 200810056168.9 | 申请日: | 2008-01-14 |
公开(公告)号: | CN101369265A | 公开(公告)日: | 2009-02-18 |
发明(设计)人: | 刘文印 | 申请(专利权)人: | 北京百问百答网络技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁挥;祁建国 |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 问题 语义 模板 方法 系统 | ||
1.一种自动生成问题的语义模板的方法,其特征在于,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,从该基本结构中,选择需要进行泛化的词语;
步骤三,在词语数据库中搜索被选择的词语的所有的上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。
2.如权利要求1所述的方法,其特征在于,所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
3.如权利要求1所述的方法,其特征在于,所述步骤二进一步包括:通过判断该基本结构中的词语的上位概念的信息熵,确定进行泛化的词语,其中,
Ti:问题中第i个名词或动词;
SCj:Ti的上位概念;
p(Ti):Ti在拥有相同上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
4.如权利要求1所述的方法,其特征在于,所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。
5.一种自动生成问题的语义模板的方法,其特征在于,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,在词语数据库中搜索该基本结构中的词语的所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为所有词语进行语义标注;
步骤三,利用所述标签中的语义关键词,选择需要进行泛化的词语。
6.如权利要求5所述的方法,其特征在于,所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百问百答网络技术有限公司,未经北京百问百答网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810056168.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种测量运动物体倾斜角的系统及其测量方法
- 下一篇:车身动态强度分析方法