[发明专利]建立词项需求分类模型的方法、词项需求分类方法及装置有效
申请号: | 201110379123.7 | 申请日: | 2011-11-24 |
公开(公告)号: | CN103136220A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 黄际洲;钟华;柴春光 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 需求 分类 模型 方法 装置 | ||
1.一种建立词项term需求分类模型的方法,其特征在于,该方法包括:
S1、针对各需求类型分别执行步骤S11至步骤S13,得到模板分类模型:
S11、获取当前需求类型的种子term的搜索结果;
S12、将所述搜索结果的标题title、网页地址url和摘要snippet中的至少一种泛化为模板;
S13、基于各模板在当前需求类型的出现频率值计算各模板在当前需求类型中的权值;
S2、针对每一个种子term,利用种子term对应的模板在各需求类型中的权值,确定种子term在各需求类型上的得分,从而得到包含种子term以及种子term在各需求类型上的得分的term需求分类模型。
2.根据权利要求1所述的方法,其特征在于,所述种子term是人工针对各需求类型进行配置的,或者人工在网页资源中标注的,或者从各需求类型的术语平台获取的。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S11中还包括:确定种子term与对应搜索结果之间的相关度,将不满足预设相关度要求的搜索结果过滤掉;或者,
仅保留搜索结果中排在N1个的搜索结果以供执行所述步骤S12,所述N1为预设的正整数。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S12中,对搜索结果的title或snippet的泛化包括:
将搜索结果的title或snippet中与对应种子term重叠的内容采用通配符替代;或者,
将搜索结果的title或snippet与当前需求类型的实体词典进行匹配,将title或snippet中匹配上的词语替换为对应实体的类别;或者,
将搜索结果的title或snippet与当前需求类型的实体识别函数进行匹配,将title或snippet中匹配上的词语替换为实体识别函数的识别结果。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S12中,对搜索结果的url的泛化具体包括:
将url的域名抽取出来作为模板;或者,执行以下步骤A1至A4,
A1、判断搜索结果的url中是否存在“#”,如果是,执行步骤A2;否则直接执行步骤A3;
A2、去掉所述“#”以及“#”之后的字符串,继续执行步骤A3;
A3、如果当前url以“.html”或者“.htm”结尾,则去掉最后一个“/”之后的字符串;如果当前url以“/”结尾,则去掉倒数第二个“/”之后的字符串;如果当前url最后一个“/”之后的字符串中存在“?”,则去掉所述“?”以及所述“?”之后的字符串;其他情况则去掉最后一个“/”之后的字符串;
A4、将当前url中预设类型的字符串泛化成对应的类型标记。
6.根据权利要求1所述的方法,其特征在于,在所述步骤S13中,按照公式或者计算模板P在当前需求类型中的权值SP;
其中,TFP为模板P在当前需求类型的出现频率,T为当前需求类型中种子term的数量,ITFP为模板P的逆向模板频率ITF值。
7.根据权利要求6所述的方法,其特征在于,所述TFP按照如下公式计算:
FP为模板P所来自的搜索结果i构成的集合,Ri为模板P所来自的搜索结果i的排序值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110379123.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:-120℃自分凝制冷系统
- 下一篇:压缩机系统