[发明专利]用于实时识别短文本类别信息的方法、装置及计算机设备无效
申请号: | 201010616565.4 | 申请日: | 2010-12-22 |
公开(公告)号: | CN102073707A | 公开(公告)日: | 2011-05-25 |
发明(设计)人: | 冼健 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 实时 识别 文本 类别 信息 方法 装置 计算机 设备 | ||
1.一种计算机实现的用于实时识别短文本类别信息的方法,其中,该方法包括以下步骤:
a获取待分类的短文本信息;
b将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息;
c基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。
2.根据权利要求1所述的方法,其中,所述单元相关信息包括以下至少一项:
-信息单元长度;
-信息单元类别;
-信息单元特征权值。
3.根据权利要求2所述的方法,其中,所述第一预定规则包括多个类别筛选规则,其中,所述步骤c包括以下步骤:
-根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择类别筛选规则;
-基于所选择的类别筛选规则,根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别。
4.根据权利要求3所述的方法,其中,所述步骤c还包括以下步骤:
-基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,由所述可选类别中选择所述待分类短文本信息的类别信息。
5.根据权利要求3或4所述的方法,其中,所述类别筛选规则参考以下至少一项因素:
-预设的类别判定信息单元;
-所述已分类信息单元的长度;
-根据所述待分类短文本信息所获得的信息单元类别的统计数据。
6.根据权利要求1至5中任一项所述的方法,其中,所述第一预定规则包括多个权值计算规则,所述步骤c包括以下步骤:
-根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择权值计算规则;
-基于所选择的权值计算规则,根据所述一个或多个已分类信息单元对应的信息单元特征权值,获得所述待分类短文本信息的一个或多个类别权值;
-基于第一预定规则,根据所述类别权值,确定所述待分类短文本信息的类别信息。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤:
A建立或更新所述已分类信息单元库。
8.根据权利要求7所述的方法,其中,所述步骤A包括以下步骤:
A1获取多个已分类的短文本信息及其对应的类别信息;
A2对所述多个已分类的短文本信息分别进行切分并提取,获得待分类的信息单元;
A3根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别;
A4根据已确定类别的信息单元,建立或更新所述已分类信息单元库。
9.根据权利要求8所述的方法,其中,所述步骤A3包括以下步骤:
-根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别及其对应的特征权值;
所述步骤A4包括以下步骤:
-根据已确定类别及特征权值的信息单元,建立或更新所述已分类信息单元库。
10.根据权利要求8或9所述的方法,其中,所述步骤A1包括以下步骤:
-获取多个已扩展的短文本信息;
-根据预训练的分类模型,确定所述多个已扩展的短文本信息的类别信息。
11.根据权利要求8至10中任一项所述的方法,其中,所述步骤A还包括以下步骤:
-根据历史信息单元分类记录,调整所确定的信息单元的类别。
12.根据权利要求1至11中任一项所述的方法,其中,该方法还包括以下步骤:
d根据历史短文本信息分类记录,调整所确定的短文本信息的类别信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010616565.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:AMOLED像素驱动电路
- 下一篇:一种LED显示屏