[发明专利]用于实时识别短文本类别信息的方法、装置及计算机设备无效

专利信息
申请号: 201010616565.4 申请日: 2010-12-22
公开(公告)号: CN102073707A 公开(公告)日: 2011-05-25
发明(设计)人: 冼健 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汉昊知识产权代理事务所(普通合伙) 11370 代理人: 罗朋
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 实时 识别 文本 类别 信息 方法 装置 计算机 设备
【权利要求书】:

1.一种计算机实现的用于实时识别短文本类别信息的方法,其中,该方法包括以下步骤:

a获取待分类的短文本信息;

b将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息;

c基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。

2.根据权利要求1所述的方法,其中,所述单元相关信息包括以下至少一项:

-信息单元长度;

-信息单元类别;

-信息单元特征权值。

3.根据权利要求2所述的方法,其中,所述第一预定规则包括多个类别筛选规则,其中,所述步骤c包括以下步骤:

-根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择类别筛选规则;

-基于所选择的类别筛选规则,根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别。

4.根据权利要求3所述的方法,其中,所述步骤c还包括以下步骤:

-基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,由所述可选类别中选择所述待分类短文本信息的类别信息。

5.根据权利要求3或4所述的方法,其中,所述类别筛选规则参考以下至少一项因素:

-预设的类别判定信息单元;

-所述已分类信息单元的长度;

-根据所述待分类短文本信息所获得的信息单元类别的统计数据。

6.根据权利要求1至5中任一项所述的方法,其中,所述第一预定规则包括多个权值计算规则,所述步骤c包括以下步骤:

-根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择权值计算规则;

-基于所选择的权值计算规则,根据所述一个或多个已分类信息单元对应的信息单元特征权值,获得所述待分类短文本信息的一个或多个类别权值;

-基于第一预定规则,根据所述类别权值,确定所述待分类短文本信息的类别信息。

7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤:

A建立或更新所述已分类信息单元库。

8.根据权利要求7所述的方法,其中,所述步骤A包括以下步骤:

A1获取多个已分类的短文本信息及其对应的类别信息;

A2对所述多个已分类的短文本信息分别进行切分并提取,获得待分类的信息单元;

A3根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别;

A4根据已确定类别的信息单元,建立或更新所述已分类信息单元库。

9.根据权利要求8所述的方法,其中,所述步骤A3包括以下步骤:

-根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别及其对应的特征权值;

所述步骤A4包括以下步骤:

-根据已确定类别及特征权值的信息单元,建立或更新所述已分类信息单元库。

10.根据权利要求8或9所述的方法,其中,所述步骤A1包括以下步骤:

-获取多个已扩展的短文本信息;

-根据预训练的分类模型,确定所述多个已扩展的短文本信息的类别信息。

11.根据权利要求8至10中任一项所述的方法,其中,所述步骤A还包括以下步骤:

-根据历史信息单元分类记录,调整所确定的信息单元的类别。

12.根据权利要求1至11中任一项所述的方法,其中,该方法还包括以下步骤:

d根据历史短文本信息分类记录,调整所确定的短文本信息的类别信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010616565.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top