[发明专利]基于文本的事件识别方法和装置有效

申请号：	201711461418.2	申请日：	2017-12-28
公开（公告）号：	CN108563655B	公开（公告）日：	2022-05-17
发明（设计）人：	陈奇石;沈剑平;陈玉光;赵斌文;陈伟娜	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/9532	分类号：	G06F16/9532;G06F16/33;G06F40/279
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于文本事件识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本的事件识别方法，其特征在于，包括以下步骤：

获取检索词，根据所述检索词生成待识别文本；

根据所述待识别文本，查询预先建立的事件概率模型，得到所述待识别文本中所含各词的事件概率；其中，所述事件概率模型，用于指示事件词典中各词的事件概率，所述词的事件概率用于指示所述词用于描述事件的概率；

根据所述待识别文本中所含各词的事件概率，生成所述待识别文本的特征；

将所述待识别文本的特征输入预先训练的事件分类模型，以根据所述事件分类模型的输出值对所述待识别文本进行事件识别，其中，所述将所述待识别文本的特征输入预先训练的事件分类模型，以根据所述事件分类模型的输出值对所述待识别文本进行事件识别，包括：获取对多个待识别文本进行聚类所得到的聚簇，将所述聚簇中每一个待识别文本的特征输入所述事件分类模型以得到所述待识别文本的事件概率，并判断所述聚簇中待识别文本的最高事件概率是否大于阈值概率：若所述聚簇中待识别文本的最高事件概率大于阈值概率，则确定所述聚簇涉及事件；若所述聚簇中待识别文本的最高事件概率小于等于所述阈值概率，则过滤所述聚簇。

2.根据权利要求1所述的事件识别方法，其特征在于，所述根据所述待识别文本，查询预先建立的事件概率模型，得到所述待识别文本中所含各词的事件概率之前，还包括：

根据新闻文本生成训练样本；

对每一个训练样本进行分词，根据分词得到的各词生成所述事件词典；

针对所述事件词典中每一个词进行统计，以确定包含所述词的训练样本数；

根据每一个词对应的训练样本数，生成每一个词的事件概率。

3.根据权利要求2所述的事件识别方法，其特征在于，所述根据每一个词对应的训练样本数，生成每一个词的事件概率，包括：

将包含词w的训练样本数N_w代入到公式f(w)＝N_w/N_t，得到词w的事件概率f(w)；其中，N_t为训练样本总数。

4.根据权利要求2所述的事件识别方法，其特征在于，所述根据新闻文本生成训练样本，包括：

根据所述新闻文本的标题，生成所述训练样本。

5.根据权利要求1-4任一项所述的事件识别方法，其特征在于，所述根据所述待识别文本中所含各词的事件概率，生成所述待识别文本的特征，包括：

确定所述待识别文本中所含各词的事件概率的最大值；

将所述最大值作为所述待识别文本的一个特征。