[发明专利]事件检索方法、装置、计算机设备及存储介质有效
申请号: | 201910520888.4 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110378378B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 陈玉光;韩翠云;潘禄;刘远圳;施茜 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 检索 方法 装置 计算机 设备 存储 介质 | ||
1.一种事件检索方法,其特征在于,包括:
训练得到用于识别两个事件描述是否对应同一事件的识别模型,包括:从指定数据源抽取事件描述,并进行聚类,针对得到的每个簇,基于用户的颜色标记构建出作为训练样本的正样本和负样本,其中,所述正样本中包含对应于同一事件的两个事件描述,所述负样本中包含对应于不同事件的两个事件描述,根据所述正样本和所述负样本训练得到所述识别模型;
基于所述识别模型形成事件向量抽取服务,所述事件向量抽取服务用于:当向所述识别模型输入一个事件描述时,抽取所述识别模型中所述事件描述的最后一层句子分隔符[SEP]向量,作为所述事件描述对应的事件向量;所述事件向量表示所述识别模型对于事件描述的理解;
根据所述事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;
根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件。
2.根据权利要求1所述的方法,其特征在于,
所述识别模型包括:基于转换器双向编码器特征BERT的微调fine-tune模型。
3.根据权利要求1所述的方法,其特征在于,
所述根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件包括:
基于近似最近邻ANN工具,确定出所述事件库中的事件的事件描述对应的事件向量中、与所述待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与所述待检索的事件描述相匹配的事件。
4.一种事件检索装置,其特征在于,包括:模型训练单元、服务生成单元以及事件检索单元;
所述模型训练单元,用于训练得到用于识别两个事件描述是否对应同一事件的识别模型,包括:从指定数据源抽取事件描述,并进行聚类,针对得到的每个簇,基于用户的颜色标记构建出作为训练样本的正样本和负样本,其中,所述正样本中包含对应于同一事件的两个事件描述,所述负样本中包含对应于不同事件的两个事件描述,根据所述正样本和所述负样本训练得到所述识别模型;
所述服务生成单元,用于基于所述识别模型形成事件向量抽取服务,所述事件向量抽取服务用于:当向所述识别模型输入一个事件描述时,抽取所述识别模型中所述事件描述的最后一层句子分隔符[SEP]向量,作为所述事件描述对应的事件向量;所述事件向量表示所述识别模型对于事件描述的理解;
所述事件检索单元,用于根据所述事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件。
5.根据权利要求4所述的装置,其特征在于,
所述识别模型包括:基于转换器双向编码器特征BERT的微调fine-tune模型。
6.根据权利要求4所述的装置,其特征在于,
所述事件检索单元基于近似最近邻ANN工具,确定出所述事件库中的事件的事件描述对应的事件向量中、与所述待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与所述待检索的事件描述相匹配的事件。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~3中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~3中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520888.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于样本处理的数据处理方法、装置及电子设备
- 下一篇:航空图像特征点匹配方法