[发明专利]文本选取方法、装置、电子设备与可读存储介质在审
申请号: | 202211474225.1 | 申请日: | 2022-11-22 |
公开(公告)号: | CN115828925A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 高亨德;石东升;李瑞锋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F18/241;G06F18/214 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 孟繁琦 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 选取 方法 装置 电子设备 可读 存储 介质 | ||
1.一种文本选取方法,包括:
获取目标语义单元与待处理文本;
根据所述目标语义单元,从所述待处理文本中选取第一候选文本;
使用第一分类模型得到所述第一候选文本的预测结果,选取预测结果与所述目标语义单元对应的第一候选文本,作为第二候选文本;
根据所述第二候选文本的分句结果,使用多个第二分类模型得到所述第二候选文本的预测结果,选取预测结果与所述目标语义单元对应的第二候选文本,作为目标文本。
2.根据权利要求1所述的方法,其中,所述获取目标语义单元包括:
获取历史目标文本;
从所述历史目标文本中得到候选语义单元,获取所述候选语义单元的统计值;
将所述统计值满足预设要求的候选语义单元,作为所述目标语义单元。
3.根据权利要求2中所述的方法,其中,所述将所述统计值满足预设要求的候选语义单元,作为所述目标语义单元包括:
获取所述历史目标文本的属性信息;
确定与所述属性信息对应的语义单元集合;
将所述统计值满足预设要求、且未出现在所述语义单元集合中的候选语义单元,作为所述目标语义单元。
4.根据权利要求1-3中任一项所述的方法,其中,所述根据所述目标语义单元,从所述待处理文本中选取第一候选文本包括:
针对每个待处理文本,获取所述目标语义单元在该待处理文本中的出现次数;
在确定所述出现次数大于预设次数阈值的情况下,将该待处理文本作为所述第一候选文本。
5.根据权利要求1-4中任一项所述的方法,其中,所述使用第一分类模型得到所述第一候选文本的预测结果包括:
根据第一预设份数,将所述第一候选文本划分为多份文本集;
选取一个文本集作为第一预测文本集,将剩余的文本集作为第一训练文本集;
根据所述第一训练文本集训练所述第一分类模型,使用训练之后的第一分类模型得到所述第一预测文本集中各个第一候选文本的预测结果;
确定是否得到了全部第一候选文本的预测结果,若否,则转至执行所述根据第一预设份数,将所述第一候选文本划分为多个文本集的步骤,直至确定得到了全部第一候选文本的预测结果。
6.根据权利要求1-5中任一项所述的方法,其中,所述使用第一分类模型得到所述第一候选文本的预测结果,选取预测结果与所述目标语义单元对应的第一候选文本,作为第二候选文本包括:
根据所述第一候选文本中未被选取的文本,确定第一文本数量;
在确定所述第一文本数量大于第一数量阈值的情况下,转至执行所述使用第一分类模型得到所述第一候选文本的预测结果的步骤,直至所述第一文本数量小于等于第一数量阈值。
7.根据权利要求1-6中任一项所述的方法,其中,所述根据所述第二候选文本的分句结果,使用多个第二分类模型得到所述第二候选文本的预测结果包括:
根据第二预设份数,将所述第二候选文本划分为多份文本集;
选取一个文本集作为第二预测文本集,将剩余的文本集作为第二训练文本集;
根据所述第二训练文本集中各个第二候选文本的分句结果,训练所述多个第二分类模型;
根据所述第二预测文本集中各个第二候选文本的分句结果,使用训练之后的多个第二分类模型得到所述第二预测文本集中各个第二候选文本的预测结果;
确定是否得到了全部第二候选文本的预测结果,若否,则转至执行所述根据第二预设份数,将所述第二候选文本划分为多个文本集的步骤,直至确定得到了全部第二候选文本的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211474225.1/1.html,转载请声明来源钻瓜专利网。