[发明专利]文本处理方法、装置和电子设备在审
申请号: | 202110978280.3 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113657113A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 井玉欣;马凯;陈梓佳;王潇;王枫;刘江伟 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06K9/62;G06N3/02 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 | ||
1.一种文本处理方法,其特征在于,包括:
获取待处理文本,确定所述待处理文本中的目标实体词,生成目标实体词集合;
基于所述待处理文本,确定所述目标实体词集合中的目标实体词对应的词语解释,获取与所述词语解释对应的相关信息;
推送目标信息,以对所述待处理文本进行呈现,其中,所述目标信息包括所述目标实体词集合、所述目标实体词集合中的目标实体词对应的词语解释和相关信息,在所述待处理文本中以预设的显示方式对所述目标实体词集合中的目标实体词进行显示。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中的目标实体词,包括:
确定所述待处理文本中的至少一个候选实体词;
获取第一目标文本,基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,其中,所述第一目标文本是与所述待处理文本相邻且在所述待处理文本之前的文本。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本中的至少一个候选实体词,包括:
对所述待处理文本进行分词得到分词结果;
在预设的实体词集合中查找与所述分词结果匹配的实体词作为至少一个候选实体词。
4.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本中的至少一个候选实体词,包括:
对所述待处理文本进行分词得到分词结果;
针对所述分词结果中的每个词语,获取该词语的词语特征,将该词语的词语特征输入预先训练的实体词识别模型中,得到该词语的识别结果,若所述识别结果指示该词语为实体词,将该词语确定为候选实体词,其中,所述识别结果用于指示词语是实体词或用于指示词语不是实体词。
5.根据权利要求4所述的方法,其特征在于,所述词语解释的呈现页面包括第一图标和第二图标,其中,所述第一图标用于指示所述词语解释所指示的词语是实体词,所述第二图标用于指示所述词语解释所指示的词语不是实体词;以及
所述方法还包括:
针对所述目标实体词集合中的每个目标实体词,获取针对该目标实体词对应的第一图标的点击次数和针对该目标实体词对应的第二图标的点击次数;
基于所述针对该目标实体词对应的第一图标的点击次数和所述针对该目标实体词对应的第二图标的点击次数,确定该目标实体词的样本类别,其中,所述样本类别包括正样本和负样本;
利用目标训练样本集合,对所述实体词识别模型进行更新,其中,所述目标训练样本包括所述目标实体词集合中的目标实体词和与该目标实体词的样本类别。
6.根据权利要求2所述的方法,其特征在于,所述基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,包括:
针对所述至少一个候选实体词中的候选实体词,响应于确定出所述第一目标文本中不存在该候选实体词,将该候选实体词确定为目标实体词。
7.根据权利要求2所述的方法,其特征在于,所述待处理文本为对话文本;以及
所述基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,包括:
获取所述第一目标文本的文本生成时间;
确定当前时刻与所述文本生成时间之间的时长是否小于预设时长阈值;
若是,则针对所述至少一个候选实体词中的候选实体词,响应于确定出所述第一目标文本中不存在该候选实体词,将该候选实体词确定为目标实体词。
8.根据权利要求7所述的方法,其特征在于,在所述确定当前时刻与所述文本生成时间之间的时长是否小于预设时长阈值之后,所述方法还包括:
若所述时长大于等于所述时长阈值,则将所述至少一个候选实体词确定为目标实体词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110978280.3/1.html,转载请声明来源钻瓜专利网。