[发明专利]文本处理方法、相关设备及可读存储介质在审
申请号: | 202010656329.9 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111814461A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王硕;盛志超;郭冬杰;李浩;李永帅;段纪丁 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王娇娇 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 相关 设备 可读 存储 介质 | ||
本申请公开了一种文本处理方法、相关设备及可读存储介质,在获取待处理文本之后,确定该待处理文本包含的对象集合,针对对象集合中每一对象,确定与该对象对应的属性,并将该属性与该对象组合,得到目标对象。本申请中采用对文本进行处理识别目标对象的方法,相对于人工的方式,可以节省人力和时间。进一步的,本申请中,通过不同的对象属性能够明确目标对象的具体指代关系,能够使识别的目标对象准确度更高。
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本处理方法、相关设备及可读存储介质。
背景技术
在一些场景中,往往需要从文本中识别某种对象,比如,在司法领域,需要从司法卷宗中的文书(如,起诉意见书、鉴定报告、询问笔录、勘验笔录、辨认笔录等)中识别属于赃物的物体。
目前,多采用人工的方式,从文本中识别某种对象,然而,人工的方式,将消耗大量的人力及时间,效率低,识别准确度低。
发明内容
鉴于上述问题,本申请提出了一种文本处理方法、相关设备及可读存储介质。具体方案如下:
一种文本处理方法,包括:
获取待处理文本;
确定所述待处理文本包含的对象集合;
针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
可选地,所述确定所述待处理文本包含的对象集合,包括:
确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;
对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;
对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;
基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。
可选地,所述针对所述对象集合中每一对象,确定与所述对象对应的属性,包括:
获取所述待处理文本中各个字符之间的依存句法关系;
针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;
对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。
可选地,所述针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征,包括:
根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;
根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。
可选地,所述待处理文本为多个,所述方法还包括:
将各待处理文本对应的目标对象进行同一对象的关联。
可选地,所述将各待处理文本对应的目标对象进行同一对象的关联,包括:
从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本;
判断所述两个待判定的目标对象是否匹配;
如果匹配,则确定所述两个待判定的目标对象是同一对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010656329.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:超级电容器及制备方法
- 下一篇:一种用于公交车辆电动塞拉门