[发明专利]一种文本结构化方法、文本结构化装置及终端设备在审
申请号: | 202010543935.X | 申请日: | 2020-06-15 |
公开(公告)号: | CN111859968A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈国;杨凤玲;魏政 | 申请(专利权)人: | 深圳航天科创实业有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/20 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 肖遥 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 结构 方法 化装 终端设备 | ||
本申请适用于自然语言处理技术领域,提供了一种文本结构化方法、文本结构化装置及终端设备,所述方法包括:对待处理文本进行分词,得到词语序列,所述词语序列中包括至少一个词语;对所述词语序列中的各个词语进行词性标注,得到各个词语的词性;对所述待处理文本进行命名实体识别,得到命名实体序列,所述命名实体序列中包括至少一个命名实体;对所述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果;根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果,对所述待处理文本进行结构化处理,得到结构化文本。通过上述方法,可以在非结构化文本中发现关键信息,并将这些关键信息进行结构化。
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种文本结构化方法、文本结构化装置、终端设备及计算机可读存储介质。
背景技术
随着互联网技术的发展和普及,越来越多的文本(如政法文书)实现了电子化。在数量日益增长的电子文本中,又有一大部分属于非结构化文本,如何快速地从海量的非结构化文本中发现关键信息,并将这些关键信息进行结构化是一个难题。
发明内容
有鉴于此,本申请提供了一种文本结构化方法、文本结构化装置、终端设备及计算机可读存储介质,可以在非结构化文本中发现关键信息,并将这些关键信息进行结构化。
第一方面,本申请实施例提供了一种文本结构化方法,包括:
对待处理文本进行分词,得到词语序列,上述词语序列中包括至少一个词语;
对上述词语序列中的各个词语进行词性标注,得到各个词语的词性;
对上述待处理文本进行命名实体识别,得到命名实体序列,上述命名实体序列中包括至少一个命名实体;
对上述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果;
根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果,对上述待处理文本进行结构化处理,得到结构化文本。
第二方面,本申请实施例提供了一种文本结构化装置,包括:
分词单元,用于对待处理文本进行分词,得到词语序列,上述词语序列中包括至少一个词语;
词性标注单元,用于对上述词语序列中的各个词语进行词性标注,得到各个词语的词性;
实体识别单元,用于对上述待处理文本进行命名实体识别,得到命名实体序列,上述命名实体序列中包括至少一个命名实体;
角色标注单元,用于对上述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果;
结构化处理单元,用于根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果,对上述待处理文本进行结构化处理,得到结构化文本。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如第一方面所提供的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中所提供的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳航天科创实业有限公司,未经深圳航天科创实业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010543935.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种增程器耐久测试系统及方法
- 下一篇:一种快拆式的股骨柄假体植入与取出工具