[发明专利]文书解析方法及装置有效
申请号: | 201711088053.3 | 申请日: | 2017-11-07 |
公开(公告)号: | CN109947891B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 姜珂 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文书 解析 方法 装置 | ||
本发明公开了一种文书解析方法及装置。其中,该方法包括:对待解析文书进行序列标注得到状态序列,确定状态序列对应的模型状态序列;并根据模型状态序列中标记的状态,确定状态序列中待提取的状态;输出待提取的状态对应的状态内容,通过本发明,相对于相关技术中人为修改解析规则对文书进行解析,节省了大量的规则生成和编译代码的工作,不仅节省了人力成本,而且提高了解析效率,有效地解决了相关技术中,通过人为修改解析规则对文书进行解析时,存在成本高,效率低的技术问题。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文书解析方法及装置。
背景技术
在解析文书的过程中,大部分的主要工作是对解析的规则进行维护和更新。针对不同的维度,人为在归纳大量的不同的描述方法并指定相应的解析规则,之后对规则进行编码。在不断的迭代后,规则会变得越来越多,并可能存在矛盾的维度规则,经常造成增加一条规则会影响之前的规则,浪费了大量的时间和人力成本。
因此,在相关技术中,通过人为修改解析规则对文书进行解析时,存在成本高,效率低的问题。
发明内容
本发明实施例提供了一种文书解析方法及装置,以至少解决相关技术中,通过人为修改解析规则对文书进行解析时,存在成本高,效率低的技术问题。
根据本发明实施例的一个方面,提供了一种文书解析方法,包括:根据预先存储的状态,状态之间的相似度,以及状态间的转移概率矩阵对待解析文书进行序列标注得到状态序列;确定所述状态序列对应的模型状态序列;根据所述模型状态序列中标记的状态,确定所述状态序列中待提取的状态;输出所述待提取的状态对应的状态内容。
可选地,根据预先存储的状态,状态之间的相似度,以及状态间的转移概率矩阵对待解析的文书进行序列标注得到所述状态序列之前,还包括:对预定量的文书进行训练,得到所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵,以及所述模型状态序列。
可选地,对预定量的文书进行训练,得到所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵,以及所述模型状态序列包括:提取所述预定量的文书的内容;对提取的所述内容中的词进行向量化;根据向量化后的词以及提取的所述内容中的句式结构,生成句式;对生成的所述句式进行聚类,得到句式状态集,以及确定所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵;对所述句式状态集中的句式进行序列标注,得到所述模型状态序列。
可选地,对生成的所述句式进行聚类,得到句式状态集包括:对得到的所述句式状态集进行剪枝,得到剪枝后的句式状态集,其中,在采用的viterbi方法的递归过程中进行剪枝。
可选地,对所述句式状态集中的句式进行序列标注,得到所述模型状态序列包括:采用隐马尔可夫模型对所述句式状态集中的句式进行序列标注,得到所述模型状态序列。
可选地,在对所述句式状态集中的句式进行序列标注,得到所述模型状态序列之后,还包括:判断得到的所述模型状态序列是否与之前所存储的其它模型状态序列发生冲突;在判断结果为否的情况下,存储得到的所述模型状态序列;和/或,在判断结果为是的情况下,发出规则冲突的提示信息。
根据本发明的另一方面,提供了一种文书解析装置,包括:标注模块,用于根据预先存储的状态,状态之间的相似度,以及状态间的转移概率矩阵对待解析文书进行序列标注得到状态序列;第一确定模块,用于确定所述状态序列对应的模型状态序列;第二确定模块,用于根据所述模型状态序列中标记的状态,确定所述状态序列中待提取的状态;输出模块,用于输出所述待提取的状态对应的状态内容。
可选地,该装置还包括:训练模块,用于对预定量的文书进行训练,得到所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵,以及所述模型状态序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711088053.3/2.html,转载请声明来源钻瓜专利网。