[发明专利]文书解析方法及装置有效
申请号: | 201711088053.3 | 申请日: | 2017-11-07 |
公开(公告)号: | CN109947891B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 姜珂 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文书 解析 方法 装置 | ||
1.一种文书解析方法,其特征在于,包括:
根据预先存储的状态,状态之间的相似度,以及状态间的转移概率矩阵对待解析文书进行序列标注得到状态序列;
确定所述状态序列对应的模型状态序列;
根据所述模型状态序列中标记的状态,确定所述状态序列中待提取的状态;
输出所述待提取的状态对应的状态内容;
其中,在根据预先存储的状态,状态之间的相似度,以及状态间的转移概率矩阵对待解析的文书进行序列标注得到所述状态序列之前,还包括:对预定量的文书进行训练,得到所述模型状态序列;
其中,对预定量的文书进行训练,得到所述模型状态序列包括:提取所述预定量的文书的内容;对提取的所述内容中的词进行向量化;根据向量化后的词以及提取的所述内容中的句式结构,生成句式;对生成的所述句式进行聚类,得到句式状态集;对所述句式状态集中的句式进行序列标注,得到所述模型状态序列。
2.根据权利要求1所述的方法,其特征在于,根据预先存储的状态,状态之间的相似度,以及状态间的转移概率矩阵对待解析的文书进行序列标注得到所述状态序列之前,还包括:
对预定量的文书进行训练,得到所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵。
3.根据权利要求2所述的方法,其特征在于,对预定量的文书进行训练,得到所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵包括:
提取所述预定量的文书的内容;
对提取的所述内容中的词进行向量化;
根据向量化后的词以及提取的所述内容中的句式结构,生成句式;
对生成的所述句式进行聚类,得到句式状态集,以及确定所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵。
4.根据权利要求3所述的方法,其特征在于,对生成的所述句式进行聚类,得到句式状态集包括:
对得到的所述句式状态集进行剪枝,得到剪枝后的句式状态集,其中,在采用的viterbi方法的递归过程中进行剪枝。
5.根据权利要求1所述的方法,其特征在于,对所述句式状态集中的句式进行序列标注,得到所述模型状态序列包括:
采用隐马尔可夫模型对所述句式状态集中的句式进行序列标注,得到所述模型状态序列。
6.根据权利要求1所述的方法,其特征在于,在对所述句式状态集中的句式进行序列标注,得到所述模型状态序列之后,还包括:
判断得到的所述模型状态序列是否与之前所存储的其它模型状态序列发生冲突;
在判断结果为否的情况下,存储得到的所述模型状态序列;和/或,在判断结果为是的情况下,发出规则冲突的提示信息。
7.一种文书解析装置,其特征在于,包括:
标注模块,用于根据预先存储的状态,状态之间的相似度,以及状态间的转移概率矩阵对待解析文书进行序列标注得到状态序列;
第一确定模块,用于确定所述状态序列对应的模型状态序列;
第二确定模块,用于根据所述模型状态序列中标记的状态,确定所述状态序列中待提取的状态;
输出模块,用于输出所述待提取的状态对应的状态内容;
其中,所述装置还包括:训练模块,用于对预定量的文书进行训练,得到所述模型状态序列;
其中,所述训练模块包括:提取单元,用于提取所述预定量的文书的内容;向量化单元,用于对提取的所述内容中的词进行向量化;生成单元,用于根据向量化后的词以及提取的所述内容中的句式结构,生成句式;聚类单元,用于对生成的所述句式进行聚类,得到句式状态集;标注单元,用于对所述句式状态集中的句式进行序列标注,得到所述模型状态序列。
8.根据权利要求7所述的装置,其特征在于,
所述训练模块,还用于对预定量的文书进行训练,得到所述预先存储的状态,状态之间的相似度,状态间的转移概率矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711088053.3/1.html,转载请声明来源钻瓜专利网。