[发明专利]基于语义角色标注的文书体裁分类系统及方法有效
申请号: | 201811409309.0 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109710756B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 蓝建敏 | 申请(专利权)人: | 京华信息科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N5/04 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 张清彦 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 角色 标注 文书 体裁 分类 系统 方法 | ||
1.一种基于语义角色标注的文书体裁分类系统,其特征在于,包括:
语义角色标注引擎:用于执行语义角色标注;
知识本体库:用于存储和维护知识本体;
体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;
体裁识别规则库:用于维护和存储体裁识别规则;
所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接;
所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器;
所述体裁识别规则引擎包括:
体裁识别规则解析器:用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构;
体裁识别规则匹配器:用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配;
体裁识别规则推理器:用于根据所述体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类;
所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接;
应用于所述的基于语义角色标注的文书体裁分类系统的分类方法,所述方法包括如下步骤:
A0)建立体裁识别规则,并将其存入体裁识别规则库;所述体裁识别规则包括前项描述部分、推导符和后项描述部分,所述前项描述部分为命名实体类型的序列组合,所述后项描述部分为体裁类别和可信度;
其进一步包括:
A01)人工总结规律;
A02)将所述规律用符合体裁识别规则语法的字符来表示,得到体裁识别规则;
A03)将所述体裁识别规则录入所述基于语义角色标注的文书体裁分类系统;
A04)体裁识别规则解析器对所述体裁识别规则进行解析,得到表示体裁识别规则的计算机数据结构,判断所述计算机数据结构是否符合所述体裁识别规则语法的语法结构,如是,执行步骤A05);否则,返回步骤A02);
A05)将所述计算机数据结构与已存在的体裁识别规则进行对比,判断是否通过语义校验,如是,执行步骤A06);否则,返回步骤A01);
A06)将所述体裁识别规则存入所述体裁识别规则库;
A)使用语义角色标注引擎对输入的文献标题进行语义角色标注,得到语义角色标注结果;
B)从体裁识别规则库读取体裁识别规则,由体裁识别规则解析器进行解析,并得到体裁识别规则解析结果;
C)使用体裁识别规则匹配器对所述语义角色标注结果与所述体裁识别规则解析结果进行匹配操作;
D)使用匹配得到的体裁识别规则进行体裁分类;
其中,所述步骤A)进一步包括:
A1)使用分词器对输入的文献标题进行全分词,将所有的分词组合提取出来;
A2)使用语义角色标注器对所述分词组合进行语义角色标注;
A3)使用语法分析器进行语法分析,选择出最合理的分词结果组合,消除所述分词结果组合中的重叠的部分,得到最终的所述语义角色标注结果;
所述步骤B)进一步包括:
B1)使用体裁识别规则解析器对由文本表示的体裁识别规则进行解析;
B2)将所述由文本表示的体裁识别规则转换为计算机能识别的表示体裁识别规则的数据结构;
所述步骤C)进一步包括:
C1)将所述语义角色标注结果与所述体裁识别规则中的角色类型序列进行一一比对;
C2)获取所有匹配成功的体裁识别规则;
所述步骤D)进一步包括:
D1)将所述匹配成功的体裁识别规则的后项描述部分取出;
D2)选出所述后项描述部分中可信值最大的体裁识别规则,并将其作为结果输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京华信息科技股份有限公司,未经京华信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811409309.0/1.html,转载请声明来源钻瓜专利网。