[发明专利]基于语义角色标注的文书体裁分类系统及方法有效
申请号: | 201811409309.0 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109710756B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 蓝建敏 | 申请(专利权)人: | 京华信息科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N5/04 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 张清彦 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 角色 标注 文书 体裁 分类 系统 方法 | ||
本发明公开了一种基于语义角色标注的文书体裁分类系统及方法,系统包括相连接的语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库;语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器,体裁识别规则引擎包括相连接的体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器,体裁识别规则解析器用于将体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器用于将语义角色标注引擎标注过的结果与体裁识别规则进行匹配;体裁识别规则推理器用于根据体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类。本发明数据成本较低、计算成本较低、体裁识别准确度较高。
技术领域
本发明涉及文书体裁分类领域,特别涉及一种基于语义角色标注的文书体裁分类系统及方法。
背景技术
针对党的文献、专项政策、法律法规、领导讲话等党政文书进行体裁分类时,传统的方法是针对不同文书体裁收集大量语料,利用机器学习训练模型,基于该机器学习训练模型对文书进行分类,其总结的文献数量较多,数据成本较高,另外,需要处理完整的文献内容,计算成本较高。这种体裁识别方法准确度低,因为党政文书不像新闻类信息篇幅短少,很多党政文书几十页、甚至几百页。机器学习技术很难准确训练出准确分类模型。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种数据成本较低、计算成本较低、体裁识别准确度较高的基于语义角色标注的文书体裁分类系统及方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于语义角色标注的文书体裁分类系统,包括:
语义角色标注引擎:用于执行语义角色标注;
知识本体库:用于存储和维护知识本体;
体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;
体裁识别规则库:用于维护和存储体裁识别规则;
所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接;
所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器;
所述体裁识别规则引擎包括:
体裁识别规则解析器:用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构;
体裁识别规则匹配器:用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配;
体裁识别规则推理器:用于根据所述体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类;
所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接。
本发明还涉及一种基于语义角色标注的文书体裁分类方法,应用于上述基于语义角色标注的文书体裁分类系统,所述方法包括如下步骤:
A)使用语义角色标注引擎对输入的文献标题进行语义角色标注,得到语义角色标注结果;
B)从体裁识别规则库读取体裁识别规则,由体裁识别规则解析器进行解析,并得到体裁识别规则解析结果;
C)使用体裁识别规则匹配器对所述语义角色标注结果与所述体裁识别规则解析结果进行匹配操作;
D)使用匹配得到的体裁识别规则进行体裁分类。
在本发明所述的基于语义角色标注的文书体裁分类方法中,在所述步骤A)之前还包括预处理步骤:
A0)建立体裁识别规则,并将其存入体裁识别规则库;所述体裁识别规则包括前项描述部分、推导符和后项描述部分,所述前项描述部分为命名实体类型的序列组合,所述后项描述部分为体裁类别和可信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京华信息科技股份有限公司,未经京华信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811409309.0/2.html,转载请声明来源钻瓜专利网。