[发明专利]一种法律法规名称识别装置及方法在审
申请号: | 202110140886.X | 申请日: | 2021-02-02 |
公开(公告)号: | CN112926317A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 张奥多;张良均;王宏刚;施兴;张玉虹;张敏;赵云龙;刘名军;莫济成;周东平 | 申请(专利权)人: | 广东泰迪智能科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211 |
代理公司: | 深圳得本知识产权代理事务所(普通合伙) 44762 | 代理人: | 袁江龙 |
地址: | 510000 广东省广州市高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律法规 名称 识别 装置 方法 | ||
1.一种法律法规名称识别装置,包括依次连接的清洗模块、过滤模块、提取模块和识别模块,其特征在于,所述清洗模块,用于将长文本处理为标准化短文本;
过滤模块,用于根据预设核心词库过滤标准短文本,获取核心短文本;
提取模块,用于从核心短文本中分别提取显性法律法规名称和隐形法律法规名称对应的候选空间。
识别模块,对候选空间进行依存句法分析,并结合分析结果,识别满足预设条件的候选空间为法律法规名称。
2.一种法律法规名称识别方法,其特征在于,包括以下步骤:
S1:将长文本处理为标准短文本;
S2:根据预设核心词库过滤标准短文本,获取核心短文本;
S3:从核心短文本中分别提取显性法律法规名称和隐形法律法规名称对应的候选空间;
S4:对候选空间进行依存句法分析,并结合分析结果识别满足预设条件的候选空间为法律法规名称。
3.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述将长文本处理为标准短文本包括:根据中英文标点符号将长文本切割为短文本;去除短文本中无效字符,获得标准短文本,中英文标点符号通常包括句号、问号、感叹号,若长文本为群众投诉、互联网公开帖子或博文表述自由、较不规范的文本数据,还需考虑空格、逗号符号。
4.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述根据预设核心词库过滤标准短文本,获取核心短文本包括:利用正则表达式匹配各标准短文本,将包含任意一个预设核心词库中词汇或词组的短文本划分为核心短文本,预设核心词库由现有法律法规名称的结束词汇或结束词组构成。
5.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述S3中,所述显性法律法规名称指代在所述核心短文本中采用引号、括号、书名号标识的法律法规名称;所述隐形法律法规名称指代在所述核心短文本中未采用引号、括号、书名号标识的法律法规名称。
6.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述S3中,从核心短文本中提取显性法律法规名称的候选空间包括:截取核心短文中采用引号、括号、书名号标识的文本内容;判断文本内容是否满足以所述预设核心词库中任意一个词汇或词组结尾的条件,若满足条件,则文本内容作为显性法律法规名称的候选空间。
7.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述S3中,从核心短文本中提取隐性法律法规名称的候选空间包括:T1:根据预设句式模板库采用正则表达式提取核心短文本中非采用引号、括号、书名号标识的文本内容;T2:对上述文本内容分词并按照词汇在文本内容顺序存储分词结果;T3:预设候选空间包含词汇个数为N,分词结果中属于所述核心词库的最后一个词汇或词组的位置为M,截取分词结果中第M-N+1至第M位置的词汇并重新拼接,得到隐性法律法规名称的一个候选空间;T4:修改候选空间包含词汇个数的预设值N,重复上一过程获得隐性法律法规名称的若干候选空间。
8.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述S4中,对候选空间进行依存句法分析,得到各候选空间的句式结构;针对各核心短文本的显性法律法规名称的候选空间,若满足预设条件则识别为显性法律法规名称;针对各核心短文本的隐性法律法规名称的若干候选空间,选择满足预设条件且长度最大的候选空间为隐形法律法规名称,所述预设条件包括:法律法规名称的句式结构不包括主谓结构、主谓宾结构和动宾结构;法律法规名称的字数不超过某一预设值K;由于法律法规名称作为未登录词,是一个独立的词汇,因此不能出现主谓结构、主谓宾结构、动宾结构句子特有的结构,如候选空间[“国家颁布了新的继承法”]的句式结构为“主谓宾”,因此该候选空间不为独立的词汇,也不能构成法律法规名称;法律法规名称字数的界定可过滤许多缩写、简写后指代不明的候选空间,如[“相关条例”]、[“规定”];通常除“刑法”、“宪法”、“民法”、“水法”外,法律名称字数个数不少于3个,法律解释、行政法规、地方性法规、自治条例和单行条例、规章的名称字数不少于5个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东泰迪智能科技股份有限公司,未经广东泰迪智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110140886.X/1.html,转载请声明来源钻瓜专利网。