[发明专利]一种基于定义与关系的术语抽取方法有效

申请号：	201710833633.4	申请日：	2017-09-15
公开（公告）号：	CN107577670B	公开（公告）日：	2020-09-22
发明（设计）人：	许斌;李思良;杨玉基	申请（专利权）人：	清华大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/289
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	朱琨
地址：	100084 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于定义关系术语抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于定义与关系的术语抽取方法，其特征在于，所述方法包括以下步骤：

步骤1：对html格式的文本进行预处理与初始化，包括：

步骤1.1：识别文本中的img和table标签，过滤掉图片和表格；

步骤1.2：过滤掉文本中的html标签，提取标签中的文本内容；

步骤1.3：从清理后的文本中找出符号与公式，并进行过滤；

步骤1.4：根据句号、逗号、分号与问号对文本进行重新分段；

步骤1.5：利用ansj分词工具对文本进行中文分词，并计算每个词的词频；

步骤2：依据步骤1处理后得到的文本，进行基于定义的术语候补抽取，生成一个术语候补集，包括：

步骤2.1：根据文本特点总结出定义模板，定义模板为正则表达式形式，包含被定义部分和定义部分两个匹配内容；

步骤2.2：通过步骤2.1制定的模板从文本中抽取出被定义部分和定义部分，被定义部分被标记为右型候补，设置为低置信度，定义部分被标记为左型候补，设置为高置信度；

步骤2.3：将新发现的术语候补添加到当前的术语候补集中；

步骤3：利用步骤1处理后得到的文本与步骤2生成的所述术语候补集，进行基于上下位关系的术语候补抽取，生成新的术语候补集，包括：

步骤3.1：根据文本特点总结出上下位模板；

步骤3.2：通过步骤3.1制定的模板从文本中抽取出下位部分和上位部分，若上位部分是已发现的术语，则将下位部分设置为右型候补，设置为低置信度，若下位部分是已发现的术语，则将上位部分设置为左型候补，设置为高置信度；

步骤3.3：将步骤3.2中发现的术语候补添加到当前的术语候补集中；

步骤4：利用步骤1处理后得到的文本与步骤3生成的所述术语候补集，进行基于整体部分关系的术语候补抽取，生成新的术语候补集，包括：

步骤4.1：根据文本特点总结出整体部分模板；

步骤4.2：通过步骤4.1制定的模板从文本中抽取出左部分和右部分，设左部分为s₁，右部分为s₂，s₁的分词结果为w_{1_1}……w_{1_m}，s₂的分词结果为w_{2_1}……w_{2_n}，首先检验w_{1_m}与w_{2_n}中是否恰有一个是已经发现的术语，若w_{1_m}是术语，则取s₂作为术语候补，若w_{2_n}是术语，则取s₁作为术语候补；

步骤4.3：对步骤4.2中发现的术语候补tc，检查分词后所有与tc有整体部分关系的词中术语所占的比例，若比例大于等于给定阈值则将tc设置为低置信度Rc加入到当前术语候补集中；

步骤4.4：寻找出当前术语候补集中满足通过步骤4.1制定的模板的术语候补tc，并从中抽取“左部分”s₁和“右部分”s₂，若tc是高置信度术语候补，则设置s₁为高置信度Rc，设置s₂为高置信度Lc，当tc是低置信度术语候补时，若tc为Lc则仅取s₁，将其设置为低置信度Rc，否则仅取s₂，将其设置为低置信度Lc，此后将tc从当前术语候补集中删除；

步骤4.5：将步骤4.4中产生的新术语候补添加到当前术语候补集中；

步骤5：利用步骤1处理后得到的文本与步骤4生成的所述术语候补集，进行基于并列关系的术语候补抽取，生成新的术语候补集，包括：

步骤5.1：人工根据文本特点总结出并列关系模板；

步骤5.2：通过步骤5.1制定的并列关系模板从利用步骤1处理后得到的文本中抽取出并列关系；

步骤5.3：设步骤5.2抽取出的并列内容为s₁……s_n，s_n的分词结果w₁……w_m，设t_i＝w_i……w_m，其中1＝i＝m，计算机统计s₁t_i、……、s_n-1t_i，这n-1个字符串的出现次数之和T_i，设Ta为T_i中最大的值，此时对应的t_i为ta，若Ta大于给定阈值则将s₁ta、……、s_n-1ta、s_n这n个词语设置为高置信度Rc；