[发明专利]一种识别文本专业术语的方法及装置有效
申请号: | 201911147687.0 | 申请日: | 2019-11-21 |
公开(公告)号: | CN111046660B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 林建明;胡聪豪 | 申请(专利权)人: | 深圳无域科技技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289 |
代理公司: | 广东良马律师事务所 44395 | 代理人: | 邓天祥 |
地址: | 518057 广东省深圳市南山区粤海街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 文本 专业术语 方法 装置 | ||
1.一种识别文本专业术语的方法,其特征在于,包括:
对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌;
依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合;
根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量;
将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入C-value公式进行计算,得到目标C-value值,并根据所述目标C-value值的数值大小对待识别的所述标准候选术语进行判定;
所述C-value公式为:
C-value(t)=ln|t|·f(t),当S(t)=Ø;
,当S(t)≠Ø;
其中,t为待识别的标准候选术语,S(t)为t对应的所述嵌套术语数量,|t|为t的长度,f(t)为t及其变异体在所述目标文本中的词频,f(s)为和t对应的所有嵌套术语的数量,Ø表示空集。
2.根据权利要求1所述的识别文本专业术语的方法,其特征在于,所述对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,包括:
分别将所述目标文本中的重复标点符号编辑为一个标点符号、拆分数字和单位的组合和对非ASCII字符进行规范处理;
以句子为单位,将所述目标文本对应的每个句子分割为单词和标点符号的形式,且将每个单词和每个标点符号均作为一个令牌;
对每个令牌进行词干化处理、词形还原处理及词性标注处理,并根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语。
3.根据权利要求2所述的识别文本专业术语的方法,其特征在于,所述对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,包括:
分别删除所述候选术语之间的所有标点符号、少于3个字符的所有小写标记和所述目标文本里面的停用词,所述停用词包括介词和数字;
按照令牌首字母在26个字母中的字母排列顺序,将所述候选术语包含的所述令牌进行排列,且相邻两个所述令牌之间用逗号隔开;
使用括号包括按照所述字母排列顺序排列好的所有令牌,将包括在括号里面的全部所述令牌作为所述标准候选术语。
4.根据权利要求3所述的识别文本专业术语的方法,其特征在于,所述将所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,包括:
计算所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌之间的目标编辑距离;
将所述目标编辑距离小于或等于预设编辑距离阈值的目标原始令牌合并到所述匹配对象中,所述目标原始令牌为剩余的所述标准候选术语包含的原始令牌。
5.根据权利要求4所述的识别文本专业术语的方法,其特征在于,所述根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,包括:
将目标相似术语集合内的目标原始令牌和剩余的所述相似术语集合内的所有令牌进行比较,判断剩余的所述相似术语集合内的所有令牌是否和所述目标原始令牌存在包含或被包含关系;
若是,则计算出和所述目标相似术语集合存在包含或被包含关系的剩余的所述相似术语集合的目标数量,并将所述目标数量作为所述目标相似术语集合对应的所述嵌套术语数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳无域科技技术有限公司,未经深圳无域科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911147687.0/1.html,转载请声明来源钻瓜专利网。