[发明专利]基于词典匹配的实体标注方法、模块及装置有效
申请号: | 202011079331.0 | 申请日: | 2020-10-10 |
公开(公告)号: | CN112347765B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 胡振中;刘毅;吴浪韬 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/295;G06F16/31 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词典 匹配 实体 标注 方法 模块 装置 | ||
1.一种基于词典匹配的实体标注方法,其特征在于,包括:
将实体词语按由小至大的顺序依次排列,形成有序词典;
为每个实体词语建立一个前向索引条F,F中第i个元素为实体词语前i个字符构成的字符串在有序词典中的最大前缀;
获取待标注的句子s,将待标注的句子s按照大小顺序虚拟插入到有序词典中的相应位置,若所述有序词典中没有比句子s小的实体词语,则所述有序词典中不存在句子s的前缀,
若所述有序词典中有比句子s小的实体词语,则从比句子s小的实体词语中选择最大的实体词语作为最大公共前缀基词w,计算s与w的前x个相同的字符,构成s与w的最大公共前缀p,若x等于w的词长w.length,则w即为s的在所述有序词典中的最大前缀;若x=0,则所述有序词典中不存在s的前缀;否则0xw.length,w的前向索引条中第x个元素即为s的在所述有序词典中的最大前缀;
若有序词典中存在句子s的最大前缀,利用最大前缀的标注信息对句子s的对应实体词语添加标注信息,并将与最大前缀对应的实体词语从s中切出,否则将s中第一个字切出,将切出后剩余部分作为句子s,继续重复虚拟插入到所述有序词典和查找最大前缀以及添加标注信息,直到s为空字符串。
2.根据权利要求1所述的基于词典匹配的实体标注方法,其特征在于,
实体词语大小按照Unicode编码对两个实体词语逐字符进行比较,如果有第一个不同字符,则字符编码大的实体词语大,否则长度大的实体词语大。
3.根据权利要求1所述的基于词典匹配的实体标注方法,其特征在于,
还包括:获取已标注句子,所述已标注句子包括句子和该句子的标注信息,所述标注信息包括实体位置、实体词语和实体类别,将所述已标注句子中的标注信息更新到所述有序词典中,对每一个实体,如果所述有序词典中无该实体词语则添加实体词语和实体类别到有序词典中,否则将有序词典中实体的类别修改为新的实体类别。
4.根据权利要求1所述的基于词典匹配的实体标注方法,其特征在于,
采用句子单元存储一个句子的所有信息,句子单元中存储了句子的内容、标注信息以及状态信息,每一条实体的标注信息都采用格式包括起始索引、结束索引、类别的三元组进行表示,起始索引、结束索引用于记录实体词语在句子中的起始、结束位置,类别用于记录实体词语所属的类别信息,采用句子列表记录所有句子单元构成的列表;
采用实体单元存储一个实体,实体单元中封装了实体的实体词语、实体类别和前向索引条,采用实体列表存储实体单元形成的所述有序词典。
5.一种基于词典匹配的实体标注模块,其特征在于,包括:
词典排序单元,用于将实体词语按照词语字符串由小至大的顺序依次排列,形成有序词典;
前向索引构建单元,用于为每个实体词语建立一个前向索引条F,F中第i个元素为实体词语词语前i个字符构成的字符串在有序词典中的最大前缀;
预标注单元,用于获取待标注的句子s,将待标注的句子s按照大小顺序虚拟插入到有序词典中的相应位置,若所述有序词典中没有比句子s小的实体词语,则所述有序词典中不存在句子s的前缀,
若所述有序词典中有比句子s小的实体词语,则从比句子s小的实体词语中选择最大的实体词语作为最大公共前缀基词w,计算s与w的前x个相同的字符,构成s与w的最大公共前缀p,若x等于w的词长w.length,则w即为s的在所述有序词典中的最大前缀;若x=0,则所述有序词典中不存在s的前缀;否则0xw.length,w的前向索引条中第x个元素即为s的在所述有序词典中的最大前缀;
若所述有序词典中存在句子s的最大前缀,利用最大前缀的标注信息对句子s的对应实体词语添加标注信息,并将与最大前缀对应的实体词语从s中切出,否则将s中第一个字切出,将切出后剩余部分作为句子s,继续重复虚拟插入到所述有序词典和查找最大前缀以及添加标注信息,直到s为空字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011079331.0/1.html,转载请声明来源钻瓜专利网。