[发明专利]从非结构化文档中抽取对象的方法和装置有效
申请号: | 201010209002.3 | 申请日: | 2010-06-25 |
公开(公告)号: | CN102298588A | 公开(公告)日: | 2011-12-28 |
发明(设计)人: | 谢宣松;姜珊珊;孙军;郑继川;赵利军 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张丽新 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文档 抽取 对象 方法 装置 | ||
1.一种从非结构化文档中抽取对象的方法,包括:
抽取命名实体,以及从命名实体中选择标识性属性;
抽取对象属性集;
抽取值表达式;
匹配对象属性集中的属性和值表达式;以及
利用标识性属性和匹配后的属性和值表达式来创建对象。
2.根据权利要求1的方法,其中,所述抽取对象属性集包括:
利用基于监督的学习算法抽取候选属性集1;
利用非基于监督的学习算法抽取候选属性集2;以及
从候选属性集1和候选属性集2聚合得到所述对象属性集。
3.根据权利要求2的方法,其中所述抽取候选属性集2包括:
该非结构化文档被分割为短语序列,如下计算每个短语的分数frule:
ntok=短语中单词/字的个数
nun=短词中包含特殊指定字符的单词/字个数
frule=fpos*fcnt*fun
选择分数frule为1的短语加入候选属性集2。
4.根据权利要求2的方法,其中所述从候选属性集1和候选属性集2聚合得到所述对象属性集包括:
利用候选属性集1和候选属性集2构建候选属性图,图中的结点为所有候选属性,每个候选属性具有先验分数,来自候选属性集1的候选属性的先验分数由前述基于监督的学习算法而获得,来自候选属性集2的候选属性的先验分数由前述非基于监督的学习算法获得;
从每一个结点向近邻传播分数,每一轮传播后每个结点的分数保留了一部分它的原始分数,传播过程终止于收敛或者达到某一最大迭代次数;
将结点聚类到k个簇中,k为目标短语个数;以及
从每个簇中选取一个加入到所述对象属性集中。
5.根据权利要求1的方法,其中,根据词频和位置信息来从命名实体中选择标识性属性。
6.根据权利要求5的方法,所述根据词频和位置信息来从命名实体中选择标识性属性包括:
基于词频和第一次出现的位置,如下计算每个命名实体的分数fiw:
fiw=Tf/logTm;
其中Tf为词频,Tm为命名实体第一次出现的位置,
选择具有最高分数的命名实体作为标识性属性。
7.根据权利要求1的方法,所述匹配对象属性集中的属性和值表达式包括:
对于同时出现在一个预定大小的窗口中的一对属性x和值表达式y,通过下述公式来计算两者之间的相关度fxi(x,y):
其中,p(x)、p(y)分别表示属性x、值表达式y在文档中出现的概率,p(x,y)表示属性x和值表达式y在文档中预定大小窗口中共现的概率,
选择相关度值最高的属性和值表达式作为属性-值对。
8.根据权利要求1的方法,所述利用标识性属性和匹配后的属性和值表达式来创建对象包括:
对象由标识性属性标识;以及
其他的属性-值对作为对象的一般属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010209002.3/1.html,转载请声明来源钻瓜专利网。