[发明专利]开放式信息抽取背景下一种基于维基百科的实体语义化方法在审
申请号: | 201711309920.1 | 申请日: | 2017-12-11 |
公开(公告)号: | CN108021682A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 杜友田;卢秋颢;王雪;李雪莲 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06F17/21 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 针对开放式信息抽取结果缺乏清晰语义的特性,本发明提出了一种基于维基百科的实体语义化方法。该方法将知识三元组中的字符串参数映射到外部知识库维基百科中的真实世界实体上,从而实现实体语义化。该研究思路优点有二:开放式信息抽取中具备相似谓语的知识三元组往往具备相似的域约束概率分布,以此特征融合多信息源特征,使方法具备很好的鲁棒性;以基于语义传播的相似性度量代替直接计算相似度,挖掘了维基百科实体之间深层次的关联。 | ||
搜索关键词: | 开放式 信息 抽取 背景 一种 基于 百科 实体 语义 方法 | ||
【主权项】:
1.开放式信息抽取背景下一种基于维基百科的实体语义化方法,将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体,从而赋予其相应的语义,其特征在于:设E={(s1 ,p1 ,o1 ),…,(sn ,pn ,on )}为开放式信息抽取系统抽取的知识三元组集,S={s1 ,…,sn }为待语义化的字符串参数集,n表示三元组个数,集合中的元素si 为待语义化的字符串参数,在不涉及下标时简写为s,表示知识三元组的主语,pi ,oi 为谓语和宾语,在不涉及下标时简写为p,o,T={t1 ,…,tm }为维基百科实体集,其中元素ti 为维基百科实体,在不涉及下标时简写为t,则该映射的问题从数学上转化成以下最优化问题: T * ( s ) = argmax φ ( s , t ) t ∈ T ; s ∈ S ]]> 其中,T* (s)表示字符串参数s最可能映射的维基百科实体,得分函数φ(s,t)表示三元组e∈E中字符串参数s∈S被正确映射到维基百科实体t∈T的可能性,求解该问题,即得映射结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711309920.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种卤鹌鹑蛋的制备方法
- 下一篇:护理用带侧拉转盘的振荡仪
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置