[发明专利]信息处理装置和信息处理方法在审
申请号: | 201910721344.4 | 申请日: | 2019-08-06 |
公开(公告)号: | CN112434530A | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 马军;孟遥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;王鹏 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 装置 方法 | ||
1.一种信息处理装置,用于确定多个结构化文本中的实体名称和相关联的属性值,所述信息处理装置包括:
构造单元,被配置成基于所述多个结构化文本的第一集合构造包含实体名称和相关联的属性值的对的训练样本集合;
训练单元,被配置成基于所构造的训练样本集合对识别模型进行训练;以及
确定单元,被配置成使用经训练的识别模型确定所述多个结构化文本的第二集合中的结构化文本中的实体名称和相关联的属性值。
2.根据权利要求1所述的信息处理装置,其中构造单元包括:
识别子单元,被配置成识别所述第一集合中的结构化文本中的实体名称;
定位子单元,被配置成使用属性值库在所述第一集合中的结构化文本中在所识别的实体名称的上下文中确定与所识别的实体名称相关联的属性值及其位置;以及
提取子单元,被配置成从所述第一集合中的结构化文本中提取所识别的实体名称以及相关联的属性值,从而构造所述训练样本集合。
3.根据权利要求2所述的信息处理装置,其中所述识别子单元被进一步配置成使用预定标记在所述第一集合中的结构化文本中标出所识别的实体名称。
4.根据权利要求2或3所述的信息处理装置,其中所述属性值库通过如下方式构造:在所述第一集合中的结构化文本中根据所识别的实体名称的上下文中的出现频率确定属性值,并且使用所确定的属性值构造所述属性值库。
5.根据权利要求4所述的信息处理装置,其中使用N-gram模型和Trie树结构构造所述属性值库。
6.根据权利要求2所述的信息处理装置,其中所述定位子单元被配置成通过逆向最大匹配方式使用所述属性值库确定与所识别的实体名称相关联的属性值及其位置。
7.根据权利要求2所述的信息处理装置,其中所述提取子单元被进一步配置成按照(起始标记、中间标记、结束标记)的格式标出所提取的实体名称和相关联的属性值。
8.根据权利要求1所述的信息处理装置,其中所述识别模型通过基于序列的模型实现。
9.根据权利要求1所述的信息处理装置,其中所述识别模型通过隐马尔可夫模型、条件随机场或双向长短期记忆模型-条件随机场来实现。
10.一种信息处理方法,用于确定多个结构化文本中的实体名称和相关联的属性值,所述信息处理方法包括如下步骤:
基于所述多个结构化文本的第一集合构造包含实体名称和相关联的属性值的对的训练样本集合;
基于所构造的训练样本集合对识别模型进行训练;以及
使用经训练的识别模型确定所述多个结构化文本的第二集合中的结构化文本中的实体名称和相关联的属性值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721344.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种身份认证和发卡一体机及其工作方法
- 下一篇:一种洗衣机控制方法及洗衣机