[发明专利]面向跨领域进行信息抽取的多层次特征模型和特征评价方法在审
申请号: | 201710076821.7 | 申请日: | 2017-02-13 |
公开(公告)号: | CN107301166A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 朱文浩;徐永林;胡冠男;丁伯汉;郭心怡;居朝友 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙)31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 领域 进行 信息 抽取 多层次 特征 模型 评价 方法 | ||
1.一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,具体操作步骤如下:
步骤一,收集现有信息抽取研究文献中提到的文本特征,对其进行归纳、分类,构建原始特征库;
步骤二,构建多层次特征理论模型:利用其对具有领域性的特征进行降解,将特征分为原子特征:不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点,和复合特征:由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点;来降低特征的领域相关性;
步骤三,基于多层次特征理论模型,提出特征适应性评价方法,使用样本库来评价特征库中获得特征的跨领域适应性,以获取特征库中能够快速重复使用的特征;
步骤四,基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统,通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。
2.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,所述的步骤二的具体方法为:
步骤二十一,对特征库的特征进行逻辑描述,即表示特征库中原子特征和复合特征的实体信息和逻辑关系,并对归纳得到的特征库以特征分解的方式,获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合;
步骤二十二,以特征集合中的特征为基本对象,面向特征进行建模,设计具有明确性、层次性、可扩展性的多层次特征模型;
步骤二十三,基于步骤二十二的多层次特征模型,将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次,以降低信息抽取操作之间的耦合性。
3.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,所述的步骤三的具体方法为:
步骤三十一,利用TF-IDF思想来评估单个特征对样本和领域的重要程度,使用不同信息抽取应用的样本对特征进行适应性评价,所用到的特征评价方法主要选用单个特征的准确率、召回率、F值以及某个特征对某个领域样本的匹配度和区分度;其中,召回率是指抽取出的信息中正确的占应抽取出信息数的百分比,其计算公式为:
准确率是指抽取的信息中正确信息所占的百分比,其计算公式为:
F值为召回率和准确率的加权平均值,其计算公式为:
匹配度为某一个给定的特征在特定网页样本中出现的次数归一化后的值,其计算公式为:
区分度为该特征在整个样本网页集合中的频率,设计其计算公式为:
步骤三十二,在步骤二中经多层次特征模型优化后的特征库中,将特征分成概念特征、位置特征和显示特征,基于步骤三十一中的公式,经过多次实验迭代,取得较好匹配度和区分度的值后,来进行特征领域适应性分析;
步骤三十三,使用样本对步骤三十二中评价值较高的单个特征进一步对不同领域进行评价分析,观察其在不同抽取问题上的表现,以找出通用的特征,方便以后快速重复使用;
步骤三十四,使用样本对步骤三十二中评价值较高的多个相关联单个特征组合成一系列复合特征,以提高信息抽取的准确率。
4.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,所述的步骤四的具体方法为:
步骤四十一,实现步骤二中的多层次特征理论模型以及用户交互,即存储从信息抽取特征建模相关文献中收集到的特征,并对特征进行分析、总结、降解和集成显示,构建特征库、样本库;
步骤四十二,为特征模型中的每个特征实现参数化方法并存入模型中,并对特征进行层次化的可变性管理,包括特征增加、删减、更新、查找;
步骤四十三,基于特征库,实现信息抽取特征评价系统,构建特征显示模块、特征管理模块、网页浏览和页面处理模块、网页特征提取模块以及网页特征识别匹配与参数化模块,以针对某个特定的特征,分析并评价该特征对不同领域问题的适应性;针对某个具体的信息抽取任务,便捷的查找可能适用的特征组合;
步骤四十四,利用信息抽取特征评价系统,针对具体测试样本的特征识别匹配、参数化,并结合特征跨领域分析,给予特征推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710076821.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:使用USB接口的车辆系统和方法
- 下一篇:兼具数据分析功能的大数据存储器
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置