[发明专利]基于Web采集与文本特征均衡分布的语料库构建方法有效
申请号: | 201811273931.3 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109522549B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 林宝德;张新阳;张梅 | 申请(专利权)人: | 云南电网有限责任公司信息中心 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/35;G06F16/9535;G06Q50/06 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 650041*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 web 采集 文本 特征 均衡 分布 语料库 构建 方法 | ||
一种基于Web采集与文本特征均衡分布的语料库构建方法,利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。
技术领域
本申请涉及一种信息处理方法,具体的,涉及一种基于Web采集技术与文本特征均衡分布的语料库构建方法,能够适用于电力行业,建成的语料库支持按需截取的离线应用,同时支持增量更新。
背景技术
随着电力业务增长,电力行业各部门积累了一定数量的非结构化数据,由于技术等因素限制导致非结构化数据利用率并不高。但海量非结构化数据中蕴含着大量有用信息,如何对这些非结构化数据进行深入研究是一个重要研究问题。目前,非结构化数据在知识库建立、信息抽取、信息检索、文本分类等方面的应用可基于语料库实现,语料库可为行业应用提供语料附属信息,满足各行各业在办公、管理和决策过程中对非结构化文档分类检索的需求。因此,建设电力行业语料库具有重要的应用意义。
目前,国内外研究团队构建了大量通用语料库,如Brown、 Semcor、LOB、ICE等英文语料库以及国家语委现代汉语语料库语料库、北大语料库、中国 台北“中研院”语料库等中文语料库。另有学者建设学习者、FAO农业英语语料库、中介话语语料库、学术语篇语料库、法律语料库等专用语料库服务于各行业各业。收集的语料大多来源于组织发布的文献或Web文本,具有一定的规模。在面对特定应用场景时,如何选择和确定语料库的规模使之达到最优的应用效果是值得研究的问题。语料库的规模并不是越大越好,越大规模的语料库在存储、传输与使用的过程中耗费的资源也越多。随着语料库规模的增大,语料库的使用效果的改善幅度会逐步减小,即表现出边际效用递减的特征。因此在应用效果和资源耗费之间进行取舍是必要的。
因此,如何平衡应用效果和资源耗费之间的关系,提出一种语料库的构建方法,能够适用于各行业,特别适用于电力行业,成为亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法,能够适用于各个行业,尤其是电力行业。
为达此目的,本发明采用以下技术方案:
一种基于Web采集技术与文本特征均衡分布语料库构建方法,包括如下步骤:
Web信息采集步骤S110:通过Web连接方式,采集网络页面中的文本信息,并将信息采集结果进行保存;
语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除,形成生语料,基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作,形成该行业专业语料库;
对分词后的语料进行词频统计S130:统计整体语料库中每个词的词频信息,然后逐一统计单篇语料中的每次词的词频信息,并分别存储;
语料代表性度量步骤S140:
1)构建语料代表性度量模型
考虑单个词权重的影响和该词出现的次数,构建如下语料代表性度量模型,计算得到某篇文档的语料代表性度量值:
其中,hi表示该篇文档中词i出现的次数,n表示该篇文档中总的词数,wi为单个词i权重,表示为sumi表示单个词i在所有文本中出现的次数,sum表示语料库中所有词出现的总次数;
2)语料代表性度量值计算
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司信息中心,未经云南电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811273931.3/2.html,转载请声明来源钻瓜专利网。