[发明专利]基于Web采集与文本特征均衡分布的语料库构建方法有效
申请号: | 201811273931.3 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109522549B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 林宝德;张新阳;张梅 | 申请(专利权)人: | 云南电网有限责任公司信息中心 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/35;G06F16/9535;G06Q50/06 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 650041*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于Web采集与文本特征均衡分布的语料库构建方法,利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。 | ||
搜索关键词: | 基于 web 采集 文本 特征 均衡 分布 语料库 构建 方法 | ||
【主权项】:
1.基于Web采集与文本特征均衡分布的语料库构建方法,包括如下步骤:Web信息采集步骤S110:通过Web连接方式,采集网络页面中的文本信息,并将信息采集结果进行保存;语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除,形成生语料,基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作,形成该行业专业语料库;对分词后的语料进行词频统计S130:统计整体语料库中每个词的词频信息,然后逐一统计单篇语料中的每个词的词频信息,并分别存储;语料代表性度量步骤S140:1)构建语料代表性度量模型考虑单个词权重的影响和该词出现的次数,构建如下语料代表性度量模型,计算得到某篇文档的语料代表性度量值:
其中,hi表示该篇文档中词i出现的次数,n表示该篇文档中总的词数,wi为单个词i权重,表示为
sumi表示单个词i在所有文本中出现的次数,sum表示语料库中所有词出现的总次数;2)语料代表性度量值计算对所有语料,即文档,按照语料代表性度量模型逐一进行代表性度量值计算;3)语料排序按照语料代表性度量值计算结果,对所有语料,即文档排序,形成按照降序排列的语料素材序列;语料库按需截取步骤S150:基于按降序排列的语料素材序列,结合用户对语料库大小的需求,对语料库进行按需截取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司信息中心,未经云南电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811273931.3/,转载请声明来源钻瓜专利网。