[发明专利]建筑专业词库的数据扩充方法、装置、设备及存储介质在审
申请号: | 201910749389.2 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110442685A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 何楠;李军;陈飞军 | 申请(专利权)人: | 杭州品茗安控信息技术股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘新雷 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种建筑专业词库的数据扩充方法、装置、设备及计算机可读存储介质。其中,方法包括以现有建筑专业词库为参考基准对建筑文档进行分词生成初始字符集,利用N‑gram窗格滑动扫描初始字符集,并统计计算窗格内字符集中各字符构成建筑词语的词频信息;基于词频信息计算各建筑词语的词内聚合度比值和TF‑IDF值,并根据左右临接词的信息熵确定各建筑词语的词间组合度值;利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成用于扩充建筑专业词库的建筑新词集,该模型为基于多个满足新词条件的建筑用词的词内聚合度比值、词间组合度值和TF‑IDF值生成。本申请实现有效、快速、准确地更新建筑专业词库,有利于提高建筑新词的识别效率。 | ||
搜索关键词: | 建筑专业 词库 字符集 词语 词频信息 数据扩充 聚合度 组合度 窗格 计算机可读存储介质 参考基准 存储介质 满足条件 统计计算 建筑用 信息熵 滑动 分词 文档 扫描 更新 申请 | ||
【主权项】:
1.一种建筑专业词库的数据扩充方法,其特征在于,包括:基于建筑专业词库对待检索文档进行分词,生成初始字符集;利用N‑gram窗格滑动扫描所述初始字符集,并统计计算窗格内所述初始字符集的各字符构成建筑词语的词频信息;基于所述词频信息计算每个建筑词语的词内聚合度比值和TF‑IDF值,并根据当前建筑词语的左右临接词的信息熵确定各建筑词语的词间组合度值;利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集,以作为扩充所述建筑专业词库的新词数据;其中,所述新词选择模型为基于多个满足新词条件的建筑词语的词内聚合度比值、词间组合度值和TF‑IDF值生成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州品茗安控信息技术股份有限公司,未经杭州品茗安控信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910749389.2/,转载请声明来源钻瓜专利网。