[发明专利]建筑信息模型自适应的中文分词方法及装置在审
申请号: | 201911404637.6 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111178051A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 周小平;张鑫;王佳 | 申请(专利权)人: | 盈嘉互联(北京)科技有限公司;盈嘉互联(上海)建筑科技有限公司;嘉兴乌镇盈嘉千镇科技有限公司;深圳前海盈嘉数据服务有限公司;深圳市盈嘉互联科技有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/284 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张秀程 |
地址: | 100041 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建筑 信息 模型 自适应 中文 分词 方法 装置 | ||
本发明实施例提供一种建筑信息模型自适应的中文分词方法及装置,方法包括:根据目标BIM模型构建BIM模型词典;在预先训练好的中文分词模型中嵌入预先构建的建筑领域术语词典和所述BIM模型词典;基于嵌入所述BIM模型词典和建筑领域术语词典后的中文分词模型对建筑领域待分词语句进行分词。本发明实施例在需要对BIM模型进行数据挖掘时,有针对性地使用该BIM模型中实际用到的特征信息对中文分词模型进行优化,使得分词结果更适用于该BIM模型的数据挖掘,实现了BIM模型自适应的中文分词,提高了建筑信息领域中文分词的效率和准确性,有助于提升现有BIM模型检索、实体匹配等方法的普适性,扩大其应用范围。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种建筑信息模型自适应的中文分词方法及装置。
背景技术
建筑信息模型(Building Information Modeling,BIM)是记录建筑设施物理特性和功能特性的数字信息模型。BIM包含了建筑全生命周期中各阶段的详细信息,实现了建筑生命周期数据的互操作性,促进了建筑工程各参与方的有效协同。当前,BIM已成为建筑行业(Architecture,Engineering and Construction,AEC)工程信息化的有效解决方案和重要趋势,并在建筑企业中得到了广泛的研究和应用实践。
通常,一个BIM模型记录一个工程项目完整的数据信息。当前针对BIM的研究大多针对某一个或多个BIM模型展开。为提升BIM模型的应用效率,部分学者开展了面向BIM模型的信息检索、实体匹配等研究。这些研究的性能直接受分词效果的影响。分词是指将文本序列分割成多个单词,是许多BIM数据挖掘处理的基础和首要步骤。好的分词将能提升模型级信息检索、实体匹配等方法的效率,增加此类方法的普适性,并扩大其应用范畴。
例如,当检索“五层东北强电间的双击双控开关”时,若能正确将检索内容分词为“五层”、“东北强电间”、“的”和“双击双控开关”,则有助于信息检索系统快速、准确地定位到BIM模型中对应的构件。然而,当前主流分词方法的分词准确率受训练语料和应用领域的影响,很难直接应用于信息检索和实体匹配等基于BIM的项目级数据挖掘研究。例如,当前主流分词方法的分词结果为“五层”、“东北”、“强”、“电间”、“的”、“双击”、“双控”和“开关”,或者为“五层”、“东北”、“强电间”、“的”、“双击”和“双控开关”。虽然,部分学者开展了面向建筑领域的分词方法研究,然而,其在特定BIM模型中的适应性较差。
发明内容
为克服上述现有的中文分词方法的分词结果不能直接应用于BIM模型的数据挖掘,且适应性差的问题或者至少部分地解决上述问题,本发明实施例提供一种建筑信息模型自适应的中文分词方法及装置。
根据本发明实施例的第一方面,提供一种建筑信息模型自适应的中文分词方法,包括:
根据目标BIM模型构建BIM模型词典;
在预先训练好的中文分词模型中嵌入预先构建的建筑领域术语词典和所述BIM模型词典;
基于嵌入所述BIM模型词典和建筑领域术语词典后的中文分词模型对建筑领域待分词语句进行分词。
具体地,根据目标BIM模型构建BIM模型词典的步骤包括:
从目标BIM模型的各IFC对象中筛选出含有建筑项目的特征信息的属性;
根据所述属性构建项目特征信息模型;其中,所述项目特征信息模型中的属性在不同的IFC对象中含有的建筑项目的特征信息不同;
根据所述项目特征信息模型构建所述BIM模型词典。
具体地,在预先训练好的中文分词模型中嵌入预先构建的建筑领域术语词典和所述BIM模型词典的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈嘉互联(北京)科技有限公司;盈嘉互联(上海)建筑科技有限公司;嘉兴乌镇盈嘉千镇科技有限公司;深圳前海盈嘉数据服务有限公司;深圳市盈嘉互联科技有限公司,未经盈嘉互联(北京)科技有限公司;盈嘉互联(上海)建筑科技有限公司;嘉兴乌镇盈嘉千镇科技有限公司;深圳前海盈嘉数据服务有限公司;深圳市盈嘉互联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911404637.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置