[发明专利]一种自动化实现docx文件细粒度与多样化的批注方法和系统在审
申请号: | 201911059416.X | 申请日: | 2019-11-01 |
公开(公告)号: | CN110968999A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 数地科技(北京)有限公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/14 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 实现 docx 文件 细粒度 多样化 批注 方法 系统 | ||
本发明涉及一种自动化实现docx文件细粒度与多样化的批注方法和系统,根据批注定位信息与批注内容样式自动化实现word文档细粒度与多样化批注,通过改变word文档的内部结构(XML文件树)自动化实现批注功能。该方法包括:获取docx文件的内部XML基础文件;在docx文件的XML基础文件中生成批注环境;设置批注信息;根据生成的批注环境和设置的批注信息,通过修改docx文件的XML基础文件,在待批注位置插入批注信息;根据批注后的XML基础文件,得到带批注信息的docx文件。本发明能够根据批注定位信息与批注内容样式,准确、快速地实现docx文件细粒度与多样化批注。
技术领域
本发明涉及一种根据定位信息与批注内容信息自动化实现docx文件细粒度与多样化的批注方法和系统。
背景技术
docx是Microsoft Office2007之后版本使用的,用新的基于xml的压缩文件格式取代了其目前专有的默认文件格式,并保存在一个zip文件中,然后取扩展名为docx。
批注功能是word众多强大功能之一,用户可在指定位置插入批注,用于解释说明docx文件中的内容。传统人工批注方法均是用户通过Microsoft Office Word软件打开docx文件,浏览文件内容手工加入批注。但对于细粒度与多样化docx文件,或文档有大量批注的情况,传统手工批注方法难度较大,效率低下且准确率无法保证;在人工智能领域,如智能核查文档相关系统,将核查结果在原docx文件以批注的形式返回给用户,手动批注无法实现。
目前docx文件自动化批注需求日益增加,部分需求要求精确到更细粒度的批注,如句子、字,表格中的单元格等。现有docx文件自动化批注方法,如基于java语言的docx4j、基于c#的Open XML SDK、基于python语言的python-docx、bayoo-docx工具难以实现句子、字、单元格等细粒度元素的批注,并且无法自定义批注内容的字体、多样化批注,占用内存大,运行速度较慢。
经过上述分析,本发明需面对的挑战如下:
(1)难以定位批注内容。
docx文件内部结构复杂,如何设定批注定位信息从而准确定位到批注内容的位置是一个难题。
(2)难以获取并批注细粒度元素。
在docx文件的内部XML基础文件中,文字以段落的形式存在,无句子级别的划分。现有工具难以对段落中句子、字,表格中单元格等更细粒度的元素进行批注。
(3)难以实现多元化批注。
docx文件中含有文字,表格,图片等多元化元素,如何对多元化元素进行批注是docx文件批注的一个难题。
(4)难以实现多样化批注
对于每个批注内容,自定义样式,如字体、大小等属性进行多样化批注是docx文件批注的一个难题。
发明内容
针对上述面临的挑战,本发明提供一种docx文件的自动化实现细粒度与多样化的批注方法和系统。通过修改docx文件内部xml树结构进行批注,旨在实现一种快速高效,准确灵活的自动化实现docx文件细粒度与多样化批注的方法和系统。
本发明采用的技术解决方案如下:
一种自动化实现docx文件细粒度与多样化的批注方法,包括以下步骤:
获取docx文件的内部XML基础文件;
在docx文件的XML基础文件中生成批注环境;
设置批注信息;
根据生成的批注环境和设置的批注信息,通过修改docx文件的XML基础文件,在待批注位置插入批注信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数地科技(北京)有限公司,未经数地科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911059416.X/2.html,转载请声明来源钻瓜专利网。