国家材料腐蚀与防护科学数据中心
National Materials Corrosion and Protection Data Center
中文 | Eng 数据审核 登录 反馈
整理海量文献数据?有这款 PDF 神器就够了
2018-03-23 10:37:03 作者:本网发布 来源: 生物学霸

  最近小编煞费脑筋,给大家搜罗了不少实用的开源小工具,今天和往常一样,小编给大家带来了一个 PDF 数据获取神器,大家要不要了解一下?


11.jpg


  还记得小编本科时候,有一次老板丢了一个满满是数据表格的 PDF,让小编去整理成 Excel 表格,真的是输了小编三四天数据,现在回想起来还记忆犹新。


  众所周知,将数据从 PDF 表格中提取出来是一件很烦人的任务,比如将下图的表格粘贴到 Excel 中,就会是这样!


1.png

  在 PDF 中很是工整。但是!一旦,复制,然后再粘贴到 Excel 中,就变了模样,真的认不出。这种时候,很多同学想必就是无奈地手动输入了。真的是惨啊,如果数据量少还好,一多简直是要命啊!


2.png

   

  但是,这些问题都难不倒机智的小编!


3.png

   

  是不是很 nice 啊。接下来就让小编给打家介绍中这款工具,及其使用。


搜狗截图18年03月23日1153_4.png

  这款小工具叫做 Tabula,是一个免费的开源小工具,对的,没有看错,是免费的哦。它除了免费,还有一个优点,就是多平台!


5.png

  除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。接下来小编会给大家详细介绍如何使用。


  首先就是下载啦,小编已经为大家准备了安装包,大家在后台回复【0323】即可下载。如果满意,就帮小编点赞和转发哦。解压后,打开软件,会自动打开浏览器。


6.png

  打开后界面是这样的,这个时候,剩下的几乎都傻瓜操作。


7.png

  我们可以参照这个步骤来操作。


  ▲ 上传包含数据表的 PDF 文件。


8.png

  ▲ 通过单击表格的左上角并将鼠标拖到右下角来选择表格,直到所有数据都包含在阴影选择区域中。


9.png

  这里有几个注意点,一定要切记!


  第 1:不要将标题圈进阴影区域,不然会打乱格式!


  第 2:如果表格的表头包含合并单元格,不要圈进阴影区域,可以后续提取完数据再做处理!


  ▲ 随后,点击绿色按钮。


10.png

  ▲ 随后会出现一个包含您的数据的窗口。检查数据以确保它看起来正确。如果数据丢失,我们可能需要稍微扩展我们的选择。


11.png

  ▲ 选择我们需要的格式,点击下载按钮。


12.png

  打开文件,我们就可以将数据作为文本文件或电子表格,而不是 PDF 来进行处理!


  但是小编发现一个问题,就是有时一些符号在 CSV 中会出现乱码,但是不知道是不是因为 Mac 的 Excel 兼容性不是特别好,但是这问题很好解决。


13.png

  只要选择 Excel 的替换功能,然后将乱码字符统一替换就好!


14.png

  就会得到想要的结果啦。具体的一些操作和小诀窍,还需要大家使用以后来告诉小编呦。


 

免责声明:本网站所转载的文字、图片与视频资料版权归原创作者所有,如果涉及侵权,请第一时间联系本网删除。

关于国家科技资源服务平台

国家科技基础条件平台中心是科技部直属事业单位,致力于推动科技资源优化配置,实现开放共享,其主要职责是:承担国家科技基础条件平台建设项目的过程管理和基础性工作;承担国家科技基础条件平台建设发展战略、规范标准、管理方式、运行状况和问题的研究,以及国际合作与宣传、培训等工作;承担科技基础条件门户系统的建设与运行管理工作;参与对在建和已建国家科技基础条件平台项目的考核评估和运行监督工作。

国家科技资源服务平台相关网站


国家材料腐蚀与防护科学数据中心

国家高能物理科学数据中心

国家基因组科学数据中心

国家微生物科学数据中心

国家空间科学数据中心

国家天文科学数据中心

国家对地观测科学数据中心

国家极地科学数据中心

国家青藏高原科学数据中心

国家生态科学数据中心

国家冰川冻土沙漠科学数据中心

国家计量科学数据中心

国家地球系统科学数据中心

国家人口健康科学数据中心

国家基础学科公共科学数据中心

国家农业科学数据中心

国家林业和草原科学数据中心

国家气象科学数据中心

国家地震科学数据中心

国家海洋科学数据中心