如何刮成千上万的PDF文件的表格?

我有大约1,500个PDF文件,每个文件只有1页,并且具有相同的结构(例如http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf )。

我正在寻找的是一种迭代所有这些文件(如果可能,本地)的方法,并提取表的实际内容(如CSV,存储到SQLite数据库,无论)。

我很想在Node.js中这样做,但找不到合适的库来parsing这些东西。 你知道吗?

如果在Node.js中不可行,我也可以用Python编写,如果有更好的方法可用的话。

我以前不知道这个,但less了这个神奇的阅读PDF文件的能力。 我能用这个脚本从示例pdf中提取表格数据:

 import subprocess import re output = subprocess.check_output(["less","BAG_15m_kzh_2012_de.pdf"]) re_data_prefix = re.compile("^[0-9]+[.].*$") re_data_fields = re.compile("(([^ ]+[ ]?)+)") for line in output.splitlines(): if re_data_prefix.match(line): print [l[0].strip() for l in re_data_fields.findall(line)]