技术栈

主页 > 后端开发 >

python爬取pdf

技术栈 - 中国领先的IT技术门户

哈哈哈练习爬虫技术,去到了lxml的官网去看那个document
看到那个可以pdf的标准就点开了。
想到res.content可以得到二进制文件信息,大概所有的数据都是可以爬的(图片也是可以的)。pdf类似,估计也是可以这么爬的。于是我就写了下面的这么一段代码。

还算不错,成功了~

代码也很简单~
import requests
res = requests.get('http://lxml.de/lxmldoc-4.1.1.pdf')
res.encoding = res.apparent_encoding
with open('./a.pdf', 'wb') as f:
    f.write(res.content)
责任编辑:admin  二维码分享:
本文标签: pdfreslxmlcontent可以代码