爬取 flbook 文档

需求介绍

由于实习期间被主管委派了下载下来《安徽省助企政策汇编》的任务，去大概搜索了解了一下 flbook 网站，发现该网站并不提供已经发布的文档的下载渠道（感觉挺莫名其妙的，都公开允许观看了，为什么不给下载渠道啊，更何况还是个政府文件，发布在这种网站上，总觉得哪里有问题），幸好之前有小小的学习过爬虫的一些基本的操作，经过一晚上的瞎捣鼓之后还真的给捣鼓出来了。

最终成果是爬取到每一页的图片文件，并对文件按照顺序进行命名，最终再统合进一个PDF，实现文档的下载（伪）。

代码与最终成果

from selenium import webdriver
import time
from selenium.webdriver import ChromeOptions

for i in [1236]:
    x = str(i)
    link = \"https://flbook.com.cn/c/ZvzVFHIeih#page/\"  #网站地址
    last = link + x
    png = x+\".png\" 	#文件命名方式
    location = \"D:/code/pachong/code/123/\" + png  #文件地址
    option = ChromeOptions() 	
    option.add_argument(\'--headless\')
    # browser = webdriver.Chrome(options=option)
    # browser.set_window_size(15360, 3600)
    driver = webdriver.Chrome(\'./driver/chromedriver.exe\',options=option)	#浏览器
    driver.set_window_size(15360, 3600)		#改变窗口大小以得到清晰度更高的图片
    driver.get(last)
    time.sleep(3)
    # driver.find_element_by_name(\"pageswitching\").click()
    # time.sleep(3)
    # driver.find_element_by_class_name(\"btn tooltip btnhover tooltipstered\").click()
    # time.sleep(3)
    # driver.execute_script(\"document.body.style.zoom=\'1.2\';\")
    # driver.get_screenshot_as_file(png)
    # time.sleep(3)
    a = driver.find_element_by_xpath(\'//*[@class=\"shadow\"]\')
    a.screenshot(location)
    # time.sleep(1)
    driver.quit()

学习到的内容

1、在第一次尝试代码的运行后获得到的图片清晰度太低太低，经过搜索后选择改变页面大小的切换之后，清晰度得到了提高。

2、截图的功能之前并未涉及，但是也不麻烦，虽然网上多是整屏幕进行截屏的教程，但最终还是找到了需要的内容。

3、好久没碰爬虫了，不得不说手有点生疏，连xpath需要的内容找起来都有点吃力，就当是个复习了吧。

需要优化的内容

1、首先，这并不是真正的文档，而是图片的截取与拼接，虽然组合成PDF并未有太大的区别，但是终究是有区别的。

2、其次，在编写过程中我试图先对网页进行单页显示，然后再爬取图片，但是因为不明原因，单页显示按钮的自动化点击会出错，经过大量试错之后也未得到修正，因而最后得到的都是双页显示的图片。

3、爬虫的学习毕竟只是浅尝辄止，涉及到IP池等深层次的内容便没有再进行学习了，该程序也是一种暴力爬取的操作，所以所消耗的时间较多，优点是简化了人工操作，缺点是还可以更进一步优化。

总结

暑假的实习期间也算是有点收获的，虽然感觉总体偏向文职，但是还是学到了很多东西，也有点点未来的打算了，希望等到下一次实习的时候我的技术可以支撑我担任技术人员，还是要一直学习下去啊。

来源：https://www.cnblogs.com/tlott/p/16600567.html
本站部分图文来源于网络，如有侵权请联系删除。

爬取 flbook 文档

爬取 flbook 文档

需求介绍

代码与最终成果

学习到的内容

需要优化的内容

总结

相关推荐

热门文章

爬取 flbook 文档

需求介绍

代码与最终成果

学习到的内容

需要优化的内容

总结

相关推荐

热门文章

切换注册登录

用户名或邮箱

密码

切换登录注册

昵称

邮箱