开发环境:
Python 3.6
Pycharm
浏览器驱动 >>> 和浏览器(谷歌或者火狐) 版本最相近的一个(下载驱动之后和你代码放到同一个文件里面就可以使用)
模块使用:
- requests >>> pip install requests
- selenium >>> pip install selenium
- re
- os
想要学习Python的可以点这里,每晚8点都有免费Python案例的讲解,还有老师在线一对一的解答
本篇文章流程(爬虫基本思路):
一. 数据来源分析
确定需求 (我们要爬的内容是什么?)抖音视频内容
通过开发者工具进行抓包分析I. (F12/鼠标右键点击检查可以打开) 选择network 选择 media 找播放地址II. 找播放地址来源 >>>
二. 代码实现过程
发送请求 对于视频详情页发送请求
获取数据 获取网页源代码数据
解析数据 提取视频播放地址 以及视频标题
下载保存
爬取一个视频
安装所需模块
import requests # 数据请求 第三方模块 pip install requests
import re # 正则表达式模块
import os # 文件操作模块
import time # 时间模块
from selenium import webdriver # pip install selenium
来源:https://www.cnblogs.com/qshhl/p/15206713.html
图文来源于网络,如有侵权请联系删除。