天气后报网——数据爬取(多线程)

一、爬取数据

1.确定爬虫要获取的数据

2016年-2020年全国363个城市每天的天气情况(城市名、日期、天气状况、气温、风力风向)

2.爬取的网站

天气后报网(http://www.tianqihoubao.com/lishi)

3.要使用的技术

(网络库lrequests)、(分析库lxml、BeautifulSoup)、(存储csv)、(多线程queue)

4.分析待抓取数据的网站

1)打开天气后报网(http://www.tianqihoubao.com/lishi)，获取每个城市的超链接，在网页中右击->检查->Ctrl+Shift+C+点击北京

发现<div class=\"citychk\">标签下的<dd>标签下的a标签href属性中包含了相关城市的链接，点击该链接

分析url：http://www.tianqihoubao.com+a标签的href属性，故可使用map()方法和lamdba函数构造每个城市的url

1 city_urls = html.xpath(\"//div[@class=\'citychk\']//dd//a/@href\")
2 city_urls = list(map(lambda url: \"http://www.tianqihoubao.com\"+url, city_urls))

来源：https://www.cnblogs.com/chyhoo/p/14574593.html
图文来源于网络，如有侵权请联系删除。

2016-2020Chinese-Weather-Analysis(一)

天气后报网——数据爬取(多线程)

一、爬取数据

1.确定爬虫要获取的数据

2.爬取的网站

3.要使用的技术

4.分析待抓取数据的网站

相关推荐

热门文章

天气后报网——数据爬取(多线程)

一、爬取数据

1.确定爬虫要获取的数据

2.爬取的网站

3.要使用的技术

4.分析待抓取数据的网站

相关推荐

热门文章

切换注册登录

用户名或邮箱

密码

切换登录注册

昵称

邮箱