六月,秋秋发生大规模盗号事件,众说纷纭,也有说因为某习通买卖个人信息导致的,有说是因为点了图片中的网站导致中毒被盗的,还有说企鹅数据库被攻击导致账号被盗的,反正公说公有理婆说婆有理。
但是吧,人呐,一般都喜欢凑热闹,于是乎,我直接用Python把围脖爬了一遍,看他们争论的不亦乐乎,我开心极了~
兄弟们学习python,有时候不知道怎么学,从哪里开始学。掌握了基本的一些语法或者做了两个案例后,不知道下一步怎么走,不知道如何去学习更加高深的知识。
那么对于这些大兄弟们,我准备了大量的免费视频教程,PDF电子书籍,以及视频源的源代码!
还会有大佬解答!
都在这个群里了 279199867 欢迎加入,一起讨论 一起学习!
准备工作
使用的是Python3.8 和 pycharm 编辑器,为什么我用的是3.8 而不是最新版呢?
很多刚开始学Python的兄弟喜欢下载新版本,在原有的认知里面就是觉得最新的自然就是最好的,但是,对于软件而言,越新的版本,问题越多,不稳定,还需要不断地修改不断地完善。
打个简单的比方,以LOL为例,每次版本刚更新,总是会爆出一些小bug,然后收集一段时间后,再通过小版本或者直接在线就更新了。
所以说软件并不是版本越新越好,这里我推荐的是Python3.8,目前最稳定的版本。
pycharm的话,pycharm2020以前的版本是没有中文版插件的,只能通过在网上找的插件安装,后面的版本都可以直接在pycharm上安装插件。
代码展示
import pprint import re import requests import csv import pandas as pd # f = open(\'微博评论.csv\', mode=\'a\', encoding=\'utf-8\', newline=\'\') # csv_writer = csv.DictWriter(f, fieldnames=[ # \'用户\', # \'地区\', # \'评论\', # \'日期\', # ]) # csv_writer.writeheader() url = \'https://m.***.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0\' headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36\' } response = requests.get(url=url, headers=headers) lis = [] for index in response.json()[\'data\'][\'data\']: content = \'\'.join(re.findall(\'[\\u4e00-\\u9fa5]+\', index[\'text\'])) dit = { \'用户\': index[\'user\'][\'screen_name\'], \'地区\': index[\'source\'].replace(\'来自\', \'\'), \'评论\': content, \'日期\': index[\'created_at\'] } lis.append(dit) # csv_writer.writerow(dit) print(dit) pd_data = pd.DataFrame(lis) pd_data.to_excel(\'微博评论.xlsx\')
效果
部分数据
大家还可以自己试试做做词云图,爬取多页等等刚操作!
快去试试吧~
来源:https://www.cnblogs.com/hahaa/p/16444168.html
本站部分图文来源于网络,如有侵权请联系删除。