制作一个查看器可以查看豆瓣前100名电影的信息,当然这个爬取信息比较简单。所以重点放在 QThread 多线程的应用上面。
【阅读全文】
QThread 子线程是 PyQt5 自带的一个线程使用,因为如果使用 PyQt5 的主线程去做所有的事情。如果处理速度太慢的情况下主线程就会直接出现卡死状态。
网络信息提取的相关模块有下面这些,主要是一个获取 Html 信息,另一个解析 Html5 的页面信息。
import requests # 网络请求库
from bs4 import BeautifulSoup # H5页面元素解析库
from fake_useragent import UserAgent # 身份信息生成库
UI 界面布局相关的模块。
from PyQt5.QtWidgets import *
from PyQt5.QtGui import *
from PyQt5.QtCore import *
应用操作相关的模块。
import sys
先把专门用于信息爬取的独立线程写好。新建一个线程类继承自 QThread,其中最重要的是要写上 init、del、run这几个函数。这几个函数对线程类 QThread 里面的函数重写的,业务逻辑是通过 run 函数实现的。
\'\'\'
独立线程处理信息爬取
\'\'\'
class DouBanWorker(QThread):
trigger = pyqtSignal(str)
finished = pyqtSignal(bool)
def __init__(self, parent=None):
super(DouBanWorker, self).__init__(parent)
self.parent = parent
self.url = \'https://movie.douban.com/top250?start={}&filter=\'
self.working = True
def __del__(self):
self.working = False
self.wait()
def run(self):
# 构造useragent身份设备信息
headers = {
\"User-Agent\": str(UserAgent().random),
}
for page in range(4):
url = self.url.format(page * 25)
response = requests.get(url, headers=headers)
bs = BeautifulSoup(response.text, \'html.parser\')
movie_list = bs.find_all(\'div\', class_=\'item\')
for movie in movie_list:
movie_seq = movie.find(\'em\').text
movie_name = movie.find(\'span\').text
movie_score = movie.find(\"span\", class_=\'rating_num\').text
movie_inst = movie.find(\"span\", class_=\'inq\').text
movie_link = movie.find(\'a\')[\'href\']
self.trigger.emit(\'\\n\')
self.trigger.emit(\'排名:\' + movie_seq + \'\\n\')
self.trigger.emit(\'名称:\' + movie_name + \'\\n\')
self.trigger.emit(\'评分:\' + movie_score + \'\\n\')
self.trigger.emit(\'描述:\' + movie_inst + \'\\n\')
movie_link = \"<font color=\'blue\'>\" + movie_link + \"</font>\"
self.trigger.emit(\'链接:\' + movie_link + \'\\n\')
self.finished.emit(True)
主界面的 UI 布局信息比较简单,主要是一个文本浏览器和一个开始的按钮组成的。
def init_ui(self):
\'\'\'
初始化UI界面布局
:return:
\'\'\'
self.setWindowTitle(\'豆瓣电影排名\')
self.setWindowIcon(QIcon(\'电影.ico\'))
self.resize(400, 300)
vbox = QVBoxLayout()
self.result_brower = QTextBrowser()
self.result_brower.setFont(QFont(\'宋体\', 8))
self.result_brower.setReadOnly(True)
self.result_brower.setPlaceholderText(\'信息展示区域\')
self.result_brower.ensureCursorVisible()
vbox.addWidget(self.result_brower)
self.thread_ = DouBanWorker(self)
self.thread_.trigger.connect(self.update_log)
self.thread_.finished.connect(self.finished)
self.start_btn = QPushButton()
self.start_btn.setText(\'获取前100名豆瓣电影详细信息\')
self.start_btn.clicked.connect(self.start_btn_click)
vbox.addWidget(self.start_btn)
self.setLayout(vbox)
文本浏览器内容保持追加更新的槽函数,将电影信息获取的实施进度追加到页面上可以看到。
def update_log(self, text):
\'\'\'
槽函数:向文本浏览器中写入内容
:param text:
:return:
\'\'\'
cursor = self.result_brower.textCursor()
cursor.movePosition(QTextCursor.End)
self.result_brower.append(text)
self.result_brower.setTextCursor(cursor)
self.result_brower.ensureCursorVisible()
开始按钮上关联的槽函数,用这个函数在收到主线程的开始命令时来启动子线程的运行,子线程就会自动去爬取豆瓣上面的排名信息。
def start_btn_click(self):
\'\'\'
槽函数:启动子线程爬取豆瓣电影信息
:return:
\'\'\'
self.start_btn.setEnabled(False)
self.thread_.start()
在收到子线程执行完成的信息时,将开始按钮完成可用的状态可以点击再次执行。
def finished(self, finished):
\'\'\'
槽函数:处理完成时将开始按钮变成可点击状态
:param finished:
:return:
\'\'\'
if finished is True:
self.start_btn.setEnabled(True)
完成后,启动后台入口函数,最后看一下入口函数的写法和往常是一样的。
if __name__ == \'__main__\':
\'\'\'
主函数入口
\'\'\'
app = QApplication(sys.argv)
main = DouBanUI()
main.show()
sys.exit(app.exec_())
示例代码块都是经过测试的,有不合适的地方欢迎大家留言交流。
我是 [Python 集中营]、很高兴您看到了最后, 我是一个专注于 Python 知识分享的公众号,希望可以得到您的关注~
【往期精彩】
PyQt5 最小化到托盘,升级小闹钟...
pyinstaller打包exe文件太大,利用pipenv轻松解决!
PyQt5 小工具:Excel数据分组汇总器...
异常:存储MYSQL转义数据保证数据存储的准确性...
做一个小闹钟,按规划做事...
来源:https://www.cnblogs.com/lwsbc/p/15815656.html
图文来源于网络,如有侵权请联系删除。