華為云計(jì)算 云知識(shí) 網(wǎng)絡(luò)爬蟲如何工作?
網(wǎng)絡(luò)爬蟲如何工作?

一、獲取網(wǎng)頁

構(gòu)造一個(gè)請(qǐng)求并發(fā)送給服務(wù)器;接收到響應(yīng)(頁面源代碼)并將其解析出來。

二、提取信息

網(wǎng)頁的結(jié)構(gòu)有一定的規(guī)則,采用正則表達(dá)式提?。皇褂肦equests庫,我們可以高效快速地從中提取網(wǎng)頁信息。

三、保存數(shù)據(jù)

將提取到的數(shù)據(jù)保存到某處以便后續(xù)使用;保存形式有多種多樣,可以保存到文本或者 數(shù)據(jù)庫 。