Scrapy使用Anaconda

Scrapy是一個應用程序框架。它是一個開放源代碼的網路爬蟲。任何可查看的內容都可以使用scrapy進行抓取。它對爬網網站和提取結構化數據很有用。它可用於各種有用的應用程序,例如數據挖礦,信息處理或歷史檔案。

您最初需要的只是草率的官方文檔,python(如果可能的話,最新版本)和anaconda。

以下是使用anaconda從網站抓取網頁的幾個步驟:

  1. 在桌面上創建一個文件。
  2. 使用cmd:cd在Anaconda提示符下轉到該文件

* dir cmd向您顯示創建的文件。您也可以在桌面上檢查它。

  1. 要啟動新項目:cmd scrapy啟動項目

*示例:scrapy開始項目exp

  1. 現在您可以在文件「 Exp」中看到以「 exp」創建的目錄。
  2. 轉到exp目錄,然後移至exp。像Exp-> exp-> exp->蜘蛛

然後,打開一個文本編輯器。示例:記事本++

  1. 在文本編輯器中創建一個python文件。保存時,將地址複製到項目中的Spider。然後,在其中附加python文件名以及.py擴展名。

例如:*打開記事本++

*新文件

*轉到文件->另存為

*將地址複製並粘貼到Spider:C: Users Pushpa Giri Desktop Exp exp exp spiders,以將其另存為

*在保存之前,將python文件名附加到該文件名。

示例:C: Users Pushpa Giri Desktop Exp exp exp spiders code1.py

*保存文件。您可以看到在蜘蛛文件下創建的python文件。

  1. 現在複製蜘蛛代碼並將其粘貼到python文件中。

該代碼由搜尋器名稱和網頁地址組成。

像這樣:name =「 quotes」

def start_requests():

網址=(

『http://quotes.toscrape.com/page/1/』,

『http://quotes.toscrape.com/page/2/』,

例如,

名稱=「硬幣」

def start_requests():

網址=(

『https://coinmarketcap.com/coins/』,

『https://coinmarketcap.com/tokens/』,

『https://coinmarketcap.com/rankings/exchanges/reported/』,

『https://coinmarketcap.com/exchanges/volume/24-hour/」,

『https://coinmarketcap.com/currencies/volume/monthly/」,

因此,如果要更改名稱或地址,可以在此處進行。

  1. 更改後保存python文件。
  2. 轉到Anaconda提示符。如果尚未輸入文件,請使用cmd:cd

在這裡,cd Exp

  1. 進入目錄。 cmd:cd

示例:cd exp

  1. 現在,必須創建一個擴展名為.cfg的文件。一旦草率創建了新的投影,就創建它。

要檢查,您可以使用cmd:dir檢查目錄是否由該文件組成。作為參考,您可以打開目錄並進行檢查。

桌面-> Exp-> exp

  1. 現在運行cmd:scrapy爬網 ,在anaconda提示中。

例如,刮y的爬行幣

  1. 這將運行爬網命令。最後,蜘蛛關閉並且爬行完成。

提示中顯示了它。像這樣:蜘蛛關閉(完成)

  1. 現在,您可以看到在目錄exp中創建的一些新HTML文件,該文件具有.cfg文件。
  2. 使用文本編輯器打開這些HTML文件。
  3. 它們是網站的抓取部分。

這些是使用scrapy和anaconda抓取網頁時涉及的幾個步驟。這將幫助您抓取任何網站的表格內容。您也可以嘗試使用scrapy從網站上抓取不同類型的數據。

資訊來源:由0x資訊編譯自NVESTLABS。版權歸作者Anusha所有,未經許可,不得轉載
提示:投資有風險,入市需謹慎,本資訊不作為投資理財建議。請理性投資,切實提高風險防範意識;如有發現的違法犯罪線索,可積極向有關部門舉報反映。
你可能還喜歡