Scrapy使用Anaconda
Scrapy是一個應用程序框架。它是一個開放源代碼的網路爬蟲。任何可查看的內容都可以使用scrapy進行抓取。它對爬網網站和提取結構化數據很有用。它可用於各種有用的應用程序,例如數據挖礦,信息處理或歷史檔案。
您最初需要的只是草率的官方文檔,python(如果可能的話,最新版本)和anaconda。
以下是使用anaconda從網站抓取網頁的幾個步驟:
- 在桌面上創建一個文件。
- 使用cmd:cd在Anaconda提示符下轉到該文件
* dir cmd向您顯示創建的文件。您也可以在桌面上檢查它。
- 要啟動新項目:cmd scrapy啟動項目
*示例:scrapy開始項目exp
- 現在您可以在文件「 Exp」中看到以「 exp」創建的目錄。
- 轉到exp目錄,然後移至exp。像Exp-> exp-> exp->蜘蛛
然後,打開一個文本編輯器。示例:記事本++
- 在文本編輯器中創建一個python文件。保存時,將地址複製到項目中的Spider。然後,在其中附加python文件名以及.py擴展名。
例如:*打開記事本++
*新文件
*轉到文件->另存為
*將地址複製並粘貼到Spider:C: Users Pushpa Giri Desktop Exp exp exp spiders,以將其另存為
*在保存之前,將python文件名附加到該文件名。
示例:C: Users Pushpa Giri Desktop Exp exp exp spiders code1.py
*保存文件。您可以看到在蜘蛛文件下創建的python文件。
- 現在複製蜘蛛代碼並將其粘貼到python文件中。
該代碼由搜尋器名稱和網頁地址組成。
像這樣:name =「 quotes」
def start_requests():
網址=(
『http://quotes.toscrape.com/page/1/』,
『http://quotes.toscrape.com/page/2/』,
例如,
名稱=「硬幣」
def start_requests():
網址=(
『https://coinmarketcap.com/coins/』,
『https://coinmarketcap.com/tokens/』,
『https://coinmarketcap.com/rankings/exchanges/reported/』,
『https://coinmarketcap.com/exchanges/volume/24-hour/」,
『https://coinmarketcap.com/currencies/volume/monthly/」,
因此,如果要更改名稱或地址,可以在此處進行。
- 更改後保存python文件。
- 轉到Anaconda提示符。如果尚未輸入文件,請使用cmd:cd
在這裡,cd Exp
- 進入目錄。 cmd:cd
示例:cd exp
- 現在,必須創建一個擴展名為.cfg的文件。一旦草率創建了新的投影,就創建它。
要檢查,您可以使用cmd:dir檢查目錄是否由該文件組成。作為參考,您可以打開目錄並進行檢查。
桌面-> Exp-> exp
- 現在運行cmd:scrapy爬網
,在anaconda提示中。
例如,刮y的爬行幣
- 這將運行爬網命令。最後,蜘蛛關閉並且爬行完成。
提示中顯示了它。像這樣:蜘蛛關閉(完成)
- 現在,您可以看到在目錄exp中創建的一些新HTML文件,該文件具有.cfg文件。
- 使用文本編輯器打開這些HTML文件。
- 它們是網站的抓取部分。
這些是使用scrapy和anaconda抓取網頁時涉及的幾個步驟。這將幫助您抓取任何網站的表格內容。您也可以嘗試使用scrapy從網站上抓取不同類型的數據。