Scrapy使用Anaconda

Scrapy是一个应用程序框架。它是一个开放源代码的网络爬虫。任何可查看的内容都可以使用scrapy进行抓取。它对爬网网站和提取结构化数据很有用。它可用于各种有用的应用程序,例如数据挖矿,信息处理或历史档案。

您最初需要的只是草率的官方文档,python(如果可能的话,最新版本)和anaconda。

以下是使用anaconda从网站抓取网页的几个步骤:

  1. 在桌面上创建一个文件。
  2. 使用cmd:cd在Anaconda提示符下转到该文件

* dir cmd向您显示创建的文件。您也可以在桌面上检查它。

  1. 要启动新项目:cmd scrapy启动项目

*示例:scrapy开始项目exp

  1. 现在您可以在文件“ Exp”中看到以“ exp”创建的目录。
  2. 转到exp目录,然后移至exp。像Exp-> exp-> exp->蜘蛛

然后,打开一个文本编辑器。示例:记事本++

  1. 在文本编辑器中创建一个python文件。保存时,将地址复制到项目中的Spider。然后,在其中附加python文件名以及.py扩展名。

例如:*打开记事本++

*新文件

*转到文件->另存为

*将地址复制并粘贴到Spider:C: Users Pushpa Giri Desktop Exp exp exp spiders,以将其另存为

*在保存之前,将python文件名附加到该文件名。

示例:C: Users Pushpa Giri Desktop Exp exp exp spiders code1.py

*保存文件。您可以看到在蜘蛛文件下创建的python文件。

  1. 现在复制蜘蛛代码并将其粘贴到python文件中。

该代码由搜寻器名称和网页地址组成。

像这样:name =“ quotes”

def start_requests():

网址=(

‘http://quotes.toscrape.com/page/1/’,

‘http://quotes.toscrape.com/page/2/’,

例如,

名称=“硬币”

def start_requests():

网址=(

‘https://coinmarketcap.com/coins/’,

‘https://coinmarketcap.com/tokens/’,

‘https://coinmarketcap.com/rankings/exchanges/reported/’,

‘https://coinmarketcap.com/exchanges/volume/24-hour/”,

‘https://coinmarketcap.com/currencies/volume/monthly/”,

因此,如果要更改名称或地址,可以在此处进行。

  1. 更改后保存python文件。
  2. 转到Anaconda提示符。如果尚未输入文件,请使用cmd:cd

在这里,cd Exp

  1. 进入目录。 cmd:cd

示例:cd exp

  1. 现在,必须创建一个扩展名为.cfg的文件。一旦草率创建了新的投影,就创建它。

要检查,您可以使用cmd:dir检查目录是否由该文件组成。作为参考,您可以打开目录并进行检查。

桌面-> Exp-> exp

  1. 现在运行cmd:scrapy爬网 ,在anaconda提示中。

例如,刮y的爬行币

  1. 这将运行爬网命令。最后,蜘蛛关闭并且爬行完成。

提示中显示了它。像这样:蜘蛛关闭(完成)

  1. 现在,您可以看到在目录exp中创建的一些新HTML文件,该文件具有.cfg文件。
  2. 使用文本编辑器打开这些HTML文件。
  3. 它们是网站的抓取部分。

这些是使用scrapy和anaconda抓取网页时涉及的几个步骤。这将帮助您抓取任何网站的表格内容。您也可以尝试使用scrapy从网站上抓取不同类型的数据。

资讯来源:由0x资讯编译自NVESTLABS。版权归作者Anusha所有,未经许可,不得转载
提示:投资有风险,入市需谨慎,本资讯不作为投资理财建议。请理性投资,切实提高风险防范意识;如有发现的违法犯罪线索,可积极向有关部门举报反映。
你可能还喜欢