Scrapy使用Anaconda
Scrapy是一个应用程序框架。它是一个开放源代码的网络爬虫。任何可查看的内容都可以使用scrapy进行抓取。它对爬网网站和提取结构化数据很有用。它可用于各种有用的应用程序,例如数据挖矿,信息处理或历史档案。
您最初需要的只是草率的官方文档,python(如果可能的话,最新版本)和anaconda。
以下是使用anaconda从网站抓取网页的几个步骤:
- 在桌面上创建一个文件。
- 使用cmd:cd在Anaconda提示符下转到该文件
* dir cmd向您显示创建的文件。您也可以在桌面上检查它。
- 要启动新项目:cmd scrapy启动项目
*示例:scrapy开始项目exp
- 现在您可以在文件“ Exp”中看到以“ exp”创建的目录。
- 转到exp目录,然后移至exp。像Exp-> exp-> exp->蜘蛛
然后,打开一个文本编辑器。示例:记事本++
- 在文本编辑器中创建一个python文件。保存时,将地址复制到项目中的Spider。然后,在其中附加python文件名以及.py扩展名。
例如:*打开记事本++
*新文件
*转到文件->另存为
*将地址复制并粘贴到Spider:C: Users Pushpa Giri Desktop Exp exp exp spiders,以将其另存为
*在保存之前,将python文件名附加到该文件名。
示例:C: Users Pushpa Giri Desktop Exp exp exp spiders code1.py
*保存文件。您可以看到在蜘蛛文件下创建的python文件。
- 现在复制蜘蛛代码并将其粘贴到python文件中。
该代码由搜寻器名称和网页地址组成。
像这样:name =“ quotes”
def start_requests():
网址=(
‘http://quotes.toscrape.com/page/1/’,
‘http://quotes.toscrape.com/page/2/’,
例如,
名称=“硬币”
def start_requests():
网址=(
‘https://coinmarketcap.com/coins/’,
‘https://coinmarketcap.com/tokens/’,
‘https://coinmarketcap.com/rankings/exchanges/reported/’,
‘https://coinmarketcap.com/exchanges/volume/24-hour/”,
‘https://coinmarketcap.com/currencies/volume/monthly/”,
因此,如果要更改名称或地址,可以在此处进行。
- 更改后保存python文件。
- 转到Anaconda提示符。如果尚未输入文件,请使用cmd:cd
在这里,cd Exp
- 进入目录。 cmd:cd
示例:cd exp
- 现在,必须创建一个扩展名为.cfg的文件。一旦草率创建了新的投影,就创建它。
要检查,您可以使用cmd:dir检查目录是否由该文件组成。作为参考,您可以打开目录并进行检查。
桌面-> Exp-> exp
- 现在运行cmd:scrapy爬网
,在anaconda提示中。
例如,刮y的爬行币
- 这将运行爬网命令。最后,蜘蛛关闭并且爬行完成。
提示中显示了它。像这样:蜘蛛关闭(完成)
- 现在,您可以看到在目录exp中创建的一些新HTML文件,该文件具有.cfg文件。
- 使用文本编辑器打开这些HTML文件。
- 它们是网站的抓取部分。
这些是使用scrapy和anaconda抓取网页时涉及的几个步骤。这将帮助您抓取任何网站的表格内容。您也可以尝试使用scrapy从网站上抓取不同类型的数据。