我正在撤销的网站有两个URL:
/top
列出了顶级玩家/player/{name}
显示名为{name}
info的播放器从第一个URL,我得到玩家的名字和位置,然后我可以使用给定的名字调用第二个URL。我目前的目标是将所有数据存储在数据库中
我创造了两个蜘蛛。第一个是为第一个蜘蛛找到的每个玩家抓取/top
,第二个是为每个玩家抓取/player/{name}
。但是,为了能够将第一个spider数据插入数据库,我需要调用profile spider,因为它是一个外键,如以下查询中所述:
INSERT INTO top_players (player_id, position) values (1, 1)
INSERT INTO players (name) values ('John Doe')
是否可以从管道中执行spider以获得spider结果?我的意思是,被调用的spider不应该再次激活管道
我建议你对刮削过程有更多的控制。特别是从第一页和详细页抓取名称、位置。 试试这个:
相关问题 更多 >
编程相关推荐