У меня 90 массивов в массиве
[url1,url2,url3, ... , url90]
я хочу иметь 3 паука который работает одновременно и передает 1 URL каждому, так что мой первый экземпляр Scrapy получает url1, второй получает url2, а третий получает url3, а когда первый завершит свою работу, он получит url4.
я использовал GNU Parallel но если есть другое программное обеспечение лучше, я буду использовать это.
я попробовал это в php, потому что я должен запустить свою scrap из PHP
exec (for url in urlsTab | parallel -j 3 scrapy crawl mySpider -a url {})
Возможно, вы хотите что-то вроде этого (не проверено)
$parallel = popen("parallel -j 3 scrapy crawl mySpider","w");
foreach($urlsTab as $url) {
fwrite($parallel,$url+"\n");
}
close $parallel;
Других решений пока нет …