У меня следующая проблема:
Я хочу скачать все картинки на веб-странице с помощью wget. Обычно я могу к этому с
wget -nd -r -P ./ -A jpeg,jpg,bmp,gif,png somepage.com
Но проблема в том, что картинки на моей веб-странице загружаются с PHP
Скрипт, поэтому wget не может их скачать. PHP
кажется, работает, как у каждого рисунка есть свой идентификатор и сценарий (называется file.php
) получает удостоверение личности (file.php?id=someID
) и перенаправляет на
/files/.jpg
Любые идеи, как решить эту проблему?
— dunklesToast
Я предпочитаю использовать —page-реквизиты (-p для краткости) вместо -r здесь, так как он загружает все, что страница должна отображать, но не другие страницы, и мне не нужно думать о том, какие файлы мне нужны.
На самом деле я обычно использую что-то вроде
wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
Это означает:
-E: Добавьте .html к имени файла, если это файл HTML, но не заканчивается на .html или аналогичный
-H: скачивать файлы и с других хостов
-k: после загрузки конвертировать любую ссылку в нем, чтобы они указывали на загруженные файлы
-p: скачать все, что нужно странице для правильного просмотра в автономном режиме
Или вы можете попробовать что-то вроде
wget -p www.example.com/index.html
Тем не менее, я думаю, что он не сможет делать какие-то умные вещи (включая JavaScript). Это зависит от вашей страницы.
Других решений пока нет …