Исключить список определенных файлов в wget
Я пытаюсь загрузить много страниц с веб-сайта по dial-up, и это может быть жестоко медленным. У меня почти идеальная команда wget
, но поскольку я загружаю страницы с того же сайта, wget
тратит время на загрузку одинаковых стандартных изображений для каждой страницы.
Если я знаю имя изображений страницы по умолчанию, есть ли способ игнорировать wget
и, следовательно, не загружать их для каждой страницы?
Ниже приведен пример одной из команд wget, которые мой сценарий оболочки генерирует в другой сценарий оболочки для загрузки всех страниц:
- Как загрузить весь (активный) форум phpbb?
- Загрузите ВСЕ папки, подфайлы и файлы с помощью Wget
- Где на моем компьютере Wget загрузил это изображение?
- Загрузите рабочую локальную копию веб-страницы
- Как загрузить файлы Dropbox с помощью команды wget?
mkdir candy-canes-on-the-flannel-board-in-preschool cd candy-canes-on-the-flannel-board-in-preschool wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool" rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg cd ../
Теперь я понимаю, что сценарий маловероятен, насколько это возможно, но он делает то, что мне нужно в данный момент, за исключением того, что вы можете видеть из команды rm
что я просто хотел бы предотвратить wget
от загрузки файлов в первую очередь, если возможное.
Я почти забыл упомянуть, есть две команды wget
и это потому, что первая загружает страницу как index.html
и по какой-то причине она не открывается в моем браузере, однако, когда я ее открываю и смотрю на нее в vim
all Содержимого страницы есть, поэтому я не уверен, почему он не открывается. Но если я просто wget
вторую команду wget
как она есть, тогда эта страница, тот же самый файл с альтернативным именем, открывается отлично. Что-то, что я мог бы исправить, также поможет упростить процесс.
- Crontab - / bin / sh: wget: команда не найдена
- Как я могу заставить wget переименовать загруженные файлы, чтобы не включать строку запроса?
- Как загрузить файл за аутентификацией через Wget или cURL
- Почему wget'ing изображение дает мне файл, а не изображение?
- Почему wget дает ошибку при выполнении с sudo, но отлично работает без?
- Как загрузить части одного и того же файла из разных источников с помощью curl / wget?
- Как использовать Wget для загрузки всех изображений в одну папку с URL-адреса?
- Параллельный wget в Bash
Wget имеет --reject rejlist
вы можете использовать. Список отклонения представляет собой список шаблонов имен файлов.
У него также есть опция -nc
чтобы избежать загрузки и перезаписи существующих файлов.