Как извлечь все внешние ссылки на веб-страницу и сохранить их в файле?

Как извлечь все внешние ссылки на веб-страницу и сохранить их в файле?

Если у вас есть инструменты командной строки, это было бы здорово.

4 Solutions collect form web for “Как извлечь все внешние ссылки на веб-страницу и сохранить их в файле?”

Вам понадобятся два инструмента, lynx и awk , попробуйте следующее:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt 

Если вам нужны нумерационные строки, используйте команду nl , попробуйте следующее:

 $ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt 

Вот улучшение ответа Лилтона: вам совсем не нужно awk, поскольку у рыси есть некоторые полезные опции.

 lynx -listonly -nonumbers -dump http://www.google.com.br 

Если вы хотите числа

 lynx -listonly -dump http://www.google.com.br 
  1. Используйте Beautiful Soup для поиска соответствующих веб-страниц.
  2. Используйте awk для поиска всех URL-адресов, которые не указывают на ваш домен.

Я бы порекомендовал Beautiful Soup над методами скрипинга экрана.

Если командная строка не является силой, вы можете использовать расширение Copy All Links Firefox.

  • Scripting: что проще всего извлечь значение в теге XML-файла?
  • Запуск VirtualBox на хосте Windows 8.1
  • Процессоры поддерживают скорость процессора
  • Контролировать использование полосы пропускания каждого компьютера в сети
  • «Сеть недоступна» при попытке выполнить ping google, но внутренние адреса работают
  • Смотреть файловую систему в режиме реального времени на OS X и Ubuntu
  • Настройка IPv6 на Debian - глобальный временный адрес
  • Где okular хранит метаданные
  • DDRescue. Я сделал неправильную команду, которая заставляет ее занять больше времени, чем ожидалось.
  • Каковы различия между основными дистрибутивами Linux? Я заметлю?
  • Как я могу использовать вторую клавиатуру USB для специальных клавиш под Linux?
  • Почему sudo -n на Mac OS X всегда возвращает 0?
  • Давайте будем гением компьютера.