Как извлечь все внешние ссылки на веб-страницу и сохранить их в файле?

Как извлечь все внешние ссылки на веб-страницу и сохранить их в файле?

Если у вас есть инструменты командной строки, это было бы здорово.

  • Как запустить графические программы Linux из командной строки, но отдельно от командной строки?
  • Использование подстановочных знаков с помощью команды rmdir или rd
  • Как вы перечисляете все процессы в командной строке в Windows?
  • Есть ли способ скопировать пути файлов из всех открытых открытых файлов Windows? (Для сохранения и восстановления сеанса Windows во время перезапуска)
  • Практическое руководство. Добавление удаленных мест в индекс поиска Windows из командной строки?
  • Как сделать ярлык от CMD?
  • Как удалить службы systemd
  • Правила udev не работают с небольшим числом
  • Мой кошмар энергоснабжения / материнской платы
  • Как остановить сообщения ядра от наводнения моей консоли?
  • Windows эквивалент whereis?
  • Перемещение текущего процесса на задний план
  • 4 Solutions collect form web for “Как извлечь все внешние ссылки на веб-страницу и сохранить их в файле?”

    Вам понадобятся два инструмента, lynx и awk , попробуйте следующее:

    $ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt 

    Если вам нужны нумерационные строки, используйте команду nl , попробуйте следующее:

     $ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt 

    Вот улучшение ответа Лилтона: вам совсем не нужно awk, поскольку у рыси есть некоторые полезные опции.

     lynx -listonly -nonumbers -dump http://www.google.com.br 

    Если вы хотите числа

     lynx -listonly -dump http://www.google.com.br 
    1. Используйте Beautiful Soup для поиска соответствующих веб-страниц.
    2. Используйте awk для поиска всех URL-адресов, которые не указывают на ваш домен.

    Я бы порекомендовал Beautiful Soup над методами скрипинга экрана.

    Если командная строка не является силой, вы можете использовать расширение Copy All Links Firefox.

    Давайте будем гением компьютера.