Поиск текста на веб-страницах с указанием списка URL-адресов

У меня есть список из нескольких тысяч URL-адресов, и я хотел бы искать каждую из этих страниц для данного слова. Как я могу сделать это программно в Windows, желательно используя VBScript или Powershell?

2 Solutions collect form web for “Поиск текста на веб-страницах с указанием списка URL-адресов”

Изменить: исходный вопрос не указывал VBScript и Powershell. Я оставляю это предложение на Python в надежде, что кому-то в будущем пригодится.

Каков самый быстрый способ сделать это программно в Windows? Я думаю, что «самый быстрый» – это функция ваших способностей.

С моими навыками я бы взломал скрипт python для этого, поскольку это было бы самым быстрым способом для меня. Сценарий, как я писал бы, выглядел бы вроде как

search_string = "" #String you're search for sites_with_str = {} #List that'll contain URLs with search_string in them file = fopen("c:\sites.txt", "r") for site in file: html = wget(site) if html.contains(search_string): sites_with_str.add(site) file.fclose() #it's just polite to close your read handles #Print out the sites with the search string in them print "\n\nSites Containing Search String \""+search_string+"\":" for each in sites_with_str: print each 

Конечно, это своего рода Pseudo-Python. Вам нужно будет найти библиотеку, которая захватит сайт для вас. И, очевидно, для этого потребуется небольшая рекурсивная функция и некоторый синтаксический анализ строк, если вы хотите выполнить поиск по всем страницам на каждом сайте, указанном во входном файле.

Я решил свою собственную проблему, если кто-то сталкивается с тем же требованием:

 $webClient = new-object System.Net.WebClient $webClient.Headers.Add("user-agent", "PowerShell Script") $info = get-content c:\path\to\file\urls.txt foreach ($i in $info) { $output = "" $startTime = get-date $output = $webClient.DownloadString($i) $endTime = get-date if ($output -like "*some dirty word*") { "Success`t`t" + $i + "`t`t" + ($endTime - $startTime).TotalSeconds + " seconds" } } 
  • Vbscript для автолога
  • Windows 7 - VBS Script для изменения последнего входа в систему
  • VBS: различать Windows-Explorer и Internet-Explorer
  • Ошибка ввода: нет никакого механизма сценария для расширения файла ".vbs"
  • Remap Keys - нет программного обеспечения
  • Отсоедините командную строку объема тома usb
  • В VBScript мне нужен код для вычитания 1 из searchResult.Updates.Count, так что Count = 0 и WScript.Quit будут выполняться соответственно
  • Как удаленно проверять офисную версию?
  • VBS: выберите один файл в папке
  • Проверка молчаливого обновления Java
  • Сложные запросы wmi с использованием execquery
  • Interesting Posts

    Какова версия командной строки Windows 7 для удаления всех паролей помнить в Credential Manager?

    Цепочные команды терминала в .bash_profile

    Содержит ли ISO таблицы разделов, а также резервную копию данных?

    В чем разница между Ad-Hoc и сетью Mesh? (Также с p2p)

    Изменение продолжительности Live update в приложениях Metro UI Windows 8

    Как я могу безопасно закрыть это окно и навсегда избежать появления похожих всплывающих окон от вредоносных программ и шпионских программ от Mackeeper Zeobit?

    Excel 2007 – «Не удается выполнить эту задачу с доступными ресурсами»

    Метод Windows для обнаружения отравления ARP в локальной сети (LAN)?

    Когда вы используете аннотацию @Override Java и почему?

    OS X – отключить быстрые клавиши

    Что означают цифры 240 и 360 при загрузке видео? Как узнать, какое видео более сжато?

    Ffmpeg удалить части без движения

    Как отделить список, разделенный запятой, на два столбца в Excel?

    Записываются ли программы Windows в журнал?

    Как преобразовать несколько файлов в кодировку UTF-8 с помощью инструментов командной строки * nix?

    Давайте будем гением компьютера.