Поиск текста на веб-страницах с указанием списка URL-адресов

У меня есть список из нескольких тысяч URL-адресов, и я хотел бы искать каждую из этих страниц для данного слова. Как я могу сделать это программно в Windows, желательно используя VBScript или Powershell?

  • Поиск текста в .txt-файлах Windows 7
  • Параметры настроек приложения не отображаются в результатах поиска на win10
  • Настройка пользовательского механизма поиска по умолчанию в Opera
  • Поиск в текстовых файлах в Mac OS X
  • Поиск Windows не индексирование содержимого текстовых файлов с расширением .SQL
  • Поиск подстроки в имени файла со встроенным поиском окон
  • Как запустить программу с аргументами командной строки в Windows 'cmd с командой' start '?
  • Поддерживать обновления?
  • Windows 7 Desktop Icons поврежден
  • Как я могу эффективно заменить значок для документов / файлов определенного типа?
  • Как отключить интернет для определенного интерфейса в Windows 7?
  • Windows 10 Search не может найти ЛЮБЫЕ приложения. Даже калькулятор
  • 2 Solutions collect form web for “Поиск текста на веб-страницах с указанием списка URL-адресов”

    Изменить: исходный вопрос не указывал VBScript и Powershell. Я оставляю это предложение на Python в надежде, что кому-то в будущем пригодится.

    Каков самый быстрый способ сделать это программно в Windows? Я думаю, что «самый быстрый» – это функция ваших способностей.

    С моими навыками я бы взломал скрипт python для этого, поскольку это было бы самым быстрым способом для меня. Сценарий, как я писал бы, выглядел бы вроде как

    search_string = "" #String you're search for sites_with_str = {} #List that'll contain URLs with search_string in them file = fopen("c:\sites.txt", "r") for site in file: html = wget(site) if html.contains(search_string): sites_with_str.add(site) file.fclose() #it's just polite to close your read handles #Print out the sites with the search string in them print "\n\nSites Containing Search String \""+search_string+"\":" for each in sites_with_str: print each 

    Конечно, это своего рода Pseudo-Python. Вам нужно будет найти библиотеку, которая захватит сайт для вас. И, очевидно, для этого потребуется небольшая рекурсивная функция и некоторый синтаксический анализ строк, если вы хотите выполнить поиск по всем страницам на каждом сайте, указанном во входном файле.

    Я решил свою собственную проблему, если кто-то сталкивается с тем же требованием:

     $webClient = new-object System.Net.WebClient $webClient.Headers.Add("user-agent", "PowerShell Script") $info = get-content c:\path\to\file\urls.txt foreach ($i in $info) { $output = "" $startTime = get-date $output = $webClient.DownloadString($i) $endTime = get-date if ($output -like "*some dirty word*") { "Success`t`t" + $i + "`t`t" + ($endTime - $startTime).TotalSeconds + " seconds" } } 
    Давайте будем гением компьютера.