Как получить URL-адрес с веб-сайта с помощью Java?

Я хочу использовать команды HTTP GET и POST для извлечения URL-адресов с веб-сайта и анализа HTML-кода. Как мне это сделать?

Вы можете использовать HttpURLConnection в сочетании с URL .

URL url = new URL("http://example.com"); HttpURLConnection connection = (HttpURLConnection)url.openConnection(); connection.setRequestMethod("GET"); connection.connect(); InputStream stream = connection.getInputStream(); // read the contents using an InputStreamReader 

Самый простой способ сделать GET – использовать встроенный java.net.URL. Однако, как уже упоминалось, httpclient – это правильный способ, так как он позволит вам, среди прочего, обрабатывать перенаправления.

Для parsingа html вы можете использовать синтаксический анализатор html .

Отвеченный на галочку / одобренный ответ – от robhruska – спасибо. Это показывает самый простой способ сделать это, это просто с пониманием того, что необходимо для простого URL-соединения. Тем не менее, долгосрочной страtagsей будет использование HTTP Client для более продвинутых и многофункциональных способов выполнения этой задачи.

Спасибо всем, вот быстрый ответ:

 URL url = new URL("http://example.com"); HttpURLConnection connection = (HttpURLConnection)url.openConnection(); connection.setRequestMethod("GET"); connection.connect(); InputStream stream = connection.getInputStream(); // read the contents using an InputStreamReader 

Используйте http://hc.apache.org/httpclient-3.x/

Я использовал JTidy в проекте, и он работал достаточно хорошо. Список других парсеров здесь , но, кроме того, от JTidy я не знаю ни одного из них.

  • Как я могу получить целевой URL для события onbeforeunload?
  • Как получить RouteData по URL?
  • Использование двоеточия (:) в URL-адресе с ASP.NET/IIS
  • Каталог URL-схем для приложений Mac
  • Безопасное использование HttpURLConnection
  • URL-код, кодирующий символ пробела: + или% 20?
  • Node.js - Как удалить порт из URL-адреса?
  • Дружественные URL-адреса для ASP.NET
  • Как использовать selenium webdriver на локальной (на моем компьютере) веб-странице вместо того, чтобы найти где-нибудь на www?
  • Лучший способ справиться с безопасностью и избежать XSS с введенными пользователями URL-адресами
  • OS X Automator для URL в Safari
  • Давайте будем гением компьютера.