Программное обеспечение для очистки экрана, которое будет перемещаться по страницам

Мы создаем сайт mashup, который извлекает информацию из многих источников по всему Интернету. Многие из этих сайтов не предоставляют RSS-каналы или API-интерфейсы для доступа к информации, которую они предоставляют. Это оставляет нас с очисткой экрана в качестве нашего метода сбора данных.

Существует множество инструментов для написания сценариев, написанных на разных языках сценариев для скрипирования экрана, которые требуют, чтобы вы писали скрипты на языке, на котором был написан скребок. Scrapy, scrAPI и scrubyt – это несколько написанных на Ruby и Python.

Существуют и другие веб-инструменты, которые я видел как Dapper, которые создают XML или RSS-каналы на основе веб-страницы. Он имеет красивый веб-интерфейс, который не требует навыков написания сценариев. Это было бы отличным инструментом, если бы он мог перемещаться по нескольким страницам для сбора данных с сотен страниц результатов.

Нам нужно что-то, что будет очищать информацию с разбитых на страницы веб-сайтов, подобно scrubyt, но с пользовательским интерфейсом, который может использовать не-программист. Мы придумаем собственное решение, если понадобится, возможно, используя scrubyt, но если есть лучшее решение, мы хотим его использовать. Что-нибудь вроде этого существует?

Yahoo Pipes приходит на ум, ее легко использовать для не-программиста, хотя вам действительно нужно научиться регулярному выражению, чтобы получить полный потенциал.

Scrapinghub (от создателей Scrapy) предлагает платный сервис для не-программистов, подобных Mozenda .

Я использую iMacros для очистки данных с веб-сайтов. Он может использоваться кем-то, у которого нет опыта программирования, и с некоторыми базовыми навыками программирования вы можете значительно расширить свои возможности. Вот учебник .

IMacros особенно полезен, если вам нужно выполнить некоторые действия для извлечения данных. Он может нажимать на кнопки, перемещаться по вспышке, выбирать из меню, заполнять формы и т. Д.

Там также Scraperwiki , который требует навыков программирования. Непрограммисты могут оплачивать помощь.

Надеюсь, Datatracker скоро выйдет. Он нацелен именно на такую ​​работу, но на пользователей без каких-либо навыков программирования.

Эта статья в Википедии содержит много информации по этому вопросу, включая список из 15 поисковых роботов с открытым исходным кодом:

Веб-искатель

  • Для чего же Spring Framework?
  • Суперclass «javax.servlet.http.HttpServlet» не найден на пути сборки Java
  • скептически отслеживает, как очистить данные с этого сайта (используя R)
  • Chrome: выбор ссылки путем выполнения поиска по ее тексту.
  • Последствия использования ноутбука всегда в качестве сервера
  • Как загрузить внешнюю веб-страницу в div страницы html
  • Не удается подключиться к экземпляру AWS EC2 через шпатлевку
  • Возможно, для многих доменных имен общий IP-адрес?
  • Как подключиться через HTTPS с помощью Jsoup?
  • ускорение амперсанда в URL-адресе
  • Как я могу улавливать и обрабатывать данные из ответов XHR с помощью casperjs?
  • Давайте будем гением компьютера.