Как загрузить весь (активный) форум phpbb?

Один из форумов, на котором я часто встречаюсь (и добавил слишком много качественного контента), похоже, испытывает проблемы с их сервером. Я не уверен в их способности решать проблемы, которые у них возникают, и разговаривая с одним из администраторов, о которых он говорил, что они не поддерживают данные.

Как полное падение назад, если что-то пошло ужасно неправильно, я хочу загрузить весь форум. Я знаю, что я не могу загрузить DB или PHP-файлы и т. Д. Я просто хочу сделать локально доступную для просмотра копию всего форума.

Это означает, что я мог (когда у меня было время) перенести сообщения на новый сайт, если они будут начинать свежие (по назначению или нет).

Есть ли какие-либо инструменты, которые позволили бы это сделать?

Замечание: Очевидно, что это действительно важно, я могу просматривать его локально … что было бы очень сложно, если бы каждая из ссылок по-прежнему указывала на « http://www.thesite.com/forum/specific_page.php », а не на «/ forum» /specific_page.php.

Я делаю это прямо сейчас. Вот команда, которую я использую:

wget -k -m -E -p -np -R memberlist.php*,faq.php*,viewtopic.php*p=*,posting.php*,search.php*,ucp.php*,viewonline.php*,*sid*,*view=print*,*start=0* -o log.txt http://www.example.com/forum/ 

Я хотел вырвать эти надоедливые сеансовые вещи (sid = blahblahblah). Кажется, что они автоматически добавляются на индексной странице, а затем привязаны ко всем ссылкам в виде вирусов. За исключением одного безводного прочь где-то – который ссылается на простой index.php, который затем продолжается без параметра sid =. (Возможно, есть способ заставить рекурсивный wget начать с index.php – я не знаю).

Я также исключил некоторые другие страницы, которые приводят к большому спасению. В частности, memberlist.php и viewtopic.php, где указано p =, могут создавать тысячи файлов!

Из-за этой ошибки в wget http://savannah.gnu.org/bugs/?20808 она все равно загрузит поразительное количество этих бесполезных файлов – esepcially viewtopic.php? P = ones – перед тем, как просто удалить их. Таким образом, это сгорит много времени и пропускной способности.

Попробуйте несколько комбинаций флагов wget:

 wget -m -k www.example.org/phpbb 

Где -m – зеркало, а -k – «конвертировать ссылки». Вы также можете добавить -p, загрузить изображения, поскольку я не могу вспомнить, делает ли это -m.

Недавно я столкнулся с аналогичной проблемой с сайтом phpBB, с которым я часто сталкивался с неизбежным исчезновением (к сожалению, из-за того, что адмирал ушел). С более чем 7-летними сообщениями на форуме я не хотел, чтобы это исчезло, поэтому я написал perl-скрипт для просмотра всех тем и сохранения их на диск в виде плоских файлов HTML. В случае, если кто-либо сталкивается с аналогичной проблемой, скрипт доступен здесь:

https://gist.github.com/2030469

Он полагается на регулярное выражение для извлечения количества сообщений в теме (необходимо для разбивки на страницы), но кроме этого, как правило, должен работать. Некоторые из регулярных выражений могут нуждаться в настройке в зависимости от темы phpBB.

HTTrack – это инструмент, который может помочь вам. Я не уверен, будет ли он работать на форумах.

  • Как указать местоположение с помощью wget?
  • Завиток не может соединяться; Wget может
  • Где на моем компьютере Wget загрузил это изображение?
  • Как загрузить список файлов с файлового сервера?
  • Почему wget дает ошибку при выполнении с sudo, но отлично работает без?
  • Wget отключен, но отображает сообщения об ошибках
  • Как вы используете WGET для зеркального отображения уровня сайта 1, восстановления JS, ресурсов CSS, включая изображения CSS?
  • Как использовать Wget для загрузки всех изображений в одну папку с URL-адреса?
  • Как загрузить изображения с помощью wget из txt-файла, содержащего ссылки
  • Исключить список определенных файлов в wget
  • Wget - только получение файла .listing в каждом поддиректоре
  • Interesting Posts

    Как я могу сделать OrderBy с динамическим параметром строки?

    Почему вам нужно вызывать URLConnection # getInputStream, чтобы иметь возможность записывать URLConnection # getOutputStream?

    Как изменить порт по умолчанию сервера Rails 3 в развитии?

    Сравнение генераторов кода XSD

    Как я могу получить идентификатор вставленного объекта в инфраструктуре Entity?

    Оптимальные методы AngularJS для объявления модhive?

    Отключение «Обновить только номера страниц» в Word

    Как разбить стилизованный текст на страницы в Android?

    Access-Control-Allow-Origin: * в tomcat

    Что значит !! (двойной восклицательный знак) означает?

    Как обращаться с CORS с использованием JAX-RS с Джерси

    Добавление drawableLeft в EditText сдвигает подсказку вправо, если edittext находится внутри TextInputlayout

    Как получить дополнительную информацию о высокопроизводительном процессе rundll32.exe?

    Как получить внешний жесткий диск USB, распознанный в среде Windows PE (WinPE работает с диском)?

    Как не изменять URL-адрес при отображении страницы ошибки 404 с помощью ui-router

    Давайте будем гением компьютера.