Как загрузить весь (активный) форум phpbb?
Один из форумов, на котором я часто встречаюсь (и добавил слишком много качественного контента), похоже, испытывает проблемы с их сервером. Я не уверен в их способности решать проблемы, которые у них возникают, и разговаривая с одним из администраторов, о которых он говорил, что они не поддерживают данные.
Как полное падение назад, если что-то пошло ужасно неправильно, я хочу загрузить весь форум. Я знаю, что я не могу загрузить DB или PHP-файлы и т. Д. Я просто хочу сделать локально доступную для просмотра копию всего форума.
Это означает, что я мог (когда у меня было время) перенести сообщения на новый сайт, если они будут начинать свежие (по назначению или нет).
- wget / curl большой файл с Google Диска
- Spider только для веб-сайтов и URL-адресов возврата
- Постоянная повторная попытка возобновить загрузку с помощью завитка
- Загрузка нескольких файлов с параметрами wget и обработки
- Wget не конвертирует ссылки
Есть ли какие-либо инструменты, которые позволили бы это сделать?
Замечание: Очевидно, что это действительно важно, я могу просматривать его локально … что было бы очень сложно, если бы каждая из ссылок по-прежнему указывала на « http://www.thesite.com/forum/specific_page.php », а не на «/ forum» /specific_page.php.
- Скопировать весь сайт, включая PHP и SQL?
- Использование wget для рекурсивного извлечения каталога с произвольными файлами в нем
- Использование подстановочных знаков в запросе wget или curl
- Crontab - / bin / sh: wget: команда не найдена
- Сделать wget конвертировать HTML-ссылки в относительные после загрузки, если -k не указано
- Использование Wget для рекурсивного сканирования сайта и загрузки изображений
- Как заставить redownload с wget?
- Wget - сохранить все данные (изображения) из заданного каталога?
Я делаю это прямо сейчас. Вот команда, которую я использую:
wget -k -m -E -p -np -R memberlist.php*,faq.php*,viewtopic.php*p=*,posting.php*,search.php*,ucp.php*,viewonline.php*,*sid*,*view=print*,*start=0* -o log.txt http://www.example.com/forum/
Я хотел вырвать эти надоедливые сеансовые вещи (sid = blahblahblah). Кажется, что они автоматически добавляются на индексной странице, а затем привязаны ко всем ссылкам в виде вирусов. За исключением одного безводного прочь где-то – который ссылается на простой index.php, который затем продолжается без параметра sid =. (Возможно, есть способ заставить рекурсивный wget начать с index.php – я не знаю).
Я также исключил некоторые другие страницы, которые приводят к большому спасению. В частности, memberlist.php и viewtopic.php, где указано p =, могут создавать тысячи файлов!
Из-за этой ошибки в wget http://savannah.gnu.org/bugs/?20808 она все равно загрузит поразительное количество этих бесполезных файлов – esepcially viewtopic.php? P = ones – перед тем, как просто удалить их. Таким образом, это сгорит много времени и пропускной способности.
Попробуйте несколько комбинаций флагов wget:
wget -m -k www.example.org/phpbb
Где -m – зеркало, а -k – «конвертировать ссылки». Вы также можете добавить -p, загрузить изображения, поскольку я не могу вспомнить, делает ли это -m.
Недавно я столкнулся с аналогичной проблемой с сайтом phpBB, с которым я часто сталкивался с неизбежным исчезновением (к сожалению, из-за того, что адмирал ушел). С более чем 7-летними сообщениями на форуме я не хотел, чтобы это исчезло, поэтому я написал perl-скрипт для просмотра всех тем и сохранения их на диск в виде плоских файлов HTML. В случае, если кто-либо сталкивается с аналогичной проблемой, скрипт доступен здесь:
https://gist.github.com/2030469
Он полагается на регулярное выражение для извлечения количества сообщений в теме (необходимо для разбивки на страницы), но кроме этого, как правило, должен работать. Некоторые из регулярных выражений могут нуждаться в настройке в зависимости от темы phpBB.
HTTrack – это инструмент, который может помочь вам. Я не уверен, будет ли он работать на форумах.