Показать статистику
0 голосов
от (630 баллов)
Товарищи, кто знает, можно ли в Убунту при помощи какой-то из программ скачивать сайты целиком, чтобы можно было пользоваться информацией без доступа к Интернет?
2.9тыс. просмотров 4 ответов

4 Ответы

+1 голос
от (940 баллов)

Действительно, wget - идеальная программа для создания бэкапа или локальной копии сайта.

Но для тех, кто не может/не хочет работать в консоли, существуют gui-альтернативы wget. Что-то вроде старого - доброго TeleportPro. Я могу посоветовать HTTrack. Во-первых - он бесплатный, во-вторых выпущен под GPL, ну а в третьих - есть в родном репозитарии Ubuntu.

По своей сути - это простенький браузер. Он позволяет вам сохранить сайт из Интернета в локальный каталог, рекурсивно создает все каталоги и заполняет их содержимым с сайта. Скачивает не только .html, но и картинки, .css, js и прочие файлы. HTTrack упорядочивает исходные сайты и создает что-то вроде "локального Интернета". Просто откройте страницу зеркального веб-сайта в своем браузере, и вы сможете просматривать сайт по ссылке, как если бы вы просматривали его в Интернете. HTTrack умеет обновлять уже скачанные сайты и поддерживает докачку. Есть встроенная справка. 

Если есть желание собрать из исходников - вот ссылка на тарбол:

https://download.httrack.com/cserv.php3?File=httrack.tar.gz

А вот на git, для получения срезов:

git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure && make -j8 && make install DESTDIR=/

Но все же лучше ставить из репозитария:

apt install webhttrack
0 голосов
от (1.2тыс. баллов)
На виде пользовался когда-то такой программой, а тут точно без кода не обойтись, но пока что не встречал такого кода, который бы мог решить эту проблему. Вам для каких целей нужно?
0 голосов
от (240 баллов)

Мне очень часто приходиться иметь дело с этим. Поделюсь своим опытом:

В Linux уже установлена специальная программа, - wget. Она служит загрузчиком разных файлов из сети (картинок, текст, программ  и т.д). Так же её можно использовать для скачивания сайта целиком.

 На примере сайта "https://unixhow.com/" 

В терминале вводим команду (учитывайте регистр букв), либо копируем отсюда:

wget -r -k -l 5 -p -E -nc https://unixhow.com/

Создастся папка «unixhow.com» , и в неё загрузятся все файлы и страницы сайта. Чтобы просмотреть сайт нужно открыть файл «index.html», запуститься главная страница unixhow.com.

Кратко о параметрах в примере:

-r (--recursive) – Включает рекурсивное сканирование всех каталогов сайта, для загрузки на локальный компьютер.

-k (--convert-links) – Преобразование всех ссылок сайта для корректной работы и отображения.

-l (--level=depth) – Максимальное дерево директорий для скачивание, у нас значение 5. Можно установить значение больше, но если сайт с множеством директорий это займет много времени

-p (--page-requisites) – скачать все файлы, которые требуются для отображения страниц((картинки, таблицы стилей CSS)

-E (--html-extension) – Назначить и сохранить все файлы в расширении «html».

-nc (--no-clobber) – параметр для ускорения загрузки. Не перезаписывает файлы, которые уже сказались.

Чтобы узнать больше о параметрах wget:

-h (--help) – покажет весь список доступных команд.

0 голосов
от (1тыс. баллов)

Для того, чтобы скачивать сайт целиком существует программа wget.

Wget – программа, для скачивания файлов по интернету, но её также можно использовать в офлайн режиме, скачивая сайты полностью (даже с картинками), нужно просто указать URL сайта, сейчас я расскажу как это сделать.

Если вам нужно скачать весь сайт программой wget, целиком, нужно вписать в терминал такую команду:

wget -r -k -l 7 -p -E -nc http://site.com/

Затем, когда вы впишите эту команду, в вашу директорию будет установлена автономная копия сайта, которого вы указали. (Вместо http://site.com/ нужно указать сайт, который вы хотите загрузить.). Если вам нужно запустить главную страницу, то откройте файл «index.html».

Объясню некоторые настройки:

-r – рекурсивный переход по сайту, для скачки страниц.

-k – нужна, чтобы программа создала все ссылки в файлах в автономном режиме.

-p – загрузка всех файлов, которые нужны для автономного открытия страниц.

-l – максимальная глубина вложенности сайта (по умолчанию стоит 5, но рекомендуется установить 7).

-E – прибавляет к файлам расширение .html.

-nc – если ввести эту настройку, то перезаписывание существующих компонентов не выполнится.

...