Follow

vous voulez archiver un site web tout entier localement? faites ceci dans un terminal en remplaçant le dossier de destination et l'url du site web :

wget —mirror -p —convert-links -P ./dossier_de_destination URL_du_site.com

· · Web · 5 · 2 · 5

@tykayn
Ayant déjà aspiré plusieurs sites dans un but d'archivage de connaissance horlogère, j'ai une question toute bête mais qui me taraude: est-il possible de pomper des fichiers qui se situent dans des dossiers non accessible? Je trouve parfois des pdf intéressants et consultables, mais impossible de dl le dossier racine qui doit contenir une belle quantité de doc parfois.

@tykayn
Je reviens vers toi après avoir testé ta commande.
Après comparaison d'un site téléchargé à ta façon puis la mienne, je te conseille vivement de dl les sites avec ma vieille commande

wget -mkEpnp url_du_site.com

dis moi ce que tu en penses ;-)

@tykayn
Je reviens vers toi après avoir testé ta commande.
Après comparaison d'un site téléchargé à ta façon puis la mienne, je te conseille vivement de dl les sites avec ma vieille commande

wget -mkEpnp url_du_site.com

dis moi ce que tu en penses ;-)

@tykayn Je crois qu'il faut aussi lui demander d'ignorer les interdictions.
J'ai déjà vu des sites ou Wget était poli et suivait l'ordre de ne pas 'crawler' le contenu.

@tykayn "-e: robots=off"

Par contre j'ai eu des souci avec cloudflare, aussi bien avec Wget qu'en naviguant personnellement.
Je conspue ces saletés de captcha et en général j'abandonne la visite quand je tombe sur un.

Que le webmaster utilise un autre CDN.

Sign in to participate in the conversation
Mastodon Bliss

la meilleure instance mastodon du fédiverse, rien que ça.