Web scraping su web.archive.org
« il: Aprile 01, 2020, 01:54 »
Ciao a tutti,
sono alle prime armi con Python. Sto cercando di buttar giu un programma che mi faccia il web scraping di allcune informazioni.
A parte le difficoltà nel capire la sintassi di questo nuovo linguaggio, tutto andava a meraviglia, ovvero riuscivo, mediante le guide on line, a consultare il codice html delle pagine di web.archive.org.
Purtroppo ieri ho dovuto fomrattre il pc, in quanto le schermate blu si stavano facendo frequenti.
Da allora non riesco piu a consultare il codice html delle sole pagine di web.archive.org. Ho provato svariati altri siti e riesco tranquillamente ad avere il codice html.
Vi incollo il codice scritto da me.


from bs4 import BeautifulSoup
import requests

pageAddress = 'https://web.archive.org/web/..................................'

source = requests.get(pageAddress)
soup = BeautifulSoup(source.text,'lxml')
print(soup)


Scusatemi, ometto parte dell'indirizzo, perchè la pubblicazione del sito potrebbe infrangere le regole del forum.
Ciò che accade quando lancio il codice è che ricevo una stringa vuota in risposta dalla shell....

Citazione
PS D:\Visual Studio> & C:/Users/...../AppData/Local/Programs/Python/Python38/python.exe "d:/Visual Studio/impMagnet.py"

PS D:\Visual Studio>

Non so cosa possa essere, ho provato a reinstallare sia i package che python, ma nulla.
Mi sapreste aiutare?

Grazie
Ciao

02/04/2020
Da ciò che intuisco all'interno della variabile soup non ho nulla, come se non trovasse nulla da caricare.
Ho aggiunto, una richiesta di status_code della pagina, ricevo in risposta status 445, che sembra non avere un significato proprio se non appartenere al gruppo delgli errori del client...il mistero si infittisce.
« Ultima modifica: Aprile 02, 2020, 01:45 da Galadesh »