Salve a tutti,
sono qui perché sto cercando di fare web-scraping su un sito aziendale ai fini di automatizzare alcuni processi noiosi (il tutto legalmente...).

Il fine è quello di scaricare un report in formato excel dal sito in questione.

Grazie al pannello di rete di Chrome ho una lista delle richieste che effettuo al server durante la navigazione.

Questo è il codice che ho scritto finora:

import requests
from requests_ntlm import HttpNtlmAuth

response = requests.get('http://sito_aziendale.do', auth=HttpNtlmAuth('user','pass'))

print(response.url)


Dopo questa richiesta GET nel Network Panel mi ritrovo una POST per poter procedere ed è qui che vi voglio.

Io ho tutta una serie di GET e POST nel pannello di rete per scaricare il report. Queste richieste vanno inserite sequenzialmente nel codice oppure mi interessa inserirne solo alcune?

Ve lo chiedo perché, quando raggiungo finalmente la pagina dove inserire i filtri del report, ho poi necessità di inserire questi filtri, pertanto devo usare una post... quindi il mio ragionamento è questo:

- requests.get (pagina del sito dove voglio arrivare)
- requests.post (posto i filtri sull'url di risposta del server)
- requests.get ("clicco" sul pulsante che mi fa scaricare il report Excel)

Cioè nel mio codice dovranno esserci più GET e più POST sequenzialmente per arrivare al mio obiettivo?

Qual è il ragionamento da seguire?
« Ultima modifica: Novembre 06, 2020, 19:27 da baldursgate »