Author: Matteo G P Flora Date: To: hackmeeting Subject: Re: [Hackmeeting] google su quanti siti continua a tracciarti?
On Dec 13, 2006, at 12:26 PM, nail wrote:
> heritrix e' molto carino, ha il problema che e' monomacchina, pero'
> dipende
> quanta roba sotto il culo per farlo fare..
> Ne parliamo mercoledi' prox..
Ho anche io un paio di giochini multiclient/multiserver che ho
utilizzato qualche tempo fa per scansionare qualche milione di pagine
web (non ci ha messo tantissimo, ma avevo a disposizione un fottio di
banda)...
In realtà il task di "rintracciare google" è abbastanza semplice e ho
ancora le RegExp per beccare sia Adwords (nelle svariate forme,
comprensivi vari nuovi banner video e immagini) che Urchin (la
tecnologia alla base di Analytics e che Google ha comperato).
Inoltre c'è da considerare il sempre più sevente utilizzo dei vari
Widget di google di cui ho ancora le specifiche... In aggiunta a
questo i siti sviluppati con il framework Ajax di Google recuperano
il main JS dai loro server e sono quindi tracciabili.
Non dimentichiamoci anche Picasa e le immagini hostate su Picasa
Online, altra ghiotta fonte di informazioni...
E tutto questo andrebbe a fagiolo con il progettino mio e di Nail ;)