Re: [Hackmeeting] 143th.net+ seminari [era: BBox: the cloud …

Delete this message

Reply to this message
Author: billie
Date:  
To: hackmeeting
Subject: Re: [Hackmeeting] 143th.net+ seminari [era: BBox: the cloud our way]
On 01/07/2011 12:16, Al wrote:
> prova a chiedere al prof. Boraski, che e' uno che ha creato una distro
> specifica per lo studio ed analisi di reti sociali
> https://github.com/znmeb/Data-Journalism-Developer-Studio/tree/


non è un problema di network, è di stream.
poi bho si, ho guardato il pacchetto di machine learning del tipo.
ci sono le implementazioni dei principali algoritmi standard di data
mining in R.
pero' mbho.. non ci vedo attinenza con quello che chiedevo. la mia
domanda era: avete idee di come afforntereste il problema di dover
predirre lo sviluppo di alcuni trend in modo da poterli monitorare fin
dall'inizio?

> dentro ci sono un po' di tool, di cui pero' l' unico che conosco e' R
>

R è un software di analisi statistico...di solito quando facciamo cose
di questo tipo non usiamo software statistici. e gli algoritmi ce li
scriviamo noi se non li troviamo gia fatti, anzi, di solito ce li
scriviamo noi comunque. trends è scritto in php, una mediazione fra me e
baku :p

> non capisco perche' ti interessano gli outlier se stai studiando i
> trend; mi preoccuperei di + dei falsi positivi



bho..potresti articolare cosa intendi dire? o al limite chiedermi
maggiore spiegazione, perche scritto cosi non significa una cippa.
ho usato la parola outlier perche cosi, storicamente, si è usato
definire l'emersione di "oggetti" molto "lontani" da altri oggetti,
talmente lontani da appartenere a distribuzioni diverse..

dopodiche il punto è tu come affronteresti il problema?
che odio porcodio quelli che buttano li mezza frase e link ignoti.

intendi forse dire che visto che l'hashtag è semplicemente un
pre-defined topic, non devo fare l'emersione complessa di un "topic" che
si articola di parole diverse, come nell'esempio che ho postato? quindi
non è un classification problem?
e qindi mi pare di capire da quella frase buttata li che tu faresti tipo
proposta di baku:
guardo il tuo trend di crescita, se cresci piu' di un tot per un certo
span di tempo, allora ti considero un trend in crescita.

Io invece ero piu per una roba cosi:
http://code.google.com/p/jmotif/wiki/Discords

cioè l'idea che tu hai dei movimenti sempre, di alto /basso,
giornalieri, persino orari..
mentre un anomalia, un comportamento molto diverso dal solito, è una
cosa diversa.

poi guardavo invece novelty detection che è un po piu complesso, perche
li devi tirare fuori trends da set di parole che cambiano..e quindi
l'idea è avere classificazioni che cambiano automaticamente nel tempo.
questa cosa la potrei usare se volessi fare un livello di analisi
diverso, in cui monitoro l'andamento dei Topic ..

ma non è quello che volevamo fare.
l'idea la scrivo bene cosi puoi dire cosa ne pensi piu precisamente.

Tu hai un flusso di dati che arriva in real-time.
Monitori gli hashtag e cerchi di predirre quelli che possono essere il
nuovo "egitto", siria ecc.. pero' ovviamente tu non puoi monitorare
tutto e storare tutto per un tempo indefinito.
Quindi devi trovare dei meccanismi che funzionino come campanelli di
allarme.
implementare questa cosa lo puoi fare in un milione di modi. dai piu
complessi ai piu semplici.
Ora, io sto valiando un po di cose ...

questo qui è un esempio carino anceh se non collegato dell'idea di come
un social network puo funzionare.. pero' qui è fatto senza hashtag,
quindi anche piu difficile..
ymatsuo.com/papers/www2010.pdf

Bho io vorrei idee, e non link vuoti, che senno che palle.

b