mercoledì 10 dicembre 2014

Superempirismo e big data.

Nello scorso post ho parlato di SCiO, uno strumento che non e' uno strumento ma puo' fare molto, e immediatamente sono entrati in gioco i tecnobigotti, (1) , per i quali "uno strumento da laboratorio del genere non puo' esistere". Ma questo e' dovuto al fatto che quello NON e' uno strumento da laboratorio, e nonostante questo puo' essere molto efficace.


La definizione classica di "strumento di misura" indica una macchina che prende un input illeggibile e produce un output leggibile E quantitativo, per via del fatto che tra input ed output c'e' una nota legge fisica, precisa e deterministica.

Quello che fa chi costruisce strumenti di misura e' costruire macchine per le quali lo stato dell'output e' legato da una legge fisica nota e precisa a quello dell'input: di fatto uno strumento non crea o aumenta informazione, si limita a renderla leggibile attraverso qualche trasformazione fisica.

Il motivo per il quale una misura deterministica (a meno di un errore di misura, naturalmente) viene preferito all'empirismo puro (es: se metto piu' sale diventa piu' buono) e' normalmente legato al fatto che l'empirismo non descrive mai una nota legge fisica che con precisione quantitativa leghi le cause e gli effetti misurabili.

Cosi', e' vero che nel caso dell'empirismo c'e' esperienza (so che mettendo sale X diventa piu' buono) ma l'empirismo non conosce abbastanza il perche' questo succeda: col risultato che la conoscenza non e' mai predittiva. Certo, so che finora aggiungendo il sale X diventa piu' buono, ma.... questo vale in tutto il mondo? Magari a Shangai mettendo sale X non diventa piu' buono. Diventa piu' buono a tutti? Non si sa, magari a Gordon Ramsay diventa cattivo.  Magari non funziona quando piove. O non funziona per alcuni valori di X che ci sono solo a Mosca.

I limiti dell'empirismo cioe' non sono limiti formali: sono limiti legati al fatto di non poterci astrarre delle leggi astratte abbastanza generali da potersi applicare sempre.

Ma cosa succederebbe se avessimo il dato empirico di OGNI uomo e donna sul pianeta che ha provato a mettere il sale in qualsiasi X conosciuto? 

Avremmo un'esperienza empirica , si, ma sarebbe assolutamente valida in qualsiasi punto del pianeta: sapendo che ogni essere umano che abbia messo sale su qualsiasi X con qualsiasi tempo abbia sempre ottenuto "buono" ci permette di enunciare, almeno sul pianeta terra, che X+sale=buono. 

Ma bisogna stare molto attenti a questo, perche' non sappiamo ancora quale sia il perche'. Cioe', supponiamo che la legge fisica vera sia X + Y + Sale = buono. Y e' "nel ventunesimo secolo".

Quello che otterremmo confrontando le due leggi sarebbe:

  • X + Sale = buono (regola empirica: non dipende dal tempo)
  • X + Y + Sale = buono (legge fisica: funzione del tempo)
la differenza tra le due cose e' che , sino al 31 dicembre 2099, non saremo in grado di accorgerci di una cosa: che non ci siamo accorti di avere a che fare con una legge fisica che e' funzione del tempo.

Detto questo, abbiamo identificato il problema del "superempirismo", cioe' di un empirismo+big-data: per lo scienziato che mira alla legge fisca, ovvero per lo studioso che vuole capire quale sia la legge fisica COMPLETA che sottende ad un fenomeno, il superempirismo e' inutile.

Ma adesso prendiamo l'uomo comune.

Uno strumento come SCiO, o come questo: https://www.indiegogo.com/projects/tellspec-what-s-in-your-food  (cosi' non dite che voglio fare pubblicita') avrebbero un senso?

PUNTO PRIMO: NON SONO STRUMENTI CHE FANNO MISURE. SONO STRUMENTI CHE FANNO FINGERPRINTING

che cosa significa?

Significa che non misurano proprio niente. Si limitano ad prendere un'impronta figitale, come fanno le macchine che per esempio fotografano un codice a barre. Avuto il codice a barre, non fanno altro che confrontarlo con un database, nel quale troveranno il risultato.

Per problemi piu' complessi, si limitano a fare una cosa piu' complessa: data la foto del risultato, confrontano la "fotografia" ottenuta con un database, e misurano una "distanza" tra la fotografia e quelle salvate. 

Insomma, la macchina NON SA che quello che sto esaminando sia formaggio. Si limita a rilevare uno spettro di reazioni agli infrarossi. Avuto lo spettro, non fa altro che mandarlo ad un database, ove milioni di altri utenti hanno inserito dati , tipo "formaggio avariato" o "formaggio buonissimo". Se lo spettro somiglia piu' a "formaggio avariato" che a "formaggio buonissimo", allora vi dice "quel formaggio e' avariato".

Prendiamo per esempio una pizza: normalmente nella pizza non ci sono tartarati. Se la lievitate naturalmente, sono dei piccoli organismi a fare tutto il lavoro. Se invece usate lieviti originali, spesso avete riempito una pizza di tartarati.

Allora abbiamo due utenti: uno che fotografa la pizza buona con lo strumento e scrive "pizza ottima". E uno che mangia la pizza, crepa di sete nei dieci secondi successivi, e manda una foto con scritto "pizza pessima" : la foto agli infrarossi mostra dei tartarati.

Se migliaia di persone mandano foto di pizze buone senza tartarati e migliaia mandano foto di pizze cattive coi tartarati, la distanza media di quella foto dalle foto "buone" e' superiore a quella di quelal foto e le pizze "cattive".

Ma cosa succede se io misuro una cosa che NON e' una pizza ma contiene tartarati, e magari va bene cosi'? Questo e' il trucco: lo strumento super-empirico deve sapere cosa sta misurando. Infatti, sul sito dello SCiO, trovate questo:


come vedete, l'applicazione in questione richiede di sapere in anticipo cosa stia misurando, dal momento che i tartarati nella pizza non ci devono essere, ma da un'altra parte magari vanno bene.

Adesso sappiamo che un oggetto del genere NON e' uno strumento di laboratorio, ne' puo' essere utile per la ricerca pura, specialmente quella di frontiera, dove NON esiste una base di informazioni gia' accumulatasi.

Ma per l'utente comune?

Beh, ieri sera stavo cucinando una cosiddetta "pepata di cozze", che ho imparato a fare durante i miei trascorsi di Marina, a Taranto. Ho avuto un dubbio sulle cozze. Ora, il mio naso non e' abbastanza sofisticato per sapere se ogni cozza del mondo (queste erano dei mari del mar nero) debba o non debba emettere tot odore. Risultato: nel dubbio, il bidone del biologico.

Ora, le cozze sono forse un mistero assoluto, per il quale non esiste una base di conoscenza? Assolutamente no: milioni di persone le mangiano. Se esistesse un database di mitili fotografati all'infrarosso, probabilmente sarei riuscito ad avere la mia risposta in tempi ragionevoli.

Stessa cosa per la pizza: sicuramente non si tratta di scienza di frontiera. Sono d'accordo sul fatto che una buona pizza bisogni saperla fare, per carita', questo vale per ogni lavoro. Ma sono anche d'accordo che se in un database tutte le pizze col tartarato sono classificate come "cattive" e quelle senza come "buone", con uno strumento del genere io potrei sapere se sto mangiando una pizza levitata con lo lievito o con dei tartarati. PRIMA di subire la sgradevole esperienza della sete.

Non e' la prima applicazione basata sul "superempirismo": potreste stupirvi di quanto "superempirico" sia il cosiddetto "test del DNA", che oggi e' considerato un oracolo di verita'. In quel caso la vicinanza tra sequenze viene misurata con dei BLAST ( http://en.wikipedia.org/wiki/BLAST )  che di fatto consistono in una metrica vera e propria, ovvero misurano una distanza tra sequenze.

Il superempirismo, caratterizzato ad un empirismo supportato da gigantesche basi di dati, e' un filone che sta evolvendo negli ultimi periodi della tecnologia: una applicazione che "conosce ogni cibo del mondo" puo'semplicemente fotografare il codice a barre , e controllare in un database: se qualcun altro ha inserito quel codice e ci ha inserito i valori nutrizionali ( oggi lo fanno le stesse aziende produttrici) , voi fotografate il codice e sul cellulare vi spuntano i valori nutrizionali. 

MA I VALORI NUTRIZIONALI NON ERANO SCRITTI NEL CODICE A BARRE.

Allo stesso modo, quando usate uno strumento come SCiO , quello che il cellulare vi ritorna NON e' scritto nei dati che ha fotografato. Ha semplicemente fotografato una specie di "codice a barre" costituito dalla riflessione degli infrarossi.
 
Non c'e' alcuna differenza tra "SCiO" e un prodotto come myfitnesspal, se non nel tipo di "codice a barre" che fotografano. MyFitnessPal fotografa un codice a barre EAN13 o EAN-* per poi leggere i veri dati in un database. SCiO fotografa un "codice a barre" fatto dalla riflessione dell'infrarosso. Poi vi va a pescare il dato da un database. 

In entrambi i casi, non "misurano" proprio nulla: si tratta di sistemi superempirici, ovvero basati su un empirismo potenziato dal big data.

Il fatto che per l'uomo comune possano essere efficaci quanto una misura non e' legato alla "bonta' della misura", ma semplicemente alla dimensione della base dati.

All'uomo comune, cioe', non serve la misura , basta solo la conoscenza. E' lo scienziato che ha necessita' della misura, perche' deve comprendere le leggi piu' astratte e generali che regolano la fisica.

I bigotti che si fanno chiamare "scettici", quindi, sbagliano: stanno giudicando uno strumento puramente comparativo con uno strumento di misura. Ma lo strumento di misura ti dice "ho di fronte tot quantita' di X", mentre uno strumento superempirico ti dice "non ho idea di cosa io abbia di fronte, ma tutte le volte (35.443) che qualcuno ha visto una roba cosi', erano delle cozze guaste".

Il che, a me potrebbe gia' bastare.



(1) Definirsi "scettici" quando si e' bigotti e' piu' patetico che ridicolo. Una certa dose di scetticismo circa i benefici della modernita' e' sempre parte dell'atteggiamento bigotto.

Discussioni & Commenti (Il Salotto Buono di KEIN PFUSCH®).

Per postare nel gruppo, semplicemente cliccate sul tasto rosso a sinistra se l'argomento e' nuovo, oppure cliccate sugli argomenti per rispondere. In caso non siate iscritti il sistema vi guidera' all'accesso. In ogni caso il vostro indirizzo email non sara' pubblicato dal forum.

So che e' seccante, ma l'aumento del traffico sul sito mi obbliga ad usare un sistema piu' adatto alle mie disponibilita' di tempo, cioe' un sistema ove la quantita' di commenti da moderare NON cresca con la quantita' di traffico. Inoltre adesso gli argomenti non sono piu' legati al post, cosi' se volete iniziare un OT non c'e' problema come prima. Inizialmente i vostri messaggi verranno moderati, poi verrete sbloccati appena sara' chiaro che non siete troll. Una volta iscritti e' possibile postare sia attraverso il web (come prima) che via email (scegliendo di ricevere i messaggi via email). Quando vi iscrivete, per favore scrivete due righe di presentazione.Altrimenti non vi iscrivo.