Veridicità cercasi
Knowledge Based Trust, un tentativo di migliorare i motori di ricerca online verificando l'attendibilità delle informazioni. Straordinario passo in avanti per un internet senza bufale oppure censura?
TECNOLOGIA – Ricercatori di Google hanno messo su arXiv “Knowledge Based Trust“, uno dei molti tentativi in corso d’opera per migliorare i motori di ricerca valutando l’accuratezza dell’informazione on-line. I siti di disinformazione lo ritengono un tentativo di censura.
Gli autori stessi descrivono il KTB come un piccolo passo avanti nella “fiducia basata sulle conoscenze” che vorremmo avere un giorno nei motori di ricerca. Per “stimare l’affidabilità delle fonti”, hanno immesso una sequenza di algoritmi in un “modello multistrato”, che viene reiterato da uno strato all’altro con una logica bayesiana. Lo hanno applicato a
2,8 miliardi di triplette (unità semantiche come soggetto, predicato, oggetto, per esempio Obama nato Kenya, ndr) estratti dal web e così sono stati in grado di prevedere con accuratezza l’affidabilità di 119 milioni di pagine web e di 5,6 milioni di siti.
Hanno paragonato la probabilità di accuratezza – che i fatti riportati fossero veritieri perché la fonte era affidabile e vice versa – ottenuta per 2.000 siti con la loro classifica di PageRank, che conta i link ricevuti e quindi la popolarità, in base a quattro criteri:
- triplice correttezza (per 9 tripli)
- correttezza dell’estrazione (il modello non prende cantonate semantiche, come Roma per toma)
- rilevanza rispetto al tema (quello dichiarato dal sito)
- non trivialità
“A mano” hanno verificato i criteri in un campione di 100 siti. Risultato:
85 sono considerati affidabili; 2 non sono rilevanti, 12 non hanno abbastanza triplette non triviali e 2 hanno più di un errore di estrazione … Di questi 85 siti affidabili tuttavia, soltanto 20 hanno un PageRank superiore a 0,5. Questo mostra che il KBT può identificare fonti con dati affidabili anche se sono nella coda lunga dei PageRank bassi.
Alla fine dell’articolo, gli autori riassumono i difetti e i limiti dell’indice KBT, migliore dei sistemi concorrenti ma ancora lontano da un fact-checking efficace. D’altronde i “fatti” sono quelli accumulati dai bot di Google nella Knowledge Vault. Sempre secondo New Scientist, in agosto ne conteneva 1,6 miliardi, di cui soltanto 271 milioni con una probabilità pari o superiore al 90% di essere corretti.
Oggi sono 2,8 miliardi – le triplette di prima – e quattro su cinque sono probabilmente frottole. La proporzione sembra ribaltata nelle materie scientifiche e quando la documentazione storica è robusta (impressione basata su alcune prove fatte con Knowledge Graph, non su una metrica oggettiva!).
New Scientist ha parlato dell’indice KBT ai primi di marzo e da allora se ne discute parecchio, talvolta attribuendogli effetti miracolosi. Fra gli specialisti non mancano le critiche, invece, per esempio da SeoSkeptic (“Seo” sta per “Search engine optimization”).
L’eventualità che un motore di ricerca vada a KBT, e non solo a PageRank, è per ora remota, scrivono gli autori, ma i responsabili dei siti di disinformazione climatica più frequentati chiamano alla mobilitazione generale. A loro avviso, Google è già sul punto di usare questa “macchina della verità”
per filtrare siti politicamente scorretti… (mentre) la linfa vitale del Net è tutta la gente che dibatte e va a caccia del proibito, delle teorie controverse e impopolari. I ricercatori più motivati e gli scrittori più appassionati vogliono condividere le informazioni censurate dai media tradizionali…
Invece di lasciare gli esseri umani capire da soli dove sta il pattume, Google si chiede se può farlo al posto loro. Il narcisismo di credere di avere una formula capace di battere tre miliardi di cervelli segnerà la fine di Google.
In realtà, negli Stati Uniti le falsità sul clima sono popolari perché sono propagandate da media tradizionali, da Fox News al Wall Street Journal. Sul Net, lo sono meno: il sito di Anthony Watts ha un PageRank 4, quello di Jo Nova è talmente basso da non essere rilevabile. E’ così anche per i siti di disinformazione italiani, i fautori delle scie chimiche e delle caldaie a fusione fredda in vendita dal 1990 si rassegnino. Forse la formula che “penalizza le bufale” esiste già.
Pubblicato con licenza Creative Commons Attribuzione-Non opere derivate 2.5 Italia.
Crediti immagine: Accedie/CC 3.0