domenica 28 agosto 2011

Trovato un nuovo algoritmo per identificare le false recensioni (Cornell University)

Albergatori che scrivono ottimi commenti per scalare le classifiche di TripAdvisor e commenti meno lusinghieri per danneggiare i competitor, recensioni chiaramente errate che l’hotel chiede inutilmente di rimuovere, recensioni false redatte a pagamento, e chi più ne ha più ne metta: non sembra che all’attivo si siano individuate soluzioni per risolvere la questione tanto dibattuta delle recensioni false sui siti di recensioni come TripAdvisor.

È proprio per trovare una risposta alla perdita di trasparenza e di attendibilità del sistema fondante dei siti di reviews, che alcuni dottorandi della Cornell University hanno pubblicato un innovativo algoritmo per individuare le recensioni alberghiere “ingannevoli”, ovvero le opinioni false scritte in modo e maniera da apparire autentiche (“deceptive opinion spam”).

Si tratta in pratica di quelle che inquinano maggiormente il ranking di siti come TripAdvisor, scritte per lo più da albergatori o aziende pagate per migliorare la brand reputation di un’attività.
Lo studio rivela dati molto interessanti: in particolare, è stato condotto in modo da fare un raffronto tra la capacità umana e quella delle macchine di distinguere le recensioni vere da quelle false, con risultati davvero sorprendenti.
Combinando l’utilizzo di raffinate nozioni informatiche, di analisi non solo puramente semantiche, ma anche linguistiche e psicologiche, Myle Ott, Yejin Choi e Claire Cardie del dipartimento di Computer Science – Computational Linguistics della Cornell, hanno sviluppato un algoritmo che nei test condotti in grado di identificare le recensioni false con un’accuratezza pari all’89.9%.

Step 1

L’uomo non è capace di distinguere le recensioni vere da quelle false

Come primo passo dell’analisi è stato chiesto a un gruppo di individui di scrivere 400 recensioni su 20 hotel di Chicago in cui non hanno mai soggiornato, e dunque recensioni che, se pur verosimili, erano false.
Queste sono state combinate con un egual numero di recensioni veritiere e poi sottoposte a diverse persone (studenti della Cornell), perché distinguessero le une dalle altre.
Dall’analisi è risultato che nessuno di loro è stato in grado di fornire una distinzione adeguata.
Le loro risposte sono state tanto accurate quanto lo sarebbero state se avessero tirato a caso.

Secondo Myle Ott, questo è spiegabile secondo il principio già scientificamente dimostrato per cui gli esseri umani soffrono di una forma di “pregiudizio sulla verità”, per cui tendono a credere che tutto quello che leggono sia vero almeno che non vi siano prove evidenti del contrario.
Quando ciò accade e vengono messi in guardia, gli individui super-compensano l’errore e diventano iper-scettici, denunciando un numero troppo elevato di falsità. In entrambi i casi, non sono obiettivi e raggiungono sempre un risultato errato, nell’uno o nell’altro senso.

In conclusione, contrariamente a quanto si possa comunemente pensare, l’uomo non è in grado di distinguere le recensioni vere da quelle ingannevoli e verosimili, e da questo si può dedurre che il sistema delle recensioni on-line sia più facile da manipolabile da chiunque scriva recensioni false per controllare il ranking a proprio favore.
Come riporta lo studio “Se le performance umane [nell’identificare le recensioni false] sono scarse, allora significa che le nostre recensioni ingannevoli sono convincenti e dunque, meritano una maggiore attenzione.”

Step 2

Il computer può identificare le recensioni false con un’accuratezza pari al 90%

Nello step successivo i ricercatori hanno sottoposto le 800 recensioni ai diversi algoritmi messi a punto e testati: al contrario dell’essere umano, il computer impostato con un algoritmo che combina analisi semantica e dati psicologici, è stato capace di dare un risultato decisamente migliore, con un’accuratezza di distinzione pari a circa il 90%.
Chi scrive una recensione falsa (senza aver realmente soggiornato in un luogo) ha difficoltà a collocare l’esperienza in senso spaziale e quindi si concentra maggiormente su fattori esterni all’hotel (“vacation”, “business trip”, “my husband”), mentre chi ha soggiornato davvero nella struttura è in grado di fornire dati più concreti, che concernono le stanze, le dimensioni, i luoghi dell’hotel ( “bathroom”, “check-in”, “price”).
Diversamente rispetto a precedenti studi, qui le recensioni ingannevoli sembrano essere correlate con un maggior numero di termini positivi piuttosto che negativi e vi si fa un buon uso della prima persona singolare.

Questo dovrebbe spingere ad andare al di là della mera identificazione di un set di caratteristiche che indicano la falsità di un commento, prendendo in considerazione anche lo stato psicologico e contestuale in cui questo viene scritto.

Un primo passo rendere più attendibili i siti di recensioni turistiche

Lo studio condotto dalla Cornell, finanziato dalla National Science Foundation e sostenuto da uno spontaneo contributo di Google e di altre aziende, costituisce senza dubbio un importante primo passo nello studio di nuovi sistemi automatici per individuare di recensioni false ed apre la strada a nuovi studi nello stesso ambito.

Il lavoro svolto dalla Cornell non termina qui, e presto sarà testato anche per altre destinazioni e per altri settori, come quello della ristorazione.
Una cosa è certa: se lo strumento fosse affinato, potrebbe costituire una buona soluzione per correggere il tiro dei siti come TripAdvisor e per renderli molto più attendibili, trasprenti e difficilmente inquinabili. “Credo che il nostro approccio – ha dichiarato Ott – potrebbe realmente aiutare i siti di recensioni a identificare ed eliminare le recensioni fraudolente.”
Il software potrebbe essere infatti un perfetto “primo filtro” per identificare gli hotel con maggioranza di recensioni dubbie, su cui svolgere ulteriori accertamenti.
Questo andrebbe a vantaggio di tutti – conclude Ott – gli utenti hanno bisogno di recensioni affidabili e gli hotel di un buon feedback per capire come migliorare i propri servizi.”

3 commenti:

frap1964 ha detto...

Avendo a che fare con il software ed i computer tutti i giorni, devo dire che su questa cosa sono abbastanza scettico, anzi diciamo pure iper-scettico.
L'analisi linguistica computazionale ha certamente una sua validità, ma non bisogna dimenticare che questi algoritmi, alla fin fine, sono scritti da uomini e fatti riprodurre a forte velocità da macchine totalmente prive della benché minima intelligenza.
Scrivendo una recensione falsa molto ma molto simile ad una vera (sia essa positiva o negativa), dubito seriamente che non si riesca ad ingannare la macchina.
Le recensioni smaccatamente positive o negative probabilmente si riescono a filtrare. Quelle "ben costruite" dubito seriamente.
Conoscendo poi i dettagli secondo cui funziona l'algoritmo lo si fa di sicuro.
I computer non sono "più furbi" di noi, anzi. Sono solamente molto ma molto più veloci nell'iterare compiti elementari "stupidi" combinati in crescente complessità.
La soluzione, imho, non è questa.
Ma l'affiliazione delle strutture di tutta la filiera turistica ad un sistema di qualità nazionale/europeo con rilascio di "quality ID" ai clienti da parte di un ente terzo, all'atto della fatturazione.
E incentivi al rilascio delle recensioni da parte dei clienti (concorsi, viaggi premio, ecc.)

Luciano Ardoino ha detto...

Credo che quello che a suo tempo abbiamo inviato a ... (Roma) sia il migliore in assoluto.
E' nel programma del turismo per Genova delle prossime comunali.

Che se per caso ...
Vabbè, speriamo bene.

;-)

Anonimo ha detto...

Da un sondaggio rivolto ai governi del mondo:
"Dite onestamente qual è la vostra opinione sulla scarsità di alimenti nel resto del mondo".
Gli europei non hanno capito cosa fosse la scarsità;
gli africani non sapevano cosa fossero gli alimenti;
gli americani hanno chiesto il significato di resto del mondo;
i cinesi hanno chiesto maggiori delucidazioni sul significato di opinione;
il governo italiano sta ancora discutendo su cosa possa significare l'avverbio "onestamente".