NewsCompare.tech, unealtă software pentru detectarea fenomenului fake news – Interviu cu Alexandru Popa

Profesorul și cercetătorul Alexandru Popa este unul dintre cei 100 de specialiști români în informatică teoretică incluși în volumul One Hundred Romanian Authors in Theoretical Computer Science – editori: Svetlana Cojocaru, Gheorghe Păun și Dragoș Vaida –, care a fost publicat în anul 2018 la Editura Academiei Române. Recent, împreună cu un fost student, a dezvoltat o unealtă software care poate detecta plagiatul și fenomenul știrilor false.

Conf.univ.dr. Alexandru Popa.
  • Conferențiar universitar la Facultatea de Matematică și Informatică din cadrul Universității din București și cercetător științific gradul II la Institutul Național de Cercetare – Dezvoltare în Informatică.
  • Coordonator de doctorat (din 2017), Facultatea de Matematică și Informatică, Universitatea din București.
  • Doctor în informatică al Universității din Bristol, Marea Britanie (2011).
  • Absolvent al Facultății de Matematică și Informatică, Universitatea din București (2008).
  • Arii de cercetare: algoritmi, complexitate, grafuri și optimizare combinatorială.
  • Mai multe detalii despre activitatea profesională a conf.univ.dr. Alexandru Popa sunt disponibile aici.

Alexandru Popa: Aplicația pe care am dezvoltat-o împreună cu un fost student, Cristian Pop, este o unealtă software care identifică fenomenul știrilor false, fake news. Testăm aplicația pe site-urile de știri din România, dar poate fi lejer generalizată pentru orice limbă și tip de pagină web.

Cătălin Mosoia: Cum se poate defini fenomenul fake news?

Alexandru Popa: Nu ne-am propus să definim fenomenul știrilor false. Noi am dezvoltat o aplicație și oferim comunității de cercetători o unealtă software prin intermediul căreia pot să analizeze o cantitate foarte mare de informație, să observe posibile similarități și apoi să tragă concluzii. Pe parcursul acestei cercetări am fost surprinși să constatăm că site-urile de știri despre care se știe că furnizează fake news, în sensul că au fost raportate astfel, sunt complet izolate de toate celelalte site-uri de știri, iar din punct de vedere grafic sunt puncte izolate și nu au linkuri către nimic.

Cătălin Mosoia: Cum ați ajuns la această concluzie?

Alexandru Popa: Analiza website-urilor de știri este un rezultat secundar al investigației noastre. Noi am cercetat harta internetului din România, care se vede foarte clar ca o rețea în interiorul căreia se observă cine are linkuri către cine. Ulterior, am elaborat o serie de concluzii din perspectiva noastră de informaticieni. Am căutat website-urile de știri, dar nu le-am găsit în baza de date și atunci ne-am întrebat ce se întâmplă. Răspunsul a venit de la sine: nu le găsim pentru că sunt izolate și nu au legătură cu nimic altceva. Sunt identificabile doar dacă le cauți exact pe ele, nu au legătură cu altceva.

Cătălin Mosoia: Cum se numește aplicația și care sunt funcționalitățile de bază?

Alexandru Popa: Aplicația se numește Newscompare.tech și este un site web cu o interfață simplă care a fost dezvoltată în scop de cercetare. Funcționalitățile de bază sunt: harta internetului, unde toate site-urile sunt reprezentate prin discuri mici, iar prin linii website-urile care au linkuri unul către celălalt. Astfel, am observat că site-urile web din același trust media sunt foarte bine conectate. În ceea ce privește cealaltă funcționalitate, comparația între site-urile de știri, este de ajuns să selectăm o anumită pagină de web, iar aplicația ne arată toate celelalte pagini similare cu ea.

Cătălin Mosoia: Cum ați descrie investigația dumneavoastră?

Alexandru Popa: Cercetarea noastră este un produs software în care folosim cele mai noi tehnologii și limbaje de programare. Pe de altă parte, este o cercetare cu potențial impact major în rețelele sociale și media. Dintr-o cu totul altă perspectivă este o cercetare interdisciplinară în care intervin, în primul rând, informatica, matematica, științele sociale și lingvistica.

Intrând puțin mai adânc în miezul problemei, a compara conținuturile a două documente și a identifica similaritățile dintre ele nu e un lucru ușor, iar dificultatea provine și de la extra conținutul de informație afișat pe paginile web, adică pe lângă text sunt informații pe care le numim metadata, cum ar fi bucăți de programare. În acest sens, noi lucrăm pe baza unor algoritmi euristici, care ar mai putea fi rafinați.

Cătălin Mosoia: Înțeleg că un alt potențial produs secundar al aplicației ar fi și identificarea plagiatului?

Alexandru Popa: Aplicațiile sunt multiple și, da, poate identifica și plagiatul.

Cătălin Mosoia: Pe de altă parte, unealta software pe care ați dezvoltat-o este și o aplicație pe care o oferiți în dar cercetătorilor din alte domenii.

Alexandru Popa: Noi facilităm, facem un prim pas către cercetarea mai amănunțită. Codul este open source și chiar rugăm să fie modificat. Totul este o piatră de temelie și nu este neapărat un produs final. Noi am analizat harta internetului din România și am observat numărul de site-uri, gradele nodurilor și numeroase alte statistici.

Cătălin Mosoia: Încercând o scurtă recapitulare, în ceea ce privește noutățile pe care le aduce această cercetare: pe lângă faptul că putem compara informațiile existente pe două website-uri, putem avea un posibil nou instrument de identificare a lucrărilor plagiate.

Alexandru Popa: Harta internetului are o semnificație aparte în sine. Nu este numai o reprezentare vizuală a internetului, dar oferă și date concrete, care ne permit să tragem concluzii și despre rețeaua în sine, cum ar fi diametrul și densitatea rețelei, așa numitul clustering coefficient din teoria grafurilor – acest coeficient este o măsură a gradului în care nodurile dintr-un grafic tind să pară grupate, sau, «o măsură a numărului de triunghiuri dintr-un graf», altfel spus, numărul de triunghiuri care acoperă rețeaua respectivă.

La toate aceste date noi ne uităm ca matematicieni, dar considerăm că ne-ar ajuta foarte mult să avem contact cu sociologi care să analizeze și să interpreteze efectiv datele respective – mă gândesc la implicația socială a website-urilor așa cum apar acestea în urma rulării aplicației pe care am dezvoltat-o.

Aspectele sunt multiple: informatice, filosofice și psihologice. Noi am reușit să detectăm plagiatul, dar sunt cercetători care folosesc inteligența artificială pentru identificarea sentimentelor și a impresiilor pe care le lasă o anumită pagină web asupra persoanelor care o accesează. Potențialul de cercetare este uriaș! O parte dintre lucruri au fost încercate, dar multe sunt încă nedescoperite.

Un alt aspect pe care vreau să-l menționez legat de fake news este că putem să detectăm modul în care se propagă informația în internet. Cu alte cuvinte, în momentul în care o știre a fost lansată ca o anumită bombă, noi putem vedea cum se distribuie în marea rețea informațională. Dacă noi observăm asemănări între mai multe pagini putem să vedem și când a fost lansată prima dată și apoi să vedem toate site-urile care au preluat știrea respectivă.

Cătălin Mosoia: Altfel spus, aplicația răspunde la întrebările când și cine.

Alexandru Popa: În felul acesta observăm care surse de știri sunt de încredere. Preluările conduc la formarea unor tipare și astfel vedem care surse sunt credibile sau care preiau automat în stil «Copy + Paste».

Cătălin Mosoia: Newscompare.tech este o aplicație publică, poate fi accesată în regim gratuit, iar codul sursă poate fi preluat de oricine dorește să-l îmbunătățească. Ce urmează?

Alexandru Popa: Sper din tot sufletul să continuăm acest proiect. A fost și un vis de al meu; când eram student la Universitatea din Bristol, Marea Britanie, am avut un curs de rețele sociale care m-a pasionat și care a fost ținut de profesorul Aram Harrow  – acum este la MIT, Massachusetts Institute of Technology, SUA. Atunci s-a născut ideea unei aplicații care să folosească internetul.


Volumul One Hundred Romanian Authors in Theoretical Computer Science face parte din colecția „Civilizația românească / Romanian Civilization“, coordonată de acad. Victor Spinei, vicepreședinte al Academiei Române.

Proiectul editorial „Civilizația românească / Romanian Civilization“ conține sinteze pentru domeniile: lingvistica românească, etnologie românească, știinţa dreptului şi cultura juridică în România, istoria socială a României, demografia României, istoria geoştiinţelor în România, cu ramurile acestora geologia, geofizica și geografia, istoria chimiei româneşti, școala românească de micro- și nanoelectronică, economia României după Marea Unire. Această colecție de volume sintetice „însumează contribuțiile românești la tezaurul cultural și științific al omenirii, fiind o oglindă a potențialului intelectual național“, precizează acad. Victor Spinei.

La Editura Academiei Române au apărut mai multe volume din seria bilingvă „Civilizația românească / Romanian Civilization“ , printre care Lingvistica românească (Coordonatori: Marius Sala, Nicolae Saramandu), Istoria chimiei româneşti (Coordonator: Petre T. Frangopol), Știinţa dreptului şi cultura juridică în România (Coordonator: Mircea Duţu), Istoria socială a României (Coordonator: Cătălin Zamfir), Istoria geoştiinţelor în România. Ştiinţele geologice (Coordonatori: Dan Rădulescu, Nicolae Panin, Nicolae Anastasiu, Titus Brustur), Istoria geoştiinţelor în România. Ştiinţele geofizice (Coordonatori: Crişan Demetrescu, Alina Marin), Istoria geoştiinţelor în România. Ştiinţele geografice (Coordonatori: Dan Bălteanu, Sorin Geacu, Monica Dumitraşcu), Etnologie românească. Tradiţie, cultură, civilizaţie (Coordonatori: Sabina Ispas, Nicoleta Coatu), Demografia României (Coordonator: Vasile Gheţău), Economia României după Marea Unire. Volumul I. Macroeconomia (Coordonatori: Aurel Iancu, Nicolae Păun), Școala românească de micro – și nanoelectronică (Coordonator: Dan Dascălu).

Coperta 1 a volumului One Hundred Romanian Authors in Theoretical Computer Science, Editura Academiei Române, București 2018.

Un comentariu

  1. Catalin Mosoia

    Aplicația NewsCompare a constituit și subiectul unui articol științific care a fost publicat recent în jurnalul SoftwareX cu titlul „NewsCompare – A novel application for detecting news influence in a country“. Detalii la adresa https://www.sciencedirect.com/science/article/pii/S235271101930175X#sec4

    Coordonatele articolului sunt următoarele:

    Pop, C., & Popa, A. (2019). NewsCompare – A novel application for detecting news influence in a country. SoftwareX, 10(iulie-decembrie). doi:10.1016/j.softx.2019.100305

    Apreciază

Lasă un răspuns către Catalin Mosoia Anulează răspunsul