Znanstvenici obučavaju novi jezični model DarkBERT s podacima dark weba

18. svibnja 2023.

3 Mins Read

411 Views

Znanstvenici obučavaju novi jezični model DarkBERT s podacima dark weba

Veliki jezični modeli (LLM ili VJM) OpenAI-ja trenirani su na širokom spektru podataka, izvlačeći informacije iz najprašnjavijih i najzapuštenijih kutaka interneta.

No, ono što valja spomenuti da površinski web kojeg svakodnevno koristimo je svega mali postotak ukupnog interneta koji je mnogima nedostupan.

Nerijetkom obavijen velom tajni, misterija, droga, kriminala, nadnaravnih pojava taj dio interneta nazivamo deep web, a samo dno deep weba, svojevrsna Marijanska brazda informacija naziva sa dark web.

Dok deep web nije neko “opasno mjesto”, to je u suštini sve ono što Google i ostale tražilice ne indeksiraju. Primjerice Facebook timeline koji se nalazi “zatvoren” unutar korisničkog računa i kao takav nije pretraživ dio je deep weba.

Dark web je nešto ipak crnje. Nerijetko utočište onog najgoreg na internetu, ono što ne želimo da itko sazna, od marketa s drogama, oružjem, do pedofilije, naručivanja ubojstva i sve ono najgore što ljudski um može proizvesti.

Što ako bi LLM model poput GPT pretraživao dark web – sumnjivo područje interneta gdje možete smjestiti bilo koju stranicu s bilo kojim sadržajem bez otkrivanja svojeg identiteta javnosti ili čak policiji?

Tim južnokorejskih istraživača učinio je upravo to kreirajući AI model nazvan DarkBERT kako bi indeksirao neka od najsumnjivijih područja na internetu.

To je fascinantni uvid u neke od najmutnijih kutaka World Wide Weba, koji su postali sinonim za ilegalne i zlonamjerne aktivnosti, od dijeljenja tajnih podataka do prodaje teških droga.

Zvuči kao noćna mora, ali istraživači kažu da DarkBERT ima plemenite namjere: pokušava sprovesti nove načine borbe protiv kibernetskog kriminala, polja koje sve više koristi obradu prirodnog jezika.

Borac protiv kibernetičkog kriminala

Možda ne iznenađuje da nije bilo lako shvatiti dijelove weba koje tražilice poput Googlea ne indeksiraju i često se može pristupiti samo putem određenog softvera.

Kako je detaljno opisano u još nerecenziranom radu pod nazivom “DarkBERT: jezični model za tamnu stranu interneta”, tim je svoj model povezao s Tor mrežom, jedinom za pristupanje dijelovima dark weba.

Zatim se primio posla, stvarajući bazu svih podataka koje je pronašao.

Tim tvrdi da je njihov novi VJM bio puno bolji u razumijevanju dark weba od drugih modela koji su trenirani da obave slične zadatke, uključujući RoBERTu, koju su istraživači Facebooka dizajnirali 2019. godine kako bi “predvidjeli namjerno skrivene dijelove teksta unutar inače neoznačenih primjera jezika“, prema službenom opisu.

“Naši rezultati evaluacije pokazuju da klasifikacijski model temeljen na DarkBERT-u nadmašuje poznate prethodno trenirane jezične modele“, napisali su istraživači u svom radu.

Tim sugerira da bi se DarkBERT mogao koristiti za razne zadatke povezane s kibernetičkom sigurnošću, poput detekcije stranica koje prodaju ransomware ili otkrivaju povjerljive podatke.

Također bi se mogao koristiti za pretraživanje brojnih foruma na dark webu koji se svakodnevno ažuriraju i nadziru ih za bilo kakvu razmjenu nezakonitih informacija.

U konačnici, povjerovat ćemo kad to vidimo.

Ali čak i ako sustav radi kako je planirano, želimo li zaista početi dopuštati AI-u da nadzire internet?

Uči iz dark weba?

Možemo li nekako zaustaviti/spriječiti moguću zloupotrebu tehnologije?

Razmišljanje o tome je jednako zastrašujuće i zbunjujuće kao i ulazak u mračne hodnike dark weba, gdje se svakodnevno obavljaju nevidljive transakcije.

Moramo biti oprezni s ovom moćnom tehnologijom, čak i ako ima potencijal donijeti nevjerojatne prednosti.

DarkBERT, kao novi igrač u igri kibernetičke sigurnosti, još uvijek ima puno toga za dokazati.

Ako njegova sposobnost za učenje i razumijevanje mračnog weba zaista bude korisna u borbi protiv kibernetskog kriminala, možda bismo mogli svjedočiti novoj, učinkovitijoj eri kibernetičke zaštite.

Ali kao što smo naučili, svaka medalja ima dvije strane.

Pratiti ćemo razvoj DarkBERT-a i njegov mogući utjecaj na svijet kibernetske sigurnosti.