Skaitmeninis budelis: po jo nuosprendžio žūsta tūkstančiai žmonių

 (64)
NSA „Skynet“ programa galėjo žudyti tūkstančius nekaltų žmonių. „Absurdiškai optimistinis“ mokytis gebančios mašinos algoritmas yra visiškas šlamštas, teigia ekspertas.
Skaitmeninis budelis: po jo nuosprendžio žūsta tūkstančiai žmonių
© Reuters/Scanpix

2014 metais tiek Centrinės žvalgybos valdybos (CŽV), tiek Nacionalinės saugumo agentūros (NSA) buvęs direktorius pareiškė, kad „mes, remdamiesi metaduomenimis, žudome žmones“. Dabar nauja anksčiau paskelbtų Edwardo Snowdeno dokumentų analizė rodo, kad daugelis šių žmonių galėjo būti nekalti, svetainėje arstechnica.co.uk rašo Christianas Grothoffas ir J. M. Porupas.

Praėjusiais metais svetainė „The Intercept“ paviešino dokumentus, detalizuojančius NSA programą „Skynet“. Anot šių dokumentų, „Skynet“ masiškai stebi Pakistano mobiliojo ryšio tinklus ir tuomet 55 mln. mobiliojo tinklo vartotojų metaduomenims pritaiko besimokančios mašinos algoritmą, kad įvertintų kiekvieno asmens tikimybę būti teroristu.

Duomenų mokslininkas ir „Human Rights Data Analysis Group“ tyrimų direktorius Patrickas Ballas, anksčiau liudijęs karo nusikaltimų tribunoluose, tokius NSA metodus pavadino „absurdiškai optimistiniais“ ir „visišku šlamštu“. Pasak P. Ballo, trūkumai, kurie būdingi tam, kaip NSA treniruoja „Skynet“ besimokančios mašinos algoritmą analizuoti mobiliuosius metaduomenis, paverčia jos rezultatus moksliškai nepagrįstais.

Nuo 2004 metų Pakistane bepiločių lėktuvų smūgiais buvo nužudyta nuo 2500 iki 4000 žmonių. Daugumą jų JAV vyriausybė priskyrė ekstremistams, rašė svetainė „The Bureau of Investigative Journalism“. Remiantis įslaptinimo data „20070108“, pasirodžiusia vienoje iš „Skynet“ skaidrių (kurios pačios buvo sukurtos 2011 ir 2012 metais), galima spręsti, kad besimokančios mašinos programa galėjo būti kuriama nuo 2007 metų.

Per vėlesnius metus „moksliškai nepagrįstas“ algoritmas teroristais galėjo pripažinti tūkstančius niekuo dėtų žmonių, kurie galėjo mirti pirma laiko.

Kerintys didieji duomenys

„Skynet“ veikia panašiai kaip tipiška šiuolaikinė didžiųjų duomenų apdorojimo verslo programa. Ji surenka metaduomenis ir saugo juos NSA debesų serveriuose. Tuomet ji atrenka svarbią informaciją ir pritaiko mašinos mokymosi gebėjimus, kad identifikuotų taikinius tikslinei kampanijai. Tačiau užuot bandžiusi taikiniams ką nors parduoti, ši kampanija veikiausiai pasitelkia kitą JAV vyriausybės atšaką - Centrinę žvalgybos valdybą ar kariuomenę, kurios įgyvendina „surasti, ištaisyti, užbaigti“ pobūdžio strategiją bepiločiais orlaiviais „Predator“ ir sausumos mirties būriais.

Pasak P. Ballo, trūkumai, kurie būdingi tam, kaip NSA treniruoja „Skynet“ besimokančios mašinos algoritmą analizuoti mobiliuosius metaduomenis, paverčia jos rezultatus moksliškai nepagrįstais.

Be to, kad apdoroja mobiliųjų telefonų skambučių duomenis (vadinamus DNR – rinktų numerių atpažinimo duomenis, pavyzdžiui, laiką, trukmę, kas kam skambino ir pan.), „Skynet“ taip pat renka informaciją apie vartotojo buvimo vietą – tai leidžia kurti detalius kelionių profilius. Mobiliojo telefono išjungimas vertinamas kaip bandymas išvengti masinio sekimo ir programa tai pasižymi. Asmenys, kurie kaitalioja SIM korteles ir naiviai mano, kad tai apsaugos juos nuo sekimo, taip pat būna pažymimi (telefonuose esantys ESN/MEID/IMEI kodai leidžia sekti telefono aparatą net ir keičiant SIM korteles).

Programa pastebi ir pasižymi, net kai asmuo pakeičia patį telefono aparatą, teigiama skaidrėse. Galime tik spėlioti, kad užfiksuoti šį įvykį padeda tas faktas, kad kiti metaduomenys, pavyzdžiui, vartotojo buvimo vieta realiame pasaulyje ir socialinis tinklas, lieka nepakitę.

Turėdama visą metaduomenų rinkinį, „Skynet“ sudėlioja asmens kasdieninės veiklos paveikslą: kas su juo kartu keliauja, kas dalijosi kontaktais, kas liko per naktį su draugais, kas lankėsi kitose šalyse ar visam laikui persikėlė kitur. Skaidrėse teigiama, kad NSA mokytis gebančios mašinos algoritmas, vertindamas asmens teroristiškumą, naudoja daugiau kaip 80 skirtingų požymių.

Ši programa, pasak skaidrių, yra paremta prielaida, jog teroristų elgsena reikšmingai skiriasi nuo paprastų piliečių elgesio. Tačiau, kaip parodė pernai „The Intercept“ paviešinta medžiaga, aukščiausiai įvertinas taikinys pagal šią mokytis gebančios mašinos programą buvo Ahmadas Zaidanas, ilgalaikis „Al Jazeera“ biuro Islamabade vadovas.

Kaip nurodė „The Intercept“, A. Zaidanas dažnai vyksta į regionus, garsėjančius teroristine veikla – ten jis ima interviu iš sukilėlių ir praneša naujienas. Tačiau užuot suabejoję mašinos mokymusi, kuris pateikė tokį keistą rezultatą, NSA inžinieriai savo prezentacijoje pateikė A. Zaidaną kaip „Skynet“ sėkmės pavyzdį ir vienoje skaidrėje netgi pavadino žurnalistą „Al Qaeda“ nariu“.

Mašinos maitinimas

Mokytis gebančios mašinos algoritmo treniravimas primena Bayeso brukalų filtro treniravimą: jis maitinamas žinomais brukalais ir žinomais ne brukalais. Iš šių „pamatinių tiesų“ algoritmas sužino, kaip teisingai filtruoti brukalus.

Tokiu pačiu būdu kritinė „Skynet“ programos dalis maitina mokytis gebančios mašinos algoritmą „žinomais teroristais“, kad išmokytų algoritmą pastebėti panašius profilius.

Problema ta, kad egzistuoja palyginus mažai „žinomų teroristų“, kurie maitintų algoritmą, o tikrieji teroristai vargu ar sutiktų dalyvauti hipotetiškoje NSA apklausoje šia tema. Vidiniai NSA dokumentai rodo, kad „Skynet“ vietoj pamatinių tiesų naudoja grupę „žinomų kurjerių“ ir vadovaujasi prielaida, kad likę gyventojai yra nekalti.

NSA mokytis gebančios mašinos algoritmas, vertindamas asmens teroristiškumą, naudoja daugiau kaip 80 skirtingų požymių.

Pakistane gyvena maždaug 192 mln. žmonių, kurie 2012 metų pabaigoje, kai buvo sukurtos „Skynet“ skaidrės, naudojo maždaug 120 mln. mobiliųjų telefonų. NSA išanalizavo 55 mln. šių mobiliųjų telefonų įrašų. Turint galvoje, kad 55 mln. Pakistano mobiliųjų telefonų vartotojų reikia pritaikyti 80 kintamųjų, tampa akivaizdu, kad duomenų yra pernelyg daug, kad juos būtų galima apdoroti rankiniu būdu. Taigi kaip ir bet kuri kita didžiųjų duomenų programa, NSA vietoj pagalbos – ar, galbūt, kaip pakaitalą – pasitelkė mokytis gebančią mašiną.

„Skynet“ klasifikavimo algoritmas analizuoja metaduomenis ir pamatines tiesas, o tuomet kiekvieną asmenį pagal jo metaduomenis įvertina tam tikru balu. Siekiama, kad tikrieji teroristai būtų įvertinti aukštais balais, o niekuo dėti gyventojai – žemais balais.

Kad tai padarytų, „Skynet“ algoritmas naudoja atsitiktinių miškų algoritmą, paprastai naudojamą tokio pobūdžio didžiųjų duomenų programoms. Kaip rodo praėjusią savaitę paviešinti E. Snowdeno dokumentai, Didžiosios Britanijos Vyriausybės ryšių štabas (GCHQ) taip pat naudoja panašius mokytis gebančių mašinų metodus. „Atrodo, kad mašinų mokymuisi dažniausiai pasirenkami atsitiktinių sprendimų miškai“, - rašė Universitetinio koledžo Londone saugumo ir privatumo inžinerijos profesorius George`as Danezisas, viename tinklaraštyje analizavęs paviešintus dokumentus.

Atsitiktinio miško metodas iš atsitiktinių treniravimo duomenų poaibių sukuria sprendimų „medžių mišką“ ir tuomet juos kombinuoja, vesdamas prognozių vidurkius iš individualių medžių. „Skynet“ algoritmas ima 80 kiekvieno mobiliojo telefono vartotojo požymių ir priskiria jiems balą – kaip ir brukalų filtras.

Tuomet „Skynet“ pasirenka ribą, virš kurios mobiliojo telefono vartotojas jau įvardijamas „teroristu“. Skaidrėse pristatomi įvertinimo rezultatai, kai tokia riba tampa 50 proc. klaidingų neigiamų įvertinimų. Esant tokiam įvertinimui, pusė žmonių, kurie galėjo būti pripažinti „teroristais“, priskiriami nekaltiesiems – taip daroma tam, kad klaidingų teigiamų rezultatų – nekaltų asmenų, per klaidą pripažintų „teroristais“ – skaičius būtų kuo mažesnis.

Klaidingi teigiami rezultatai

Žinoma, negalime būti tikri, kad 50 proc. klaidingų neigiamų įvertinimų, pasirinktų minėtoms skaidrėms, buvo tas pats slenkstis, kuriuo buvo vadovaujamasi sudarant galutinį žudymo sąrašą. Nepaisant to, problema, ką daryti su nekaltais klaidingais „kaltaisiais“, išlieka.

„Priežastis, kodėl jie taip daro, yra ta, kad kuo mažiau klaidingų neigiamų įvertinimų jie turės, tuo bus daugiau klaidingų teigiamų įvertinimų. Šiuo atveju simetrijos nėra: yra tiek daug tikrų neigiamų atsakymų, jog nuleidus ribą tam, kad klaidingi neigiami įvertinimai sumažėtų vienetu, tektų pripažinti daug tūkstančių papildomų klaidingų teigiamų įvertinimų. Dėl to buvo priimtas toks sprendimas“, - aiškino P. Ballas.

Vienoje NSA skaidrėje giriamasi: „Statistiniai algoritmai sugeba nustatyti kurjerius prie labai žemų klaidingo pavojaus rodiklių, jeigu mums leidžiama pražiopsoti pusę iš jų“.

Tačiau ką NSA turi galvoje, sakydama „labai žemas“?

„Visiškas šlamštas“

Pasak P. Ballo, problema ta, kaip NSA moko algoritmą pamatinėmis tiesomis.

NSA įvertina „Skynet“ programą, pasitelkdama 100 tūkst. atsitiktinai parinktų žmonių poaibį (identifikuotų pagal jų mobiliųjų telefonų MSIDN/MSI) ir žinomų septynių teroristų grupę. NSA tuomet treniruoja mokytis gebantį algoritmą, pristatydama jam šešis teroristus ir liepdama „Skynet“ surasti septintąjį.

„Visų pirma, modelio tikrinimui ir treniravimui naudojama labai mažai „žinomų teroristų“, - teigė P. Ballas. – Jeigu jie modelio treniravimui naudoja tuos pačius įrašus, kaip ir modelio patikrinimui, tuomet jų tinkamumo įvertinimas yra visiškas šlamštas.

Pagal įprastą praktiką kai kurie duomenys specialiai nenaudojami treniravimo procesui, kad į patikrinimą būtų įtraukti įrašai, kurių modelis niekada nematė. Be šio žingsnio jų klasifikacijos įvertinimas tampa absurdiškai optimistiškas“.

Priežastis ta, kad 100 tūkst. asmenų buvo atrinkti atsitiktinai, o septyni teroristai yra iš žinomos grupės. Atsitiktinai atrenkant miniatiūrinį poaibį, kuris sudaro mažiau negu 0,1 proc. visos populiacijos, socialinės piliečių diagramos tankumas smarkai sumažėja, o teroristų grupelė lieka tvirtai susieta. Vadovaujantis moksline statistine analize, NSA prieš atsitiktinę poaibio atranką turėjo įmaišyti teroristus tarp gyventojų – tačiau dėl mažo jų skaičiaus tai nėra praktiška.

Iš pirmo žvilgsnio tai gali atrodyti tik akademinė problema, bet, P. Ballo teigimu, tai iš tikrųjų daro didelę žalą rezultatų kokybei ir, galiausiai, klasifikacijos bei teroristais pripažintų asmenų nužudymo tikslumui. Šiuo atveju įvertinimo kokybė yra itin svarbi, nes atsitiktinio miško metodas, analizuodamas treniravimosi duomenis, būna linkęs „persistengti“ ir pateikia rezultatus, kurie būna pernelyg optimistiniai. Taigi NSA analizė nėra geras šio metodo kokybės rodiklis.

Jeigu 50 proc. klaidingų neigiamų rezultatų (t.y. tikrųjų teroristų) leidžiama išgyventi, NSA klaidingų teigiamų rezultatų rodiklis, siekiantis 0,18 proc., reiškia, kad vis dar tūkstančiai nekaltų žmonių gali būti pripažinti teroristais ir galbūt nužudyti. Net prie optimistiškiausio rodiklio – 0,008 proc. klaidingų teigiamų rezultatų – gali būti nužudyta daug nekaltų žmonių.

„Skaidrėje su klaidingais teigiamais rezultatais atkreipkite dėmesį į paskutinę eilutę, kurioje rašoma „+ Anchory Selectors“, - teigė G. Danezisas. – Tai esmė, ir skaičiai yra nenurodomi... Jei 55 mln. gyventojų pritaikysi klasifikatorių, kurio klaidingų teigiamų rezultatų rodiklis siekia 0,18 proc., tuomet tikrai nužudysi tūkstančius nekaltų žmonių (0,18 proc. nuo 55 mln. žmonių yra 99 tūkst. asmenų). Tačiau jei pritaikysi jį populiacijai, kurioje jau tikimasi didelio „terorizmo“ paplitimo, tuomet pirmasis kils aukštyn ir tu nužudysi mažiau nekaltų žmonių“.

Priežastis ta, kad 100 tūkst. asmenų buvo atrinkti atsitiktinai, o septyni teroristai yra iš žinomos grupės. Atsitiktinai atrenkant miniatiūrinį poaibį, kuris sudaro mažiau negu 0,1 proc. visos populiacijos, socialinės piliečių diagramos tankumas smarkai sumažėja, o teroristų grupelė lieka tvirtai susieta. Vadovaujantis moksline statistine analize, NSA prieš atsitiktinę poaibio atranką turėjo įmaišyti teroristus tarp gyventojų – tačiau dėl mažo jų skaičiaus tai nėra praktiška.

Be akivaizdžių prieštaravimų, kiek nekaltų žmonių yra priimtina nužudyti, tai tuo pačiu perša mintį, kad egzistuoja daug teroristų, kuriuos reikia identifikuoti. „Mes žinome, kad „tikrų teroristų“ dalis tarp visų gyventojų yra labai maža, - pažymėjo P. Ballas. – Kaip teigia Cory (Doctorow – aut. past.), jei tai būtų netiesa, mes jau visi būtume žuvę. Taigi mažas klaidingų teigiamų rezultatų rodiklis reikš, kad daugybė žmonių neteisingai būtų pripažinti teroristais“.

„Dar svarbiau, kad šis modelis nepastebės „tikrų teroristų“, kurie statistiškai skiriasi nuo „tikrų teroristų“, kurie buvo naudojami modeliui treniruoti“, - pridūrė P. Ballas.

Daugeliu atvejų 0,008 proc. nesėkmės rodiklis būtų puikus...

0,008 proc. siekiantis klaidingų teigiamų rezultatų rodiklis tradiciniam verslui būtų itin žemas. Toks rodiklis būtų priimtinas, jei, pavyzdžiui, pagal gautus rezultatus reklama būtų parodyta ne tam žmogui arba kažkam per klaidą būtų pritaikyta aukščiausia kaina.

Tačiau 0,008 proc. Pakistano gyventojų vis dar reiškia, kad „teroristais“ per klaidą gali būti pripažinti 15 tūkst. žmonių. Jie gali tapti kariuomenės taikiniais, nekalbant apie niekuo dėtus praeivius ar atsitiktinai pasimaišiusius asmenis.

Su tuo sutinka saugumo guru Bruce`as Schneieris. „Vyriausybės didžiųjų duomenų panaudojimas iš prigimties skiriasi nuo korporacinio panaudojimo, - sakė jis „Ars“. – Tikslumo reikalavimai reiškia, kad ta pati technologija yra neveiksminga. Jei „Google“ padaro klaidą, žmonės pamato automobilio, kurio jie visai neketina pirkti, reklamą. Jei vyriausybė padaro klaidą, žūsta nekalti žmonės“.

Žudyti civilius gyventojus draudžia Ženevos konvencija, kurią yra pasirašiusios ir Jungtinės Valstijos. Tačiau daug faktų apie programą „Skynet“ lieka nežinomi. Pavyzdžiui, ar „Skynet“ yra uždaros kilpos sistema, ar analitikai peržiūri kiekvieno mobiliojo telefono vartotojo profilį, prieš pasmerkdami jį mirčiai pagal metaduomenis? Ar stengiamasi sučiupti šiuos įtariamus „teroristus“ ir pradėti jų teismą? Kaip gali JAV vyriausybė būti tikra, kad ji nežudo nekaltų žmonių, turint galvoje mokytis gebančios mašinos algoritmo, pagal kurį sudaromas taikinių sąrašas, trūkumus?

„Spręsti, ar „Skynet“ yra karo nusikaltimas, palieku teisininkams, - sakė P. Ballas. – Tai blogas mokslas, nes klasifikacija iš prigimties yra tikimybinė. Jei ketini kažką pasmerkti mirčiai, paprastai mes turime „be jokios pagrįstos abejonės“ standartą, kurio neįmanoma pritaikyti kalbant apie žmones su „tikėtino teroristo“ balais. Ir taip yra, turint galvoje, kad klasifikatorius dirba, nors aš tuo abejoju, nes atsitiktiniam miškui paprasčiausiai trūksta pakankamo kiekio teigiamų teroristų pavyzdžių, kad jis sudarytų gerą jų modelį“.

0,008 proc. Pakistano gyventojų vis dar reiškia, kad „teroristais“ per klaidą gali būti pripažinti 15 tūkst. žmonių. Jie gali tapti kariuomenės taikiniais, nekalbant apie niekuo dėtus praeivius ar atsitiktinai pasimaišiusius asmenis.

Nutekėjusias NSA skaidres galima laikyti stipriu įrodymu, kad teroristais pripažįstami tūkstančiai nekaltų žmonių. Kas būna po to, mes nežinome. Mes neturime išsamaus paveikslo, o NSA šių spragų taip pat neužpildys. (Žurnalistai prašė NSA pakomentuoti šią istoriją, bet kol straipsnis buvo ruošiamas, ji taip ir neatsiliepė.)

Algoritmai vis labiau valdo mūsų gyvenimą. Tėra mažas žingsnis nuo „Skynet“ logikos pritaikymo teroristų paieškai Pakistane iki tos pačios logikos taikymo savo pačių valstybėje ieškant „narkotikų prekeivių“, „protestuotojų“ ar tiesiog asmenų, nesutinkančių su valdžia. Kaip sakė Haydenas, lengva užmerkti akis prieš žmonių žudymą „pagal metaduomenis“, kai tai vyksta toli, svetimoje žemėje. Tačiau kas bus, kai „Skynet“ atsisuks į mus (jei taip dar neįvyko)?

Christianas Grothoffas vadovauja „Decentralise“ tyrimų komandai Prancūzijos kompiuterių mokslų ir automatikos tyrinėjimų institute (INRIA). Kalifornijos universitete Los Andžele jis yra apsigynęs kompiuterių mokslų daktaro laipsnį. Jis taip pat dirba laisvai samdomu žurnalistu, rašančiu apie technologijas ir nacionalinį saugumą.

J.M. Porupas yra laisvai samdomas kibernetinio saugumo reporteris, gyvenantis Toronte. Jis yra išreiškęs norą, kad jam mirus, epitafija skelbtų: „Manykite, kad tai pažeidimas“ („Assume breach“).

www.DELFI.lt
Parašykite savo komentarą
arba komentuokite anonimiškai čia
Skelbdami komentarą, Jūs sutinkate su taisyklėmis
Skaityti komentarus Skaityti komentarus
 
Naujienų prenumerata

Technologijos

Grėsmės, tykančios kompiuterinių žaidimų mėgėjų

Kompiuterinių žaidimų rinka uždirba milijardus eurų per metus, turi šimtus milijonų aktyvių žaidėjų, tačiau, ESET saugumo ekspertų nuomone, žaidimų kūrėjai ir patys žaidėjai per menkai rūpinasi saugumu.

Uždraustas prietaisas: tyrimas parodė, kaip reikia elgtis su telefonu (19)

Ne tik suaugusieji, bet ir mokiniai be mobiliojo telefono vargiai įsivaizduoja savo dieną. Mobiliuoju telefonu galime bendrauti per atstumą, fotografuoti, naršyti internete, žaisti, naudotis žemėlapiais ir atlikti daugelį kitų funkcijų.

Tokio telefono pasaulis nematė: prasideda nauja era (37)

Masačiusetso technologijos instituto mokslininkai sukūrė telefoną, kuris gali susirinkti pats.

Šventė internetu besinaudojantiems žmonėms (4)

Yra šaltinių, tvirtinančių, kad 1991 metais rugpjūčio 23 dieną visuomenė pirmą kartą galėjo pasinaudoti pasauliniu informacijos tinklu. Panašu, kad šiandien galite švęsti.

Prieš ketvirtį amžiaus sukurta „Linux“ OS (24)

Suomija mini 25-ąsias operacinės sistemos (OS) „Linux“ metines.