NSA „Skynet“ programa galėjo žudyti tūkstančius nekaltų žmonių. „Absurdiškai optimistinis“ mokytis gebančios mašinos algoritmas yra visiškas šlamštas, teigia ekspertas.
© Reuters/Scanpix

2014 metais tiek Centrinės žvalgybos valdybos (CŽV), tiek Nacionalinės saugumo agentūros (NSA) buvęs direktorius pareiškė, kad „mes, remdamiesi metaduomenimis, žudome žmones“. Dabar nauja anksčiau paskelbtų Edwardo Snowdeno dokumentų analizė rodo, kad daugelis šių žmonių galėjo būti nekalti, svetainėje arstechnica.co.uk rašo Christianas Grothoffas ir J. M. Porupas.

Praėjusiais metais svetainė „The Intercept“ paviešino dokumentus, detalizuojančius NSA programą „Skynet“. Anot šių dokumentų, „Skynet“ masiškai stebi Pakistano mobiliojo ryšio tinklus ir tuomet 55 mln. mobiliojo tinklo vartotojų metaduomenims pritaiko besimokančios mašinos algoritmą, kad įvertintų kiekvieno asmens tikimybę būti teroristu.

Duomenų mokslininkas ir „Human Rights Data Analysis Group“ tyrimų direktorius Patrickas Ballas, anksčiau liudijęs karo nusikaltimų tribunoluose, tokius NSA metodus pavadino „absurdiškai optimistiniais“ ir „visišku šlamštu“. Pasak P. Ballo, trūkumai, kurie būdingi tam, kaip NSA treniruoja „Skynet“ besimokančios mašinos algoritmą analizuoti mobiliuosius metaduomenis, paverčia jos rezultatus moksliškai nepagrįstais.

Nuo 2004 metų Pakistane bepiločių lėktuvų smūgiais buvo nužudyta nuo 2500 iki 4000 žmonių. Daugumą jų JAV vyriausybė priskyrė ekstremistams, rašė svetainė „The Bureau of Investigative Journalism“. Remiantis įslaptinimo data „20070108“, pasirodžiusia vienoje iš „Skynet“ skaidrių (kurios pačios buvo sukurtos 2011 ir 2012 metais), galima spręsti, kad besimokančios mašinos programa galėjo būti kuriama nuo 2007 metų.

Per vėlesnius metus „moksliškai nepagrįstas“ algoritmas teroristais galėjo pripažinti tūkstančius niekuo dėtų žmonių, kurie galėjo mirti pirma laiko.

Kerintys didieji duomenys

„Skynet“ veikia panašiai kaip tipiška šiuolaikinė didžiųjų duomenų apdorojimo verslo programa. Ji surenka metaduomenis ir saugo juos NSA debesų serveriuose. Tuomet ji atrenka svarbią informaciją ir pritaiko mašinos mokymosi gebėjimus, kad identifikuotų taikinius tikslinei kampanijai. Tačiau užuot bandžiusi taikiniams ką nors parduoti, ši kampanija veikiausiai pasitelkia kitą JAV vyriausybės atšaką - Centrinę žvalgybos valdybą ar kariuomenę, kurios įgyvendina „surasti, ištaisyti, užbaigti“ pobūdžio strategiją bepiločiais orlaiviais „Predator“ ir sausumos mirties būriais.

Pasak P. Ballo, trūkumai, kurie būdingi tam, kaip NSA treniruoja „Skynet“ besimokančios mašinos algoritmą analizuoti mobiliuosius metaduomenis, paverčia jos rezultatus moksliškai nepagrįstais.

Be to, kad apdoroja mobiliųjų telefonų skambučių duomenis (vadinamus DNR – rinktų numerių atpažinimo duomenis, pavyzdžiui, laiką, trukmę, kas kam skambino ir pan.), „Skynet“ taip pat renka informaciją apie vartotojo buvimo vietą – tai leidžia kurti detalius kelionių profilius. Mobiliojo telefono išjungimas vertinamas kaip bandymas išvengti masinio sekimo ir programa tai pasižymi. Asmenys, kurie kaitalioja SIM korteles ir naiviai mano, kad tai apsaugos juos nuo sekimo, taip pat būna pažymimi (telefonuose esantys ESN/MEID/IMEI kodai leidžia sekti telefono aparatą net ir keičiant SIM korteles).

Programa pastebi ir pasižymi, net kai asmuo pakeičia patį telefono aparatą, teigiama skaidrėse. Galime tik spėlioti, kad užfiksuoti šį įvykį padeda tas faktas, kad kiti metaduomenys, pavyzdžiui, vartotojo buvimo vieta realiame pasaulyje ir socialinis tinklas, lieka nepakitę.

Turėdama visą metaduomenų rinkinį, „Skynet“ sudėlioja asmens kasdieninės veiklos paveikslą: kas su juo kartu keliauja, kas dalijosi kontaktais, kas liko per naktį su draugais, kas lankėsi kitose šalyse ar visam laikui persikėlė kitur. Skaidrėse teigiama, kad NSA mokytis gebančios mašinos algoritmas, vertindamas asmens teroristiškumą, naudoja daugiau kaip 80 skirtingų požymių.

Ši programa, pasak skaidrių, yra paremta prielaida, jog teroristų elgsena reikšmingai skiriasi nuo paprastų piliečių elgesio. Tačiau, kaip parodė pernai „The Intercept“ paviešinta medžiaga, aukščiausiai įvertinas taikinys pagal šią mokytis gebančios mašinos programą buvo Ahmadas Zaidanas, ilgalaikis „Al Jazeera“ biuro Islamabade vadovas.

Kaip nurodė „The Intercept“, A. Zaidanas dažnai vyksta į regionus, garsėjančius teroristine veikla – ten jis ima interviu iš sukilėlių ir praneša naujienas. Tačiau užuot suabejoję mašinos mokymusi, kuris pateikė tokį keistą rezultatą, NSA inžinieriai savo prezentacijoje pateikė A. Zaidaną kaip „Skynet“ sėkmės pavyzdį ir vienoje skaidrėje netgi pavadino žurnalistą „Al Qaeda“ nariu“.

Mašinos maitinimas

Mokytis gebančios mašinos algoritmo treniravimas primena Bayeso brukalų filtro treniravimą: jis maitinamas žinomais brukalais ir žinomais ne brukalais. Iš šių „pamatinių tiesų“ algoritmas sužino, kaip teisingai filtruoti brukalus.

Tokiu pačiu būdu kritinė „Skynet“ programos dalis maitina mokytis gebančios mašinos algoritmą „žinomais teroristais“, kad išmokytų algoritmą pastebėti panašius profilius.

Problema ta, kad egzistuoja palyginus mažai „žinomų teroristų“, kurie maitintų algoritmą, o tikrieji teroristai vargu ar sutiktų dalyvauti hipotetiškoje NSA apklausoje šia tema. Vidiniai NSA dokumentai rodo, kad „Skynet“ vietoj pamatinių tiesų naudoja grupę „žinomų kurjerių“ ir vadovaujasi prielaida, kad likę gyventojai yra nekalti.

NSA mokytis gebančios mašinos algoritmas, vertindamas asmens teroristiškumą, naudoja daugiau kaip 80 skirtingų požymių.

Pakistane gyvena maždaug 192 mln. žmonių, kurie 2012 metų pabaigoje, kai buvo sukurtos „Skynet“ skaidrės, naudojo maždaug 120 mln. mobiliųjų telefonų. NSA išanalizavo 55 mln. šių mobiliųjų telefonų įrašų. Turint galvoje, kad 55 mln. Pakistano mobiliųjų telefonų vartotojų reikia pritaikyti 80 kintamųjų, tampa akivaizdu, kad duomenų yra pernelyg daug, kad juos būtų galima apdoroti rankiniu būdu. Taigi kaip ir bet kuri kita didžiųjų duomenų programa, NSA vietoj pagalbos – ar, galbūt, kaip pakaitalą – pasitelkė mokytis gebančią mašiną.

„Skynet“ klasifikavimo algoritmas analizuoja metaduomenis ir pamatines tiesas, o tuomet kiekvieną asmenį pagal jo metaduomenis įvertina tam tikru balu. Siekiama, kad tikrieji teroristai būtų įvertinti aukštais balais, o niekuo dėti gyventojai – žemais balais.

Kad tai padarytų, „Skynet“ algoritmas naudoja atsitiktinių miškų algoritmą, paprastai naudojamą tokio pobūdžio didžiųjų duomenų programoms. Kaip rodo praėjusią savaitę paviešinti E. Snowdeno dokumentai, Didžiosios Britanijos Vyriausybės ryšių štabas (GCHQ) taip pat naudoja panašius mokytis gebančių mašinų metodus. „Atrodo, kad mašinų mokymuisi dažniausiai pasirenkami atsitiktinių sprendimų miškai“, - rašė Universitetinio koledžo Londone saugumo ir privatumo inžinerijos profesorius George`as Danezisas, viename tinklaraštyje analizavęs paviešintus dokumentus.

Atsitiktinio miško metodas iš atsitiktinių treniravimo duomenų poaibių sukuria sprendimų „medžių mišką“ ir tuomet juos kombinuoja, vesdamas prognozių vidurkius iš individualių medžių. „Skynet“ algoritmas ima 80 kiekvieno mobiliojo telefono vartotojo požymių ir priskiria jiems balą – kaip ir brukalų filtras.

Tuomet „Skynet“ pasirenka ribą, virš kurios mobiliojo telefono vartotojas jau įvardijamas „teroristu“. Skaidrėse pristatomi įvertinimo rezultatai, kai tokia riba tampa 50 proc. klaidingų neigiamų įvertinimų. Esant tokiam įvertinimui, pusė žmonių, kurie galėjo būti pripažinti „teroristais“, priskiriami nekaltiesiems – taip daroma tam, kad klaidingų teigiamų rezultatų – nekaltų asmenų, per klaidą pripažintų „teroristais“ – skaičius būtų kuo mažesnis.

Klaidingi teigiami rezultatai

Žinoma, negalime būti tikri, kad 50 proc. klaidingų neigiamų įvertinimų, pasirinktų minėtoms skaidrėms, buvo tas pats slenkstis, kuriuo buvo vadovaujamasi sudarant galutinį žudymo sąrašą. Nepaisant to, problema, ką daryti su nekaltais klaidingais „kaltaisiais“, išlieka.

„Priežastis, kodėl jie taip daro, yra ta, kad kuo mažiau klaidingų neigiamų įvertinimų jie turės, tuo bus daugiau klaidingų teigiamų įvertinimų. Šiuo atveju simetrijos nėra: yra tiek daug tikrų neigiamų atsakymų, jog nuleidus ribą tam, kad klaidingi neigiami įvertinimai sumažėtų vienetu, tektų pripažinti daug tūkstančių papildomų klaidingų teigiamų įvertinimų. Dėl to buvo priimtas toks sprendimas“, - aiškino P. Ballas.

Vienoje NSA skaidrėje giriamasi: „Statistiniai algoritmai sugeba nustatyti kurjerius prie labai žemų klaidingo pavojaus rodiklių, jeigu mums leidžiama pražiopsoti pusę iš jų“.

Tačiau ką NSA turi galvoje, sakydama „labai žemas“?

„Visiškas šlamštas“

Pasak P. Ballo, problema ta, kaip NSA moko algoritmą pamatinėmis tiesomis.

NSA įvertina „Skynet“ programą, pasitelkdama 100 tūkst. atsitiktinai parinktų žmonių poaibį (identifikuotų pagal jų mobiliųjų telefonų MSIDN/MSI) ir žinomų septynių teroristų grupę. NSA tuomet treniruoja mokytis gebantį algoritmą, pristatydama jam šešis teroristus ir liepdama „Skynet“ surasti septintąjį.

„Visų pirma, modelio tikrinimui ir treniravimui naudojama labai mažai „žinomų teroristų“, - teigė P. Ballas. – Jeigu jie modelio treniravimui naudoja tuos pačius įrašus, kaip ir modelio patikrinimui, tuomet jų tinkamumo įvertinimas yra visiškas šlamštas.

Pagal įprastą praktiką kai kurie duomenys specialiai nenaudojami treniravimo procesui, kad į patikrinimą būtų įtraukti įrašai, kurių modelis niekada nematė. Be šio žingsnio jų klasifikacijos įvertinimas tampa absurdiškai optimistiškas“.

Priežastis ta, kad 100 tūkst. asmenų buvo atrinkti atsitiktinai, o septyni teroristai yra iš žinomos grupės. Atsitiktinai atrenkant miniatiūrinį poaibį, kuris sudaro mažiau negu 0,1 proc. visos populiacijos, socialinės piliečių diagramos tankumas smarkai sumažėja, o teroristų grupelė lieka tvirtai susieta. Vadovaujantis moksline statistine analize, NSA prieš atsitiktinę poaibio atranką turėjo įmaišyti teroristus tarp gyventojų – tačiau dėl mažo jų skaičiaus tai nėra praktiška.

Iš pirmo žvilgsnio tai gali atrodyti tik akademinė problema, bet, P. Ballo teigimu, tai iš tikrųjų daro didelę žalą rezultatų kokybei ir, galiausiai, klasifikacijos bei teroristais pripažintų asmenų nužudymo tikslumui. Šiuo atveju įvertinimo kokybė yra itin svarbi, nes atsitiktinio miško metodas, analizuodamas treniravimosi duomenis, būna linkęs „persistengti“ ir pateikia rezultatus, kurie būna pernelyg optimistiniai. Taigi NSA analizė nėra geras šio metodo kokybės rodiklis.

Jeigu 50 proc. klaidingų neigiamų rezultatų (t.y. tikrųjų teroristų) leidžiama išgyventi, NSA klaidingų teigiamų rezultatų rodiklis, siekiantis 0,18 proc., reiškia, kad vis dar tūkstančiai nekaltų žmonių gali būti pripažinti teroristais ir galbūt nužudyti. Net prie optimistiškiausio rodiklio – 0,008 proc. klaidingų teigiamų rezultatų – gali būti nužudyta daug nekaltų žmonių.

„Skaidrėje su klaidingais teigiamais rezultatais atkreipkite dėmesį į paskutinę eilutę, kurioje rašoma „+ Anchory Selectors“, - teigė G. Danezisas. – Tai esmė, ir skaičiai yra nenurodomi... Jei 55 mln. gyventojų pritaikysi klasifikatorių, kurio klaidingų teigiamų rezultatų rodiklis siekia 0,18 proc., tuomet tikrai nužudysi tūkstančius nekaltų žmonių (0,18 proc. nuo 55 mln. žmonių yra 99 tūkst. asmenų). Tačiau jei pritaikysi jį populiacijai, kurioje jau tikimasi didelio „terorizmo“ paplitimo, tuomet pirmasis kils aukštyn ir tu nužudysi mažiau nekaltų žmonių“.

Priežastis ta, kad 100 tūkst. asmenų buvo atrinkti atsitiktinai, o septyni teroristai yra iš žinomos grupės. Atsitiktinai atrenkant miniatiūrinį poaibį, kuris sudaro mažiau negu 0,1 proc. visos populiacijos, socialinės piliečių diagramos tankumas smarkai sumažėja, o teroristų grupelė lieka tvirtai susieta. Vadovaujantis moksline statistine analize, NSA prieš atsitiktinę poaibio atranką turėjo įmaišyti teroristus tarp gyventojų – tačiau dėl mažo jų skaičiaus tai nėra praktiška.

Be akivaizdžių prieštaravimų, kiek nekaltų žmonių yra priimtina nužudyti, tai tuo pačiu perša mintį, kad egzistuoja daug teroristų, kuriuos reikia identifikuoti. „Mes žinome, kad „tikrų teroristų“ dalis tarp visų gyventojų yra labai maža, - pažymėjo P. Ballas. – Kaip teigia Cory (Doctorow – aut. past.), jei tai būtų netiesa, mes jau visi būtume žuvę. Taigi mažas klaidingų teigiamų rezultatų rodiklis reikš, kad daugybė žmonių neteisingai būtų pripažinti teroristais“.

„Dar svarbiau, kad šis modelis nepastebės „tikrų teroristų“, kurie statistiškai skiriasi nuo „tikrų teroristų“, kurie buvo naudojami modeliui treniruoti“, - pridūrė P. Ballas.

Daugeliu atvejų 0,008 proc. nesėkmės rodiklis būtų puikus...

0,008 proc. siekiantis klaidingų teigiamų rezultatų rodiklis tradiciniam verslui būtų itin žemas. Toks rodiklis būtų priimtinas, jei, pavyzdžiui, pagal gautus rezultatus reklama būtų parodyta ne tam žmogui arba kažkam per klaidą būtų pritaikyta aukščiausia kaina.

Tačiau 0,008 proc. Pakistano gyventojų vis dar reiškia, kad „teroristais“ per klaidą gali būti pripažinti 15 tūkst. žmonių. Jie gali tapti kariuomenės taikiniais, nekalbant apie niekuo dėtus praeivius ar atsitiktinai pasimaišiusius asmenis.

Su tuo sutinka saugumo guru Bruce`as Schneieris. „Vyriausybės didžiųjų duomenų panaudojimas iš prigimties skiriasi nuo korporacinio panaudojimo, - sakė jis „Ars“. – Tikslumo reikalavimai reiškia, kad ta pati technologija yra neveiksminga. Jei „Google“ padaro klaidą, žmonės pamato automobilio, kurio jie visai neketina pirkti, reklamą. Jei vyriausybė padaro klaidą, žūsta nekalti žmonės“.

Žudyti civilius gyventojus draudžia Ženevos konvencija, kurią yra pasirašiusios ir Jungtinės Valstijos. Tačiau daug faktų apie programą „Skynet“ lieka nežinomi. Pavyzdžiui, ar „Skynet“ yra uždaros kilpos sistema, ar analitikai peržiūri kiekvieno mobiliojo telefono vartotojo profilį, prieš pasmerkdami jį mirčiai pagal metaduomenis? Ar stengiamasi sučiupti šiuos įtariamus „teroristus“ ir pradėti jų teismą? Kaip gali JAV vyriausybė būti tikra, kad ji nežudo nekaltų žmonių, turint galvoje mokytis gebančios mašinos algoritmo, pagal kurį sudaromas taikinių sąrašas, trūkumus?

„Spręsti, ar „Skynet“ yra karo nusikaltimas, palieku teisininkams, - sakė P. Ballas. – Tai blogas mokslas, nes klasifikacija iš prigimties yra tikimybinė. Jei ketini kažką pasmerkti mirčiai, paprastai mes turime „be jokios pagrįstos abejonės“ standartą, kurio neįmanoma pritaikyti kalbant apie žmones su „tikėtino teroristo“ balais. Ir taip yra, turint galvoje, kad klasifikatorius dirba, nors aš tuo abejoju, nes atsitiktiniam miškui paprasčiausiai trūksta pakankamo kiekio teigiamų teroristų pavyzdžių, kad jis sudarytų gerą jų modelį“.

0,008 proc. Pakistano gyventojų vis dar reiškia, kad „teroristais“ per klaidą gali būti pripažinti 15 tūkst. žmonių. Jie gali tapti kariuomenės taikiniais, nekalbant apie niekuo dėtus praeivius ar atsitiktinai pasimaišiusius asmenis.

Nutekėjusias NSA skaidres galima laikyti stipriu įrodymu, kad teroristais pripažįstami tūkstančiai nekaltų žmonių. Kas būna po to, mes nežinome. Mes neturime išsamaus paveikslo, o NSA šių spragų taip pat neužpildys. (Žurnalistai prašė NSA pakomentuoti šią istoriją, bet kol straipsnis buvo ruošiamas, ji taip ir neatsiliepė.)

Algoritmai vis labiau valdo mūsų gyvenimą. Tėra mažas žingsnis nuo „Skynet“ logikos pritaikymo teroristų paieškai Pakistane iki tos pačios logikos taikymo savo pačių valstybėje ieškant „narkotikų prekeivių“, „protestuotojų“ ar tiesiog asmenų, nesutinkančių su valdžia. Kaip sakė Haydenas, lengva užmerkti akis prieš žmonių žudymą „pagal metaduomenis“, kai tai vyksta toli, svetimoje žemėje. Tačiau kas bus, kai „Skynet“ atsisuks į mus (jei taip dar neįvyko)?

Christianas Grothoffas vadovauja „Decentralise“ tyrimų komandai Prancūzijos kompiuterių mokslų ir automatikos tyrinėjimų institute (INRIA). Kalifornijos universitete Los Andžele jis yra apsigynęs kompiuterių mokslų daktaro laipsnį. Jis taip pat dirba laisvai samdomu žurnalistu, rašančiu apie technologijas ir nacionalinį saugumą.

J.M. Porupas yra laisvai samdomas kibernetinio saugumo reporteris, gyvenantis Toronte. Jis yra išreiškęs norą, kad jam mirus, epitafija skelbtų: „Manykite, kad tai pažeidimas“ („Assume breach“).

Griežtai draudžiama DELFI paskelbtą informaciją panaudoti kitose interneto svetainėse, žiniasklaidos priemonėse ar kitur arba platinti mūsų medžiagą kuriuo nors pavidalu be sutikimo, o jei sutikimas gautas, būtina nurodyti DELFI kaip šaltinį.
Parašykite savo nuomonę
arba diskutuokite anonimiškai čia
Skelbdami savo nuomonę, Jūs sutinkate su taisyklėmis
Rodyti diskusiją Rodyti diskusiją
Naujienų prenumerata

Pristatyta didžiausia pasaulyje „Gameboy“ delninė žaidimų konsolė

„Guiness World Records: Game‘s Edition“ skelbia džiugią žinią – pristato rekordinio...

Sunkiai pastebimas ginklas numušė droną: parodė, kaip veikia (30)

Po daugybės metų tyrimų ir bandymų, lazeriniai ginklai po truputį ateina į JAV ginkluotę....

Atnaujinta „iOS 11“: prastos naujienos „iPhone“ baterijoms (6)

Po kelis mėnesius trukusio bandomosios versijos testavimo „Apple“ pagaliau pristatė plačiajai...

„Samsung Galaxy Note 8“: puiki kamera, bet panašus į plytą (84)

Ištikimieji „ Samsung Galaxy Note“ serijos išmaniųjų telefonų gerbėjai ilgai turėjo...

Penktadienį Lietuvoje prasideda prekyba „iPhone 8“: paskelbtos kainos papildyta 11.35 val. (210)

Penktadienį Lietuvoje galima iš anksto įsigyti „ iPhone 8“. Rugsėjo 22 d. pradedami...

Top naujienos

Kaip tinkamai susiplanuoti savo darbo dieną?

Sumaniai parengta ir apgalvota dienotvarkė – tikras išsigelbėjimas tiems, kurie turi šimtus...

Gyventojų mažėja, o šie specialistai ir toliau dygsta kaip grybai (118)

Gydytojų odontologų draugija skambina pavojaus varpais - Lietuvos universitetuose rengiama per...

R. Valatka. Po kiek teisingumas lizingu su mokėjimo atidėjimais? (2)

Jei tik STT varpai skamba ne tau, tai mirk iš juoko. Vaizdas per teliką toks, kaip į lauko...

Klaipėdos prabanga: už merui skirtą „Volvo“ moka daugiau, nei uždirba savivaldybės specialistas (239)

Neseniai iš automobilių salono į Klaipėdos savivaldybės aikštelę atriedėjo naujutėlaitis...

Naujaneriuose pagerbti nužudyti mūsiškiai (3)

Praeitais metais Holokausto aukų atminimo dieną, rugsėjo 23-ąją rašytojos Rūtos Vanagaitės...

Įspūdingiausios laidotuvės istorijoje: milijonai žmonių, uždengta Triumfo arka ir valstybinis gedulas (6)

Prieš 20 metų 1997 metų rugsėjo 6 dieną Londono gatvėmis judėjo gedulinga procesija. Karste...

Atnaujinta „iOS 11“: prastos naujienos „iPhone“ baterijoms (6)

Po kelis mėnesius trukusio bandomosios versijos testavimo „Apple“ pagaliau pristatė plačiajai...

Iš Portugalijos sugrįžusi A. Petravičienė: supratau, kad turiu iš gyvenimo išbraukti du žmones (30)

Televizijos šou „ Kelias į žvaigždes “ prieš daugelį metų išgarsėjusi atlikėja Agnė...

Plovas kitaip – Rytų įkvėpta aštri vištienos improvizacija (4)

Tai aštrus patiekalas su kajeno pipiru ir įmantriu pavadinimu – jambalaya . Dažniausiai šis...

Karys be uniformos. Karo lakūnu Ukrainoje tapęs vyras – apie griežtas taisykles, baimes ir melą žmonai (11)

„Kiekvienas lakūnas skaičiuoja kiekvieną minutę. Nežinau daug ar mažai – 11 tūkstančių...