1. Koncept maskiranja podataka
Maskiranje podataka je također poznato kao maskiranje podataka. To je tehnička metoda za pretvaranje, modifikaciju ili prekrivanje osjetljivih podataka kao što su broj mobilnog telefona, broj bankovne kartice i druge informacije kada smo dali pravila i politike maskiranja. Ova tehnika se prvenstveno koristi kako bi se spriječilo direktno korištenje osjetljivih podataka u nepouzdanim okruženjima.
Princip maskiranja podataka: Maskiranje podataka treba da očuva originalne karakteristike podataka, poslovna pravila i relevantnost podataka kako bi se osiguralo da maskiranje neće uticati na kasniji razvoj, testiranje i analizu podataka. Osigurajte konzistentnost i validnost podataka prije i poslije maskiranja.
2. Klasifikacija maskiranja podataka
Maskiranje podataka može se podijeliti na statičko maskiranje podataka (SDM) i dinamičko maskiranje podataka (DDM).
Statičko maskiranje podataka (SDM)Maskiranje statičkih podataka zahtijeva uspostavljanje nove baze podataka neprodukcijskog okruženja radi izolacije od produkcijskog okruženja. Osjetljivi podaci se izdvajaju iz produkcijske baze podataka, a zatim pohranjuju u neprodukcijsku bazu podataka. Na taj način, desenzibilizirani podaci se izoliraju od produkcijskog okruženja, što zadovoljava poslovne potrebe i osigurava sigurnost produkcijskih podataka.
Dinamičko maskiranje podataka (DDM)Općenito se koristi u produkcijskom okruženju za desenzibilizaciju osjetljivih podataka u stvarnom vremenu. Ponekad su potrebni različiti nivoi maskiranja za čitanje istih osjetljivih podataka u različitim situacijama. Na primjer, različite uloge i dozvole mogu implementirati različite sheme maskiranja.
Aplikacija za izvještavanje o podacima i maskiranje podatkovnih proizvoda
Takvi scenariji uglavnom uključuju interne proizvode za praćenje podataka ili bilborde, eksterne proizvode za podatke o uslugama i izvještaje zasnovane na analizi podataka, kao što su poslovni izvještaji i pregledi projekata.
3. Rješenje za maskiranje podataka
Uobičajene sheme maskiranja podataka uključuju: poništavanje, slučajnu vrijednost, zamjenu podataka, simetrično šifriranje, prosječnu vrijednost, pomak i zaokruživanje itd.
PoništenjeInvalidacija se odnosi na šifriranje, skraćivanje ili skrivanje osjetljivih podataka. Ova shema obično zamjenjuje stvarne podatke posebnim simbolima (kao što je *). Operacija je jednostavna, ali korisnici ne mogu znati format originalnih podataka, što može utjecati na kasnije aplikacije podataka.
Slučajna vrijednostSlučajna vrijednost odnosi se na slučajnu zamjenu osjetljivih podataka (brojevi zamjenjuju cifre, slova zamjenjuju slova, a znakovi zamjenjuju znakove). Ova metoda maskiranja će do određene mjere osigurati format osjetljivih podataka i olakšati kasniju primjenu podataka. Rječnici maskiranja mogu biti potrebni za neke značajne riječi, kao što su imena ljudi i mjesta.
Zamjena podatakaZamjena podataka je slična maskiranju null i slučajnih vrijednosti, osim što se umjesto korištenja posebnih znakova ili slučajnih vrijednosti, maskirani podaci zamjenjuju određenom vrijednošću.
Simetrično šifriranjeSimetrično šifriranje je posebna metoda reverzibilnog maskiranja. Šifrira osjetljive podatke pomoću ključeva za šifriranje i algoritama. Format šifriranog teksta je u skladu s originalnim podacima u logičkim pravilima.
ProsječnoShema prosjeka se često koristi u statističkim scenarijima. Za numeričke podatke prvo izračunavamo njihovu srednju vrijednost, a zatim nasumično raspoređujemo desenzibilizirane vrijednosti oko srednje vrijednosti, čime se zbir podataka održava konstantnim.
Pomak i zaokruživanjeOva metoda mijenja digitalne podatke slučajnim pomjeranjem. Zaokruživanje pomaka osigurava približnu autentičnost raspona uz održavanje sigurnosti podataka, koji su bliži stvarnim podacima nego prethodne sheme i imaju veliki značaj u scenariju analize velikih podataka.
Preporučeni model "ML-NPB-5660"za maskiranje podataka"
4. Uobičajeno korištene tehnike maskiranja podataka
(1). Statističke tehnike
Uzorkovanje podataka i agregacija podataka
- Uzorkovanje podataka: Analiza i evaluacija originalnog skupa podataka odabirom reprezentativnog podskupa skupa podataka važna je metoda za poboljšanje učinkovitosti tehnika deidentifikacije.
- Agregacija podataka: Kao skup statističkih tehnika (kao što su sumiranje, brojanje, usrednjavanje, maksimum i minimum) primijenjenih na atribute u mikropodacima, rezultat je reprezentativan za sve zapise u originalnom skupu podataka.
(2). Kriptografija
Kriptografija je uobičajena metoda za desenzibilizaciju ili poboljšanje efikasnosti desenzibilizacije. Različite vrste algoritama za šifriranje mogu postići različite efekte desenzibilizacije.
- Determinističko šifriranje: Nenasumično simetrično šifriranje. Obično obrađuje ID podatke i može dešifrirati i vratiti šifrirani tekst na originalni ID kada je to potrebno, ali ključ mora biti pravilno zaštićen.
- Ireverzibilno šifriranje: Za obradu podataka koristi se hash funkcija, koja se obično koristi za ID podatke. Ne može se direktno dešifrirati i odnos mapiranja mora se sačuvati. Osim toga, zbog karakteristika hash funkcije, može doći do kolizije podataka.
- Homomorfno šifriranje: Koristi se homomorfni algoritam šifriranog teksta. Njegova karakteristika je da je rezultat operacije šifriranog teksta isti kao i rezultat operacije otvorenog teksta nakon dešifriranja. Stoga se obično koristi za obradu numeričkih polja, ali se ne koristi široko iz razloga performansi.
(3). Sistemska tehnologija
Tehnologija suzbijanja briše ili štiti podatke koji ne ispunjavaju uslove zaštite privatnosti, ali ih ne objavljuje.
- Maskiranje: odnosi se na najčešću metodu desenzibilizacije za maskiranje vrijednosti atributa, kao što je broj protivnika, lična karta označena zvjezdicom ili skraćena adresa.
- Lokalno supresiranje: odnosi se na proces brisanja određenih vrijednosti atributa (kolona), uklanjanjem nebitnih polja podataka;
- Potiskivanje zapisa: odnosi se na proces brisanja određenih zapisa (redova), brisanje nebitnih podataka.
(4). Tehnologija pseudonima
Pseudomanning je tehnika deidentifikacije koja koristi pseudonim umjesto direktnog identifikatora (ili drugog osjetljivog identifikatora). Tehnike pseudonima kreiraju jedinstvene identifikatore za svaku pojedinačnu osobu o kojoj se radi, umjesto direktnih ili osjetljivih identifikatora.
- Može nezavisno generirati slučajne vrijednosti koje odgovaraju originalnom ID-u, sačuvati tabelu mapiranja i strogo kontrolisati pristup tabeli mapiranja.
- Također možete koristiti šifriranje za kreiranje pseudonima, ali morate pravilno čuvati ključ za dešifriranje;
Ova tehnologija se široko koristi u slučaju velikog broja nezavisnih korisnika podataka, kao što je OpenID u scenariju otvorene platforme, gdje različiti programeri dobijaju različite OpenID-ove za istog korisnika.
(5). Tehnike generalizacije
Tehnika generalizacije odnosi se na tehniku deidentifikacije koja smanjuje granularnost odabranih atributa u skupu podataka i pruža općenitiji i apstraktniji opis podataka. Tehnologija generalizacije je jednostavna za implementaciju i može zaštititi autentičnost podataka na nivou zapisa. Obično se koristi u podatkovnim proizvodima ili izvještajima o podacima.
- Zaokruživanje: uključuje odabir osnove zaokruživanja za odabrani atribut, kao što je forenzika naviše ili naniže, što daje rezultate 100, 500, 1K i 10K
- Tehnike gornjeg i donjeg kodiranja: Zamijenite vrijednosti iznad (ili ispod) praga pragom koji predstavlja gornji (ili donji) nivo, što daje rezultat "iznad X" ili "ispod X"
(6). Tehnike randomizacije
Kao vrsta tehnike deidentifikacije, tehnologija randomizacije odnosi se na modificiranje vrijednosti atributa putem randomizacije, tako da vrijednost nakon randomizacije bude drugačija od originalne stvarne vrijednosti. Ovaj proces smanjuje mogućnost napadača da izvede vrijednost atributa iz drugih vrijednosti atributa u istom zapisu podataka, ali utiče na autentičnost rezultirajućih podataka, što je uobičajeno kod podataka o testiranju produkcije.
Vrijeme objave: 27. septembar 2022.