1. Koncept maskiranja podataka
Maskiranje podataka je također poznato kao maskiranje podataka. To je tehnička metoda za pretvaranje, modificiranje ili pokrivanje osjetljivih podataka kao što su broj mobilnog telefona, broj bankovne kartice i druge informacije kada smo dali pravila i politike maskiranja. Ova tehnika se prvenstveno koristi za sprečavanje direktnog korišćenja osetljivih podataka u nepouzdanim okruženjima.
Princip maskiranja podataka: maskiranje podataka treba da zadrži originalne karakteristike podataka, poslovna pravila i relevantnost podataka kako bi se osiguralo da maskiranje neće uticati na kasniji razvoj, testiranje i analizu podataka. Osigurajte konzistentnost i valjanost podataka prije i nakon maskiranja.
2. Klasifikacija maskiranja podataka
Maskiranje podataka može se podijeliti na statičko maskiranje podataka (SDM) i dinamičko maskiranje podataka (DDM).
Statičko maskiranje podataka (SDM): Statičko maskiranje podataka zahtijeva uspostavljanje nove baze podataka neproizvodnog okruženja za izolaciju od proizvodnog okruženja. Osjetljivi podaci se izdvajaju iz proizvodne baze podataka i zatim pohranjuju u neproizvodnu bazu podataka. Na taj način se desenzibilizirani podaci izoluju iz proizvodnog okruženja, što zadovoljava poslovne potrebe i osigurava sigurnost proizvodnih podataka.
Dinamičko maskiranje podataka (DDM): Obično se koristi u proizvodnom okruženju za desenzibilizaciju osjetljivih podataka u realnom vremenu. Ponekad su potrebni različiti nivoi maskiranja za čitanje istih osjetljivih podataka u različitim situacijama. Na primjer, različite uloge i dozvole mogu implementirati različite šeme maskiranja.
Aplikacija za izvještavanje o podacima i maskiranje proizvoda podataka
Takvi scenariji uglavnom uključuju interne proizvode za praćenje podataka ili bilborde, proizvode eksternih servisnih podataka i izvještaje zasnovane na analizi podataka, kao što su poslovni izvještaji i pregled projekta.
3. Rešenje za maskiranje podataka
Uobičajene šeme maskiranja podataka uključuju: poništenje, slučajnu vrijednost, zamjenu podataka, simetrično šifriranje, prosječnu vrijednost, pomak i zaokruživanje, itd.
Poništenje: Poništenje se odnosi na šifriranje, skraćivanje ili skrivanje osjetljivih podataka. Ova šema obično zamjenjuje stvarne podatke posebnim simbolima (kao što je *). Operacija je jednostavna, ali korisnici ne mogu znati format originalnih podataka, što može uticati na kasnije aplikacije podataka.
Slučajna vrijednost: Nasumična vrijednost se odnosi na slučajnu zamjenu osjetljivih podataka (brojevi zamjenjuju cifre, slova zamjenjuju slova, a znakovi zamjenjuju znakove). Ova metoda maskiranja će u određenoj mjeri osigurati format osjetljivih podataka i olakšati naknadnu primjenu podataka. Maskirajući rječnici mogu biti potrebni za neke smislene riječi, kao što su imena ljudi i mjesta.
Zamjena podataka: Zamjena podataka je slična maskiranju nultih i nasumičnih vrijednosti, osim što se umjesto upotrebe posebnih znakova ili nasumičnih vrijednosti, maskirani podaci zamjenjuju određenom vrijednošću.
Simetrično šifrovanje: Simetrično šifrovanje je posebna reverzibilna metoda maskiranja. On šifrira osjetljive podatke pomoću ključeva za šifriranje i algoritama. Format šifriranog teksta je u skladu s originalnim podacima u logičkim pravilima.
Prosjek: Šema prosjeka se često koristi u statističkim scenarijima. Za numeričke podatke, prvo izračunamo njihovu srednju vrijednost, a zatim nasumično distribuiramo desenzibilizirane vrijednosti oko srednje vrijednosti, održavajući tako zbir podataka konstantnim.
Pomak i zaokruživanje: Ova metoda mijenja digitalne podatke nasumičnim pomakom. Ofsetno zaokruživanje osigurava približnu autentičnost raspona uz održavanje sigurnosti podataka, koji je bliži stvarnim podacima od prethodnih šema, i ima veliki značaj u scenariju analize velikih podataka.
Preporučeni model"ML-NPB-5660" za maskiranje podataka
4. Često korištene tehnike maskiranja podataka
(1). Statističke tehnike
Uzorkovanje podataka i agregacija podataka
- Uzorkovanje podataka: Analiza i evaluacija originalnog skupa podataka odabirom reprezentativnog podskupa skupa podataka je važan metod za poboljšanje efikasnosti tehnika de-identifikacije.
- Agregacija podataka: Kao kolekcija statističkih tehnika (kao što su zbrajanje, brojanje, usrednjavanje, maksimum i minimum) primenjenih na atribute u mikropodacima, rezultat je reprezentativan za sve zapise u originalnom skupu podataka.
(2). Kriptografija
Kriptografija je uobičajena metoda za desenzibilizaciju ili poboljšanje efikasnosti desenzibilizacije. Različiti tipovi algoritama enkripcije mogu postići različite efekte desenzibilizacije.
- Deterministička enkripcija: nenasumična simetrična enkripcija. Obično obrađuje ID podatke i može dešifrirati i vratiti šifrirani tekst na originalni ID kada je to potrebno, ali ključ mora biti pravilno zaštićen.
- Nepovratna enkripcija: hash funkcija se koristi za obradu podataka, koja se obično koristi za ID podatke. Ne može se direktno dešifrirati i odnos mapiranja mora biti sačuvan. Osim toga, zbog značajke hash funkcije može doći do kolizije podataka.
- Homomorfno šifrovanje: Koristi se homomorfni algoritam šifrovanog teksta. Njegova karakteristika je da je rezultat operacije šifriranog teksta isti kao rezultat operacije otvorenog teksta nakon dešifriranja. Stoga se obično koristi za obradu numeričkih polja, ali se ne koristi široko zbog performansi.
(3). Sistemska tehnologija
Tehnologija suzbijanja briše ili štiti stavke podataka koje ne zadovoljavaju zaštitu privatnosti, ali ih ne objavljuje.
- Maskiranje: odnosi se na najčešći metod desenzibilizacije za maskiranje vrijednosti atributa, kao što je broj protivnika, lična karta je označena zvjezdicom ili je adresa skraćena.
- Lokalno potiskivanje: odnosi se na proces brisanja specifičnih vrijednosti atributa (kolona), uklanjanja nebitnih polja podataka;
- Poništavanje zapisa: odnosi se na proces brisanja određenih zapisa (redova), brisanja nebitnih zapisa podataka.
(4). Pseudonim Technology
Pseudomanning je tehnika deidentifikacije koja koristi pseudonim za zamjenu direktnog identifikatora (ili drugog osjetljivog identifikatora). Tehnike pseudonima stvaraju jedinstvene identifikatore za svaki pojedinačni subjekt informacija, umjesto direktnih ili osjetljivih identifikatora.
- Može generirati nasumične vrijednosti nezavisno da odgovaraju originalnom ID-u, sačuvati tabelu mapiranja i strogo kontrolisati pristup tabeli mapiranja.
- Također možete koristiti šifriranje za stvaranje pseudonima, ali morate pravilno čuvati ključ za dešifriranje;
Ova tehnologija se široko koristi u slučaju velikog broja nezavisnih korisnika podataka, kao što je OpenID u scenariju otvorene platforme, gdje različiti programeri dobijaju različite Openide za istog korisnika.
(5). Tehnike generalizacije
Tehnika generalizacije se odnosi na tehniku de-identifikacije koja smanjuje granularnost odabranih atributa u skupu podataka i pruža opštiji i apstraktniji opis podataka. Tehnologija generalizacije je jednostavna za implementaciju i može zaštititi autentičnost podataka na nivou zapisa. Obično se koristi u proizvodima podataka ili izvještajima o podacima.
- Zaokruživanje: uključuje odabir osnove zaokruživanja za odabrani atribut, kao što je forenzika naviše ili naniže, dajući rezultate 100, 500, 1K i 10K
- Tehnike kodiranja na vrhu i na dnu: Zamijenite vrijednosti iznad (ili ispod) praga pragom koji predstavlja gornji (ili donji) nivo, dajući rezultat "iznad X" ili "ispod X"
(6). Tehnike randomizacije
Kao vrsta tehnike de-identifikacije, tehnologija randomizacije se odnosi na modifikaciju vrednosti atributa putem randomizacije, tako da se vrednost nakon randomizacije razlikuje od originalne stvarne vrednosti. Ovaj proces smanjuje sposobnost napadača da izvede vrijednost atributa iz drugih vrijednosti atributa u istom zapisu podataka, ali utječe na autentičnost rezultirajućih podataka, što je uobičajeno s podacima testa proizvodnje.
Vrijeme objave: Sep-27-2022