1. Koncept maskování dat
Maskování dat je také známé jako maskování dat. Jedná se o technickou metodu převodu, úpravy nebo pokrytí citlivých dat, jako je číslo mobilního telefonu, číslo bankovní karty a další informace, když jsme dali pravidla a zásady maskování. Tato technika se primárně používá k zabránění použití citlivých dat přímo v nespolehlivém prostředí.
Princip maskování dat: maskování dat by mělo udržovat původní vlastnosti dat, obchodní pravidla a relevanci dat, aby se zajistilo, že následný vývoj, testování a analýza dat nebude ovlivněn maskováním. Zajistěte konzistenci a platnost dat před maskováním.
2. klasifikace maskování dat
Maskování dat lze rozdělit na statické maskování dat (SDM) a dynamickým maskováním dat (DDM).
Maskování statických dat (SDM): Statické maskování dat vyžaduje zřízení nové databáze nevýrobu pro izolaci z výrobního prostředí. Citlivá data jsou extrahována z produkční databáze a poté uložena v neprodukční databázi. Tímto způsobem jsou desenzibilizovaná data izolována z výrobního prostředí, které splňuje obchodní potřeby a zajišťuje zabezpečení údajů o výrobě.
Dynamické maskování dat (DDM): Obecně se používá ve výrobním prostředí k znecitlivění citlivých dat v reálném čase. Někdy jsou pro čtení stejných citlivých dat v různých situacích nutné různé úrovně maskování. Například různé role a oprávnění mohou implementovat různá maskovací schémata.
Vykazování dat a aplikace datových produktů maskují aplikaci
Mezi tyto scénáře patří hlavně produkty monitorování nebo billboardu s interním monitorováním dat, produkty externích dat a zprávy založené na analýze dat, jako jsou obchodní zprávy a přezkum projektu.
3. řešení maskování dat
Mezi běžné schémata maskování dat patří: neplatná hodnota, náhodná hodnota, výměna dat, symetrické šifrování, průměrná hodnota, offset a zaokrouhlování atd.
Neplatnost: Neplacení se týká šifrování, zkrácení nebo skrývání citlivých dat. Toto schéma obvykle nahrazuje skutečná data speciálními symboly (například *). Operace je jednoduchá, ale uživatelé nemohou znát formát původních dat, které mohou ovlivnit následující datové aplikace.
Náhodná hodnota: Náhodná hodnota odkazuje na náhodnou výměnu citlivých dat (čísla nahrazují číslice, písmena nahrazují písmena a znaky nahrazují znaky). Tato metoda maskování zajistí formát citlivých dat do jisté míry a usnadní následnou aplikaci dat. U některých smysluplných slov, jako jsou jména lidí a míst, mohou být zapotřebí maskovací slovníky.
Výměna dat: Výměna dat je podobná maskování nulových a náhodných hodnot, s výjimkou toho, že namísto použití speciálních znaků nebo náhodných hodnot jsou maskovací data nahrazena specifickou hodnotou.
Symetrické šifrování: Symetrické šifrování je speciální metoda reverzibilní maskování. Šifruje citlivá data prostřednictvím šifrovacích klíčů a algoritmů. Formát ciphertextu je v souladu s původními údaji v logických pravidlech.
Průměrný: Průměrné schéma se často používá ve statistických scénářích. U numerických dat nejprve vypočítáme jejich průměr a poté náhodně distribuujeme desenzibilizované hodnoty kolem průměru, čímž udržujeme součet dat konstantní.
Offset a zaokrouhlení: Tato metoda mění digitální data náhodným posunem. Offsetové zaokrouhlování zajišťuje přibližnou autentičnost rozsahu při zachování zabezpečení dat, která je blíže skutečným datům než předchozí schémata, a má velký význam ve scénáři analýzy velkých dat.
Model doporučení "ML-NPB-5660"Pro maskování dat
4. Běžně používané techniky maskování dat
(1). Statistické techniky
Vzorkování dat a agregace dat
- Vzorkování dat: Analýza a vyhodnocení původního souboru dat výběrem reprezentativní podmnožiny souboru dat je důležitou metodou pro zlepšení účinnosti de-identifikačních technik.
- Agregace dat: Jako sběr statistických technik (jako je součet, počítání, průměrování, maximum a minimum) aplikovaných na atributy v mikrodatech je výsledek reprezentativní pro všechny záznamy v původní sadě dat.
(2). Kryptografie
Kryptografie je běžnou metodou pro desenzibilizaci nebo zvýšení účinnosti desenzibilizace. Různé typy šifrovacích algoritmů mohou dosáhnout různých desenzibilizačních účinků.
- Deterministické šifrování: Nezběžné symetrické šifrování. Obvykle zpracovává ID data a může v případě potřeby dešifrovat a obnovit cifertext na původní ID, ale klíč je třeba správně chránit.
- nevratné šifrování: Funkce hash se používá ke zpracování dat, která se obvykle používá pro ID data. Nelze jej přímo dešifrovat a mapovací vztah musí být uložen. Kromě toho může dojít k kolizi dat v důsledku funkce hashovací funkce.
- Homomorfní šifrování: Používá se homomorfní algoritmus cifertextu. Jeho charakteristikou je, že výsledek operace cifertextu je stejný jako operace prostého textu po dešifrování. Proto se běžně používá ke zpracování numerických polí, ale není široce používán z důvodů výkonu.
(3). Systémová technologie
Technologie potlačení odstraní nebo štíty datové položky, které nesplňují ochranu soukromí, ale nezveřejňuje je.
- Masking: Odkazuje na nejběžnější metodu desenzibilizace, která maskuje hodnotu atributu, jako je číslo soupeře, identifikační karta je označena hvězdičkou nebo je zkrácena adresa.
- Lokální potlačení: odkazuje na proces odstranění specifických hodnot atributů (sloupců), odstranění nepodstatných datových polí;
- Potlačení záznamu: Odkazuje na proces odstranění konkrétních záznamů (řádků) a odstranění neesenciálních datových záznamů.
(4). Technologie pseudonymu
Pseudomaning je technika de-identifikace, která používá pseudonym k nahrazení přímého identifikátoru (nebo jiného citlivého identifikátoru). Techniky pseudonymu vytvářejí jedinečné identifikátory pro každý jednotlivý subjekt informací namísto přímých nebo citlivých identifikátorů.
- může generovat náhodné hodnoty nezávisle tak, aby odpovídaly původnímu ID, uložily tabulku mapování a přísně řídí přístup k tabulce mapování.
- K vytvoření pseudonymů můžete také použít šifrování, ale musíte správně ponechat dešifrovací klíč;
Tato technologie je široce používána v případě velkého počtu nezávislých uživatelů dat, jako je OpenID ve scénáři otevřené platformy, kde různí vývojáři získávají pro stejného uživatele různé OpenID.
(5). Generalizační techniky
Technika zobecnění se týká techniky de-identifikace, která snižuje granularitu vybraných atributů v souboru dat a poskytuje obecnější a abstraktní popis dat. Technologie zobecnění se snadno implementuje a může chránit autentičnost dat na úrovni záznamu. Běžně se používá v datových produktech nebo datových zprávách.
- Zaokrouhlování: Zahrnuje výběr zaoblené základny pro vybraný atribut, jako je forenzní nebo dolů, výsledky 100, 500, 1k a 10k
- Techniky kódování horního a dolního a dolního kódování: Vyměňte hodnoty nad (nebo pod) prahovou hodnotu prahovou hodnotou představující horní (nebo spodní) úroveň, což poskytuje výsledek „nad x“ nebo „pod x“
(6). Techniky randomizace
Jako druh techniky de-identifikace se randomizační technologie vztahuje na úpravu hodnoty atributu prostřednictvím randomizace, takže hodnota po randomizaci se liší od původní reálné hodnoty. Tento proces snižuje schopnost útočníka odvodit hodnotu atributu z jiných hodnot atributů ve stejném datovém záznamu, ale ovlivňuje autentičnost výsledných dat, která je společná u údajů o testování výroby.
Čas příspěvku: 27. září-2022