1. Pojem maskování dat
Maskování dat je také známé jako maskování dat. Jedná se o technickou metodu, jak převést, upravit nebo zakrýt citlivá data, jako je číslo mobilního telefonu, číslo bankovní karty a další informace, pokud jsme stanovili pravidla a zásady maskování. Tato technika se primárně používá k zabránění přímého použití citlivých dat v nespolehlivých prostředích.
Princip maskování dat: Maskování dat by mělo zachovat původní charakteristiky dat, obchodní pravidla a relevanci dat, aby bylo zajištěno, že následný vývoj, testování a analýza dat nebudou maskováním ovlivněny. Zajistěte konzistenci a platnost dat před a po maskování.
2. Klasifikace maskování dat
Maskování dat lze rozdělit na maskování statických dat (SDM) a dynamické maskování dat (DDM).
Maskování statických dat (SDM): Maskování statických dat vyžaduje vytvoření nové databáze neprodukčního prostředí pro izolaci od produkčního prostředí. Citlivá data jsou extrahována z produkční databáze a poté uložena do neprodukční databáze. Tímto způsobem jsou znecitlivěná data izolována od produkčního prostředí, což odpovídá obchodním potřebám a zajišťuje bezpečnost produkčních dat.
Dynamické maskování dat (DDM): Obecně se používá v produkčním prostředí ke znecitlivění citlivých dat v reálném čase. Někdy jsou pro čtení stejných citlivých dat v různých situacích vyžadovány různé úrovně maskování. Různé role a oprávnění mohou například implementovat různá schémata maskování.
Aplikace pro hlášení dat a maskování datových produktů
Takové scénáře zahrnují především interní produkty pro monitorování dat nebo billboardy, datové produkty externích služeb a zprávy založené na analýze dat, jako jsou obchodní zprávy a revize projektu.
3. Řešení pro maskování dat
Mezi běžná schémata maskování dat patří: zneplatnění, náhodná hodnota, nahrazení dat, symetrické šifrování, průměrná hodnota, posun a zaokrouhlení atd.
Zneplatnění: Zneplatnění se týká šifrování, zkrácení nebo skrytí citlivých dat. Toto schéma obvykle nahrazuje skutečná data speciálními symboly (např. *). Operace je jednoduchá, ale uživatelé nemohou znát formát původních dat, což může ovlivnit následné datové aplikace.
Náhodná hodnota: Náhodná hodnota se týká náhodného nahrazení citlivých dat (číslice nahrazují číslice, písmena písmena a znaky znaky). Tento způsob maskování do určité míry zajistí formát citlivých dat a usnadní následnou aplikaci dat. Pro některá smysluplná slova, jako jsou jména lidí a míst, mohou být potřeba maskovací slovníky.
Výměna dat: Nahrazení dat je podobné maskování hodnot null a náhodných hodnot s tím rozdílem, že namísto použití speciálních znaků nebo náhodných hodnot jsou data maskování nahrazena konkrétní hodnotou.
Symetrické šifrování: Symetrické šifrování je speciální metoda reverzibilního maskování. Šifruje citlivá data pomocí šifrovacích klíčů a algoritmů. Formát šifrovaného textu je konzistentní s původními daty v logických pravidlech.
Průměrný: Průměrné schéma se často používá ve statistických scénářích. U numerických dat nejprve vypočítáme jejich průměr a poté náhodně rozmístíme znecitlivěné hodnoty kolem průměru, čímž udržujeme součet dat konstantní.
Offset a zaoblení: Tato metoda mění digitální data náhodným posunem. Offsetové zaokrouhlení zajišťuje přibližnou autenticitu rozsahu při zachování bezpečnosti dat, která se blíží skutečným datům než předchozí schémata a má velký význam ve scénáři analýzy velkých dat.
Doporučený model"ML-NPB-5660“ pro maskování dat
4. Běžně používané techniky maskování dat
(1). Statistické techniky
Vzorkování dat a agregace dat
- Vzorkování dat: Analýza a vyhodnocení původního souboru dat výběrem reprezentativní podmnožiny souboru dat je důležitou metodou ke zlepšení účinnosti technik deidentifikace.
- Agregace dat: Jako soubor statistických technik (jako je sčítání, počítání, průměrování, maximum a minimum) aplikovaných na atributy v mikrodatech je výsledek reprezentativní pro všechny záznamy v původním souboru dat.
(2). Kryptografie
Kryptografie je běžná metoda ke snížení citlivosti nebo zvýšení účinnosti desenzibilizace. Různé typy šifrovacích algoritmů mohou dosáhnout různých desenzibilizačních efektů.
- Deterministické šifrování: Nenáhodné symetrické šifrování. Obvykle zpracovává data ID a v případě potřeby dokáže dešifrovat a obnovit šifrovaný text na původní ID, ale klíč musí být řádně chráněn.
- Nevratné šifrování: Ke zpracování dat se používá hašovací funkce, která se obvykle používá pro ID data. Nelze jej přímo dešifrovat a vztah mapování musí být uložen. Navíc kvůli funkci hashovací funkce může dojít ke kolizi dat.
- Homomorfní šifrování: Používá se homomorfní algoritmus šifrovaného textu. Jeho charakteristikou je, že výsledek operace šifrovaného textu je stejný jako výsledek operace otevřeného textu po dešifrování. Proto se běžně používá ke zpracování číselných polí, ale z výkonnostních důvodů se příliš nepoužívá.
(3). Systémová technologie
Technologie potlačení odstraňuje nebo chrání datové položky, které nesplňují ochranu soukromí, ale nepublikuje je.
- Maskování: odkazuje na nejběžnější desenzibilizační metodu pro maskování hodnoty atributu, jako je číslo oponenta, ID karta je označena hvězdičkou nebo je zkrácena adresa.
- Lokální potlačení: odkazuje na proces mazání specifických hodnot atributů (sloupců), odstranění nepodstatných datových polí;
- Potlačení záznamů: odkazuje na proces mazání konkrétních záznamů (řádků), mazání nepodstatných datových záznamů.
(4). Pseudonymní technologie
Pseudomanning je technika deidentifikace, která používá pseudonym k nahrazení přímého identifikátoru (nebo jiného citlivého identifikátoru). Pseudonymní techniky vytvářejí jedinečné identifikátory pro každý jednotlivý subjekt informací namísto přímých nebo citlivých identifikátorů.
- Může nezávisle generovat náhodné hodnoty, aby odpovídaly původnímu ID, ukládat mapovací tabulku a přísně kontrolovat přístup k mapovací tabulce.
- K vytváření pseudonymů můžete také použít šifrování, ale musíte správně uchovat dešifrovací klíč;
Tato technologie je široce používána v případě velkého počtu nezávislých uživatelů dat, jako je OpenID ve scénáři otevřené platformy, kde různí vývojáři získávají různé Openid pro stejného uživatele.
(5). Generalizační techniky
Technika zobecnění označuje techniku deidentifikace, která snižuje granularitu vybraných atributů v sadě dat a poskytuje obecnější a abstraktnější popis dat. Technologie zobecnění se snadno implementuje a může chránit autenticitu dat na úrovni záznamů. Běžně se používá v datových produktech nebo datových sestavách.
– Zaokrouhlení: zahrnuje výběr základny zaokrouhlení pro vybraný atribut, jako je forenzní analýza směrem nahoru nebo dolů, což dává výsledky 100, 500, 1 000 a 10 000
- Techniky horního a dolního kódování: Nahraďte hodnoty nad (nebo pod) prahovou hodnotou prahovou hodnotou představující horní (nebo spodní) úroveň, čímž získáte výsledek „nad X“ nebo „pod X“
(6). Randomizační techniky
Jako druh techniky deidentifikace se technologie randomizace týká úpravy hodnoty atributu pomocí randomizace tak, aby se hodnota po randomizaci lišila od původní skutečné hodnoty. Tento proces snižuje schopnost útočníka odvodit hodnotu atributu z jiných hodnot atributu ve stejném datovém záznamu, ale ovlivňuje autentičnost výsledných dat, která je běžná u dat z produkčního testu.
Čas odeslání: 27. září 2022