1. Koncept maskování dat
Maskování dat je také známé jako datové maskování. Jedná se o technickou metodu pro konverzi, úpravu nebo zakrytí citlivých údajů, jako je číslo mobilního telefonu, číslo bankovní karty a další informace, pokud jsme stanovili pravidla a zásady maskování. Tato technika se používá především k zabránění přímému použití citlivých údajů v nespolehlivém prostředí.
Princip maskování dat: Maskování dat by mělo zachovat původní charakteristiky dat, obchodní pravidla a relevanci dat, aby se zajistilo, že následný vývoj, testování a analýza dat nebudou maskováním ovlivněny. Zajistěte konzistenci a platnost dat před maskováním i po něm.
2. Klasifikace maskování dat
Maskování dat lze rozdělit na statické maskování dat (SDM) a dynamické maskování dat (DDM).
Statické maskování dat (SDM)Maskování statických dat vyžaduje vytvoření nové databáze neprodukčního prostředí pro izolaci od produkčního prostředí. Citlivá data jsou extrahována z produkční databáze a poté uložena v neprodukční databázi. Tímto způsobem jsou znecitlivělá data izolována od produkčního prostředí, což splňuje obchodní potřeby a zajišťuje bezpečnost produkčních dat.
Dynamické maskování dat (DDM)Obecně se používá v produkčním prostředí k desenzitizaci citlivých dat v reálném čase. Někdy jsou pro čtení stejných citlivých dat v různých situacích vyžadovány různé úrovně maskování. Například různé role a oprávnění mohou implementovat různá schémata maskování.
Aplikace pro maskování datových reportů a datových produktů
Mezi takové scénáře patří zejména interní produkty pro monitorování dat nebo billboardy, externí servisní datové produkty a reporty založené na analýze dat, jako jsou obchodní zprávy a recenze projektů.
3. Řešení pro maskování dat
Mezi běžné schémata maskování dat patří: zneplatnění, náhodná hodnota, nahrazení dat, symetrické šifrování, průměrná hodnota, posun a zaokrouhlování atd.
ZneplatněníInvalidace označuje šifrování, zkrácení nebo skrytí citlivých dat. Toto schéma obvykle nahrazuje skutečná data speciálními symboly (například *). Operace je jednoduchá, ale uživatelé nemohou znát formát původních dat, což může ovlivnit následné datové aplikace.
Náhodná hodnotaNáhodná hodnota označuje náhodné nahrazování citlivých dat (čísla nahrazují číslice, písmena nahrazují písmena a znaky nahrazují znaky). Tato metoda maskování do určité míry zajistí formát citlivých dat a usnadní následné použití dat. Pro některá smysluplná slova, jako jsou jména osob a míst, mohou být potřebné maskovací slovníky.
Nahrazení datNahrazení dat je podobné maskování hodnot null a náhodných hodnot, s tím rozdílem, že místo použití speciálních znaků nebo náhodných hodnot jsou maskovaná data nahrazena konkrétní hodnotou.
Symetrické šifrováníSymetrické šifrování je speciální metoda reverzibilního maskování. Šifruje citlivá data pomocí šifrovacích klíčů a algoritmů. Formát šifrovaného textu je v logických pravidlech konzistentní s původními daty.
PrůměrnýSchéma průměrování se často používá ve statistických scénářích. U numerických dat nejprve vypočítáme jejich průměr a poté náhodně rozdělíme znecitlivělé hodnoty kolem průměru, čímž udržíme součet dat konstantní.
Odsazení a zaokrouhleníTato metoda mění digitální data náhodným posunem. Zaokrouhlení s posunem zajišťuje přibližnou autenticitu rozsahu a zároveň zachovává bezpečnost dat, která jsou blíže skutečným datům než předchozí schémata a mají velký význam ve scénáři analýzy velkých dat.
Doporučený modelML-NPB-5660„pro maskování dat“
4. Běžně používané techniky maskování dat
(1). Statistické techniky
Vzorkování dat a agregace dat
- Vzorkování dat: Analýza a vyhodnocení původního souboru dat výběrem reprezentativní podmnožiny souboru dat je důležitou metodou pro zlepšení účinnosti technik deidentifikace.
- Agregace dat: Výsledek, který je reprezentativní pro všechny záznamy v původní datové sadě, je souborem statistických technik (jako je sumace, počítání, průměrování, maximum a minimum) aplikovaných na atributy v mikrodatech.
(2). Kryptografie
Kryptografie je běžná metoda pro desenzibilizaci nebo zvýšení účinnosti desenzibilizace. Různé typy šifrovacích algoritmů mohou dosáhnout různých desenzibilizačních účinků.
- Deterministické šifrování: Nenáhodné symetrické šifrování. Obvykle zpracovává identifikační data a v případě potřeby dokáže dešifrovat a obnovit šifrovaný text do původního ID, ale klíč musí být řádně chráněn.
- Nevratné šifrování: Hašovací funkce se používá ke zpracování dat, která se obvykle používají pro identifikační data. Nelze ji přímo dešifrovat a je nutné zachovat mapovací vztah. Navíc kvůli vlastnostem hašovací funkce může dojít ke kolizi dat.
- Homomorfní šifrování: Používá se homomorfní algoritmus šifrovaného textu. Jeho charakteristikou je, že výsledek operace se šifrovaným textem je po dešifrování stejný jako výsledek operace s otevřeným textem. Proto se běžně používá ke zpracování číselných polí, ale z důvodů výkonu není příliš rozšířený.
(3). Systémová technologie
Technologie potlačení odstraní nebo zakryje datové položky, které nesplňují požadavky na ochranu soukromí, ale nezveřejňuje je.
- Maskování: označuje nejběžnější metodu desenzibilizace, která maskuje hodnotu atributu, například číslo soupeře, označení průkazu totožnosti hvězdičkou nebo zkrácení adresy.
- Lokální potlačení: označuje proces mazání specifických hodnot atributů (sloupců) a odstraňování nepodstatných datových polí;
- Potlačení záznamů: označuje proces mazání konkrétních záznamů (řádků) a mazání nepodstatných datových záznamů.
(4). Technologie pseudonymů
Pseudomanning je technika deidentifikace, která používá pseudonym k nahrazení přímého identifikátoru (nebo jiného citlivého identifikátoru). Techniky pseudonymů vytvářejí pro každý jednotlivý subjekt informací jedinečné identifikátory namísto přímých nebo citlivých identifikátorů.
- Dokáže nezávisle generovat náhodné hodnoty, které odpovídají původnímu ID, ukládat mapovací tabulku a striktně kontrolovat přístup k mapovací tabulce.
- K vytváření pseudonymů můžete také použít šifrování, ale je nutné správně uchovávat dešifrovací klíč;
Tato technologie se široce používá v případě velkého počtu nezávislých uživatelů dat, jako je například OpenID v otevřeném scénáři platformy, kde různí vývojáři získávají různá OpenID pro stejného uživatele.
(5). Techniky generalizace
Technika generalizace označuje techniku deidentifikace, která snižuje granularitu vybraných atributů v datové sadě a poskytuje obecnější a abstraktnější popis dat. Technologie generalizace se snadno implementuje a může chránit autenticitu dat na úrovni záznamů. Běžně se používá v datových produktech nebo datových sestavách.
- Zaokrouhlování: zahrnuje výběr zaokrouhlovacího základu pro vybraný atribut, například forenzní analýza nahoru nebo dolů, s výsledky 100, 500, 1K a 10K
- Techniky kódování shora a zdola: Nahraďte hodnoty nad (nebo pod) prahovou hodnotou prahovou hodnotou představující horní (nebo dolní) úroveň, čímž získáte výsledek „nad X“ nebo „pod X“.
(6). Techniky randomizace
Technologie randomizace jako druh techniky deidentifikace označuje úpravu hodnoty atributu pomocí randomizace tak, aby se hodnota po randomizaci lišila od původní skutečné hodnoty. Tento proces snižuje schopnost útočníka odvodit hodnotu atributu z hodnot jiných atributů ve stejném datovém záznamu, ale ovlivňuje autenticitu výsledných dat, což je běžné u testovacích dat v produkčním prostředí.
Čas zveřejnění: 27. září 2022