Hlavní navigace

Chránit osobní data a zároveň poskytnou AI dostatek tréninkových dat, může být oříšek

4. 4. 2023
Doba čtení: 9 minut

Sdílet

 Autor: Depositphotos
Podniky a vlastníci dat musí zajistit soukromí dat zákazníků a zároveň trénovat své modely strojového učení. Pojďme se naučit jak.

Různá odvětví stále více spoléhají na data a umělou inteligenci při zlepšování procesů a rozhodování. Čelí však značné výzvě při zajištění soukromí kvůli citlivým osobním údajům (PII) ve většině podnikových datových sad. Ochrana osobních údajů není nový problém. 

Konvenční IT a datové týmy dotazují data obsahující PII, ale přístup vyžaduje pouze několik vybraných. Přístup s omezením rychlosti, ochrana přístupu na základě rolí a maskování byly široce přijaty pro tradiční aplikace BI pro řízení přístupu k citlivým datům.

Ochrana citlivých dat v moderním kanálu AI/ML má různé požadavky. Vznikající a stále rostoucí třída uživatelů dat se skládá z datových vědců ML a aplikací vyžadujících větší datové sady. Vlastníci dat musejí být velice opatrní, aby zajistili, že strany v jejich životním cyklu AI/Ml získají náležitý přístup k datům, která potřebují, a zároveň maximalizují soukromí těchto PII dat.

Co se dozvíte v článku
  1. Vstupte do nové třídy
  2. Zajištění soukromí a bezpečnosti v moderním životním cyklu ML
  3. Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody
  4. Federované učení
  5. Diferenciální soukromí
  6. Homomorfní šifrování
  7. Syntetická data
  8. Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII
  9. Výběr správného řešení
  10. Výzva i problém

Vstupte do nové třídy

Vědci zabývající se daty ML potřebují velké množství dat k trénování modelů strojového učení. Poté se trénované modely stanou konzumenty obrovského množství dat, aby získaly přehled, který je základem pro obchodní rozhodnutí. Bez ohledu na to, zda před nebo po modelovém školení, tato nová třída spotřebitelů dat spoléhá na dostupnost velkého množství dat, která poskytují obchodní hodnotu.

Chcete dostávat do mailu týdenní přehled článků z CIO Business Worldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

Na rozdíl od konvenčních uživatelů, kteří potřebují přistupovat pouze k omezenému množství dat, nová třída datových vědců a aplikací ML vyžaduje přístup k celým datovým sadám, aby bylo zajištěno, že jejich modely budou data přesně reprezentovat. A i když jsou použity, nemusí to stačit k tomu, aby zabránily útočníkovi odvodit citlivé informace analýzou zašifrovaných nebo maskovaných datových vzorů.

Nová třída často používá pokročilé techniky, jako je hluboké učení, zpracování přirozeného jazyka a počítačové vidění, aby analyzovala a extrahovala poznatky z dat. Tyto snahy jsou často zpomaleny nebo blokovány, protože čelí citlivým údajům umožňujícím zjištění totožnosti, které jsou zamotané ve velké části datových sad, které vyžadují. Uvádí se, že až 44 % dat je pro organizaci nedostupných. Toto omezení blokuje cestu do zaslíbené země umělé inteligence při vytváření nových a průlomových hodnot, efektivnosti a případů použití.

Nové požadavky vedly ke vzniku technik, jako je diferenciální soukromí, federované učení, syntetická data a homomorfní šifrování, jejichž cílem je chránit PII a zároveň umožnit vědcům a aplikacím ML datům přístup k datům, která potřebují, a jejich analýzu. Na trhu však stále existuje potřeba řešení nasazených v průběhu životního cyklu ML (před a po modelovém tréninku), aby bylo možné chránit PII při přístupu k rozsáhlým datovým sadám – bez drastických změn dnes používané metodiky a hardwaru.

Zajištění soukromí a bezpečnosti v moderním životním cyklu ML

Nový druh spotřebitelů dat ML musí zavést opatření na ochranu soukromí v obou fázích životního cyklu ML: tréninku ML i nasazení (nebo odvození) ML.

Šestero nejpřeceňovanějších IT technologií Přečtěte si také:

Šestero nejpřeceňovanějších IT technologií

Ve fázi tréninku je primárním cílem použít existující příklady k trénování modelu.

Trénovaný model musí provádět přesné předpovědi, například klasifikovat vzorky dat, které neviděl, jako součást trénovací datové sady. Datové vzorky používané pro školení často obsahují citlivé informace (jako PII) v každém datovém záznamu. V takovém případě jsou k ochraně citlivých informací zapotřebí moderní techniky a prvky kontroly na ochranu soukromí.

Ve fázi nasazení ML trénovaný model předpovídá nová data, která model během trénování neviděl; inferenční data. I když je důležité zajistit, aby všechny PII používané k trénování modelu ML byly chráněny a předpovědi modelu neodhalovaly žádné citlivé informace o jednotlivcích, je stejně důležité chránit jakékoli citlivé informace a PII také v rámci vzorků odvozených dat. Odvozování zašifrovaných dat je pro většinu aplikací neúnosně pomalé, a to i s vlastním hardwarem. Proto existuje kritická potřeba životaschopných řešení ochrany soukromí s nízkou režií, která zajistí důvěrnost dat během životního cyklu ML.

Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody

Různá moderní řešení byla vyvinuta pro řešení problémů PII, jako je federované učení, důvěrné výpočty a syntetická data, která nová třída spotřebitelů dat zkoumá pro ochranu soukromí v ML a AI. Každé řešení má však různé úrovně účinnosti a složitosti implementace, tak aby uspokojilo požadavky uživatelů.

Federované učení

Federované učení je technika strojového učení, která umožňuje trénovat na decentralizované datové sadě distribuované na více zařízeních. Namísto odesílání dat na centrální server ke zpracování probíhá školení lokálně na každém zařízení a na centrální server se přenášejí pouze aktualizace modelu.

  • Omezení: Výzkum provedený v roce 2020 v Institutu elektrotechnických a elektronických inženýrů ukazuje, že útočník by mohl ve federovaném učení odvodit soukromé informace z parametrů modelu. Kromě toho federované učení neřeší fázi odvození, která stále vystavuje data modelu ML během nasazení cloudu nebo okrajových zařízení.

Diferenciální soukromí

Diferenciální soukromí poskytuje rezervy na to, jak moc jeden datový záznam z tréninkové datové sady přispívá k modelu strojového učení. Test členství v záznamech trénovacích dat zajišťuje, že pokud je z datové sady odstraněn jeden datový záznam, výstup by se neměl změnit nad určitou prahovou hodnotu.

  • Omezení: I když má trénink s diferenciálním soukromím výhody, stále vyžaduje přístup datového vědce k velkým objemům dat ve formátu prostého textu. Navíc v žádném případě neřeší fázi odvození ML.

Homomorfní šifrování

Homomorfní šifrování je typ šifrování, který umožňuje provádět výpočty na datech, která zůstávají zašifrována. Pro moderní uživatele to znamená, že algoritmy strojového učení mohou pracovat s daty, která byla zašifrována, aniž by bylo nutné je nejprve dešifrovat. To může poskytnout větší soukromí a zabezpečení citlivých dat, protože data nemusejí být nikdy odhalena ve formě prostého textu.

Máme se bát umělé inteligence? Zde je deset důvodů, proč ano Přečtěte si také:

Máme se bát umělé inteligence? Zde je deset důvodů, proč ano

  • Omezení: Homomorfní šifrování je neúnosně nákladné, protože pracuje se zašifrovanými daty spíše než s daty ve formátu prostého textu, což je výpočetně náročné. Homomorfní šifrování často vyžaduje vlastní hardware k optimalizaci výkonu, jehož vývoj a údržba mohou být nákladné. A konečně, datoví vědci používají hluboké neuronové sítě v mnoha doménách, které je často obtížné nebo nemožné implementovat homomorfně šifrovaným způsobem.

Syntetická data

Syntetická data jsou počítačem generovaná data, která napodobují data z reálného světa. Často se používají k trénování modelů strojového učení a ochraně citlivých dat ve zdravotnictví a financích. Syntetická data mohou rychle generovat velké množství dat a obejít rizika ochrany soukromí.

  • Omezení: I když syntetická data mohou pomoci trénovat prediktivní model, dostatečně pokrývají pouze některé možné podprostory reálných dat. To může mít za následek ztrátu přesnosti a podkopání schopností modelu ve fázi odvození. Také skutečná data musejí být chráněna ve fázi odvození, kterou syntetická data nemohou řešit.

Důvěrné výpočty (confidential computing)

Confidential computing je bezpečnostní přístup, který chrání data během používání. Velké společnosti, včetně Google, Intel, Meta a Microsoft, se připojily ke konsorciu Confidential Computing Consortium, aby propagovaly prostředí Trusted Execution Environments (TEE), založená na hardwaru. Toto řešení izoluje výpočty od těchto hardwarových TEE pro ochranu dat.

  • Omezení: Důvěrné výpočty vyžadují, aby společnosti vynaložily dodatečné náklady na přesun svých služeb založených na ML na platformy, které vyžadují specializovaný hardware. Toto řešení je také bezrizikové jen částečně. Útok v květnu 2021 shromáždil a poškodil data z TEE, které se spoléhají na technologii Intel SGX.

I když jsou tato řešení užitečná, jejich omezení se projeví při výcviku a nasazení modelů umělé inteligence. Další fáze ochrany osobních údajů musí být odlehčená a musí doplňovat stávající opatření a procesy v oblasti ochrany soukromí a zároveň poskytovat přístup k datovým souborům provázaným s citlivými informacemi.

Nový začátek: Čas resetovat hesla a přehodnotit strategii správy hesel Přečtěte si také:

Nový začátek: Čas resetovat hesla a přehodnotit strategii správy hesel

Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII

Prozkoumali jsme některé moderní přístupy k ochraně osobních údajů a výzvy, kterým nová třída spotřebitelů dat čelí. Existuje akt vyvažování, ve kterém PII nemohou být vystaveny AI, ale spotřebitelé dat musejí použít co možná nejvíce dat, aby vytvořili nové případy použití a hodnotu AI. Většina moderních řešení také řeší ochranu dat během fáze tréninku ML bez životaschopné odpovědi na ochranu reálných dat během nasazení AI.

Zde potřebujeme řešení pro budoucnost, abychom toto vyvažování zvládli. Jedním z takových řešení, které jsem použil, je transformace barevného skla (stained glass transform), která organizacím umožňuje extrahovat poznatky ML z jejich dat a zároveň chránit před únikem citlivých informací. Technologie vyvinutá společností Protopia AI dokáže transformovat jakýkoli typ dat tím, že identifikuje, co modely AI vyžadují, eliminuje zbytečné informace a transformuje data v maximální možné míře při zachování téměř dokonalé přesnosti. 

Pro ochranu dat uživatelů při práci na modelech umělé inteligence si podniky mohou zvolit transformaci z barevného skla, aby zvýšily množství svých dat pro trénink a nasazení ML, aby tak dosáhly lepších předpovědí a výsledků a zároveň nemusely mít takové obavy z prozrazení dat.

Ještě důležitější je, že tato technologie také přidává novou vrstvu ochrany během životního cyklu ML – pro trénink a vyvozování. To řeší významnou mezeru, ve které bylo soukromí během fáze odvození ML u většiny moderních řešení ponecháno nevyřešené.

Nejnovější průvodce Gartner AI TriSM pro implementaci Trust, Risk a Security Management v AI upozornil na stejný problém a řešení. TRiSM vede vedoucí analytiky a datové vědce k zajištění spolehlivosti, důvěryhodnosti a zabezpečení umělé inteligence.

Tipy pro vytváření sítí pro IT lídry: Průvodce budováním propojení Přečtěte si také:

Tipy pro vytváření sítí pro IT lídry: Průvodce budováním propojení

Přestože existuje několik řešení pro ochranu citlivých dat, konečným cílem je umožnit podnikům maximálně využít svá data k podpoře umělé inteligence.

Výběr správného řešení

Výběr správných řešení pro ochranu soukromí je nezbytný pro vyřešení vašich problémů v oblasti ML a AI. Každé řešení musíte pečlivě vyhodnotit a vybrat ta, která doplňují či rozšiřují [stávající řešení] nebo jsou samostatná, tak aby splňovala vaše jedinečné požadavky. Syntetická data mohou například vylepšit data z reálného světa a zlepšit výkon vašich modelů umělé inteligence. Syntetická data můžete použít k simulaci vzácných událostí, které může být obtížné zachytit, jako jsou přírodní katastrofy, a rozšířit reálná data, když jsou omezená.

Dalším slibným řešením jsou důvěrné výpočty (confidential computing), které mohou transformovat data před vstupem do důvěryhodného exekučního prostředí. Tato technologie je další bariérou, která minimalizuje útočnou plochu na jiné ose. Řešení zajišťuje, že data v prostém textu nebudou kompromitována, i když dojde k porušení TEE. Vyberte si tedy ta správná řešení na ochranu soukromí, která vyhovují vašim potřebám, a maximalizujte výkon své AI, aniž byste ohrozili soukromí dat.

podcast

Výzva i problém

Ochrana citlivých dat není jen technický problém – je to celopodniková výzva. S tím, jak spotřebitelé nových dat rozšiřují své schopnosti AI a ML, je zabezpečení osobních údajů (PII) ještě důležitější. Abychom vytvořili vysoce výkonné modely přinášející poctivou hodnotu, musíme maximalizovat přístup k datům a zároveň je chránit. 

Každé řešení na ochranu soukromí musí být pečlivě vyhodnoceno, aby vyřešilo naše nejnaléhavější výzvy AI a ML. Nakonec musíme mít na paměti, že důvěrnost PII není jen o dodržování zákonných povinností, ale také o respektování soukromí a duševní pohody jednotlivců a jejich ochraně.

 

CIO Business World si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.

Byl pro vás článek přínosný?