Chránit osobní data a zároveň poskytnou AI dostatek tréninkových dat, může být oříšek

4. 4. 2023

Doba čtení: 9 minut

Autor: Depositphotos

Podniky a vlastníci dat musí zajistit soukromí dat zákazníků a zároveň trénovat své modely strojového učení. Pojďme se naučit jak.

Různá odvětví stále více spoléhají na data a umělou inteligenci při zlepšování procesů a rozhodování. Čelí však značné výzvě při zajištění soukromí kvůli citlivým osobním údajům (PII) ve většině podnikových datových sad. Ochrana osobních údajů není nový problém.

Konvenční IT a datové týmy dotazují data obsahující PII, ale přístup vyžaduje pouze několik vybraných. Přístup s omezením rychlosti, ochrana přístupu na základě rolí a maskování byly široce přijaty pro tradiční aplikace BI pro řízení přístupu k citlivým datům.

Ochrana citlivých dat v moderním kanálu AI/ML má různé požadavky. Vznikající a stále rostoucí třída uživatelů dat se skládá z datových vědců ML a aplikací vyžadujících větší datové sady. Vlastníci dat musejí být velice opatrní, aby zajistili, že strany v jejich životním cyklu AI/Ml získají náležitý přístup k datům, která potřebují, a zároveň maximalizují soukromí těchto PII dat.

Co se dozvíte v článku

Vstupte do nové třídy
Zajištění soukromí a bezpečnosti v moderním životním cyklu ML
Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody
Federované učení
Diferenciální soukromí
Homomorfní šifrování
Syntetická data
- Důvěrné výpočty (confidential computing)
Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII
Výběr správného řešení
Výzva i problém

Vstupte do nové třídy

Vědci zabývající se daty ML potřebují velké množství dat k trénování modelů strojového učení. Poté se trénované modely stanou konzumenty obrovského množství dat, aby získaly přehled, který je základem pro obchodní rozhodnutí. Bez ohledu na to, zda před nebo po modelovém školení, tato nová třída spotřebitelů dat spoléhá na dostupnost velkého množství dat, která poskytují obchodní hodnotu.

Chcete dostávat do mailu týdenní přehled článků z CIO Business Worldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

Na rozdíl od konvenčních uživatelů, kteří potřebují přistupovat pouze k omezenému množství dat, nová třída datových vědců a aplikací ML vyžaduje přístup k celým datovým sadám, aby bylo zajištěno, že jejich modely budou data přesně reprezentovat. A i když jsou použity, nemusí to stačit k tomu, aby zabránily útočníkovi odvodit citlivé informace analýzou zašifrovaných nebo maskovaných datových vzorů.

Nová třída často používá pokročilé techniky, jako je hluboké učení, zpracování přirozeného jazyka a počítačové vidění, aby analyzovala a extrahovala poznatky z dat. Tyto snahy jsou často zpomaleny nebo blokovány, protože čelí citlivým údajům umožňujícím zjištění totožnosti, které jsou zamotané ve velké části datových sad, které vyžadují. Uvádí se, že až 44 % dat je pro organizaci nedostupných. Toto omezení blokuje cestu do zaslíbené země umělé inteligence při vytváření nových a průlomových hodnot, efektivnosti a případů použití.

Nové požadavky vedly ke vzniku technik, jako je diferenciální soukromí, federované učení, syntetická data a homomorfní šifrování, jejichž cílem je chránit PII a zároveň umožnit vědcům a aplikacím ML datům přístup k datům, která potřebují, a jejich analýzu. Na trhu však stále existuje potřeba řešení nasazených v průběhu životního cyklu ML (před a po modelovém tréninku), aby bylo možné chránit PII při přístupu k rozsáhlým datovým sadám – bez drastických změn dnes používané metodiky a hardwaru.

Zajištění soukromí a bezpečnosti v moderním životním cyklu ML

Nový druh spotřebitelů dat ML musí zavést opatření na ochranu soukromí v obou fázích životního cyklu ML: tréninku ML i nasazení (nebo odvození) ML.

Ve fázi tréninku je primárním cílem použít existující příklady k trénování modelu.

Trénovaný model musí provádět přesné předpovědi, například klasifikovat vzorky dat, které neviděl, jako součást trénovací datové sady. Datové vzorky používané pro školení často obsahují citlivé informace (jako PII) v každém datovém záznamu. V takovém případě jsou k ochraně citlivých informací zapotřebí moderní techniky a prvky kontroly na ochranu soukromí.

Ve fázi nasazení ML trénovaný model předpovídá nová data, která model během trénování neviděl; inferenční data. I když je důležité zajistit, aby všechny PII používané k trénování modelu ML byly chráněny a předpovědi modelu neodhalovaly žádné citlivé informace o jednotlivcích, je stejně důležité chránit jakékoli citlivé informace a PII také v rámci vzorků odvozených dat. Odvozování zašifrovaných dat je pro většinu aplikací neúnosně pomalé, a to i s vlastním hardwarem. Proto existuje kritická potřeba životaschopných řešení ochrany soukromí s nízkou režií, která zajistí důvěrnost dat během životního cyklu ML.

Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody

Různá moderní řešení byla vyvinuta pro řešení problémů PII, jako je federované učení, důvěrné výpočty a syntetická data, která nová třída spotřebitelů dat zkoumá pro ochranu soukromí v ML a AI. Každé řešení má však různé úrovně účinnosti a složitosti implementace, tak aby uspokojilo požadavky uživatelů.

Federované učení

Federované učení je technika strojového učení, která umožňuje trénovat na decentralizované datové sadě distribuované na více zařízeních. Namísto odesílání dat na centrální server ke zpracování probíhá školení lokálně na každém zařízení a na centrální server se přenášejí pouze aktualizace modelu.

Omezení: Výzkum provedený v roce 2020 v Institutu elektrotechnických a elektronických inženýrů ukazuje, že útočník by mohl ve federovaném učení odvodit soukromé informace z parametrů modelu. Kromě toho federované učení neřeší fázi odvození, která stále vystavuje data modelu ML během nasazení cloudu nebo okrajových zařízení.

Diferenciální soukromí

Diferenciální soukromí poskytuje rezervy na to, jak moc jeden datový záznam z tréninkové datové sady přispívá k modelu strojového učení. Test členství v záznamech trénovacích dat zajišťuje, že pokud je z datové sady odstraněn jeden datový záznam, výstup by se neměl změnit nad určitou prahovou hodnotu.

Omezení: I když má trénink s diferenciálním soukromím výhody, stále vyžaduje přístup datového vědce k velkým objemům dat ve formátu prostého textu. Navíc v žádném případě neřeší fázi odvození ML.

Homomorfní šifrování

Homomorfní šifrování je typ šifrování, který umožňuje provádět výpočty na datech, která zůstávají zašifrována. Pro moderní uživatele to znamená, že algoritmy strojového učení mohou pracovat s daty, která byla zašifrována, aniž by bylo nutné je nejprve dešifrovat. To může poskytnout větší soukromí a zabezpečení citlivých dat, protože data nemusejí být nikdy odhalena ve formě prostého textu.

Omezení: Homomorfní šifrování je neúnosně nákladné, protože pracuje se zašifrovanými daty spíše než s daty ve formátu prostého textu, což je výpočetně náročné. Homomorfní šifrování často vyžaduje vlastní hardware k optimalizaci výkonu, jehož vývoj a údržba mohou být nákladné. A konečně, datoví vědci používají hluboké neuronové sítě v mnoha doménách, které je často obtížné nebo nemožné implementovat homomorfně šifrovaným způsobem.

Syntetická data

Syntetická data jsou počítačem generovaná data, která napodobují data z reálného světa. Často se používají k trénování modelů strojového učení a ochraně citlivých dat ve zdravotnictví a financích. Syntetická data mohou rychle generovat velké množství dat a obejít rizika ochrany soukromí.

Omezení: I když syntetická data mohou pomoci trénovat prediktivní model, dostatečně pokrývají pouze některé možné podprostory reálných dat. To může mít za následek ztrátu přesnosti a podkopání schopností modelu ve fázi odvození. Také skutečná data musejí být chráněna ve fázi odvození, kterou syntetická data nemohou řešit.

Důvěrné výpočty (confidential computing)

Confidential computing je bezpečnostní přístup, který chrání data během používání. Velké společnosti, včetně Google, Intel, Meta a Microsoft, se připojily ke konsorciu Confidential Computing Consortium, aby propagovaly prostředí Trusted Execution Environments (TEE), založená na hardwaru. Toto řešení izoluje výpočty od těchto hardwarových TEE pro ochranu dat.

Omezení: Důvěrné výpočty vyžadují, aby společnosti vynaložily dodatečné náklady na přesun svých služeb založených na ML na platformy, které vyžadují specializovaný hardware. Toto řešení je také bezrizikové jen částečně. Útok v květnu 2021 shromáždil a poškodil data z TEE, které se spoléhají na technologii Intel SGX.

I když jsou tato řešení užitečná, jejich omezení se projeví při výcviku a nasazení modelů umělé inteligence. Další fáze ochrany osobních údajů musí být odlehčená a musí doplňovat stávající opatření a procesy v oblasti ochrany soukromí a zároveň poskytovat přístup k datovým souborům provázaným s citlivými informacemi.

Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII

Prozkoumali jsme některé moderní přístupy k ochraně osobních údajů a výzvy, kterým nová třída spotřebitelů dat čelí. Existuje akt vyvažování, ve kterém PII nemohou být vystaveny AI, ale spotřebitelé dat musejí použít co možná nejvíce dat, aby vytvořili nové případy použití a hodnotu AI. Většina moderních řešení také řeší ochranu dat během fáze tréninku ML bez životaschopné odpovědi na ochranu reálných dat během nasazení AI.

Zde potřebujeme řešení pro budoucnost, abychom toto vyvažování zvládli. Jedním z takových řešení, které jsem použil, je transformace barevného skla (stained glass transform), která organizacím umožňuje extrahovat poznatky ML z jejich dat a zároveň chránit před únikem citlivých informací. Technologie vyvinutá společností Protopia AI dokáže transformovat jakýkoli typ dat tím, že identifikuje, co modely AI vyžadují, eliminuje zbytečné informace a transformuje data v maximální možné míře při zachování téměř dokonalé přesnosti.

Pro ochranu dat uživatelů při práci na modelech umělé inteligence si podniky mohou zvolit transformaci z barevného skla, aby zvýšily množství svých dat pro trénink a nasazení ML, aby tak dosáhly lepších předpovědí a výsledků a zároveň nemusely mít takové obavy z prozrazení dat.

Ještě důležitější je, že tato technologie také přidává novou vrstvu ochrany během životního cyklu ML – pro trénink a vyvozování. To řeší významnou mezeru, ve které bylo soukromí během fáze odvození ML u většiny moderních řešení ponecháno nevyřešené.

Nejnovější průvodce Gartner AI TriSM pro implementaci Trust, Risk a Security Management v AI upozornil na stejný problém a řešení. TRiSM vede vedoucí analytiky a datové vědce k zajištění spolehlivosti, důvěryhodnosti a zabezpečení umělé inteligence.

Přestože existuje několik řešení pro ochranu citlivých dat, konečným cílem je umožnit podnikům maximálně využít svá data k podpoře umělé inteligence.

Výběr správného řešení

Výběr správných řešení pro ochranu soukromí je nezbytný pro vyřešení vašich problémů v oblasti ML a AI. Každé řešení musíte pečlivě vyhodnotit a vybrat ta, která doplňují či rozšiřují [stávající řešení] nebo jsou samostatná, tak aby splňovala vaše jedinečné požadavky. Syntetická data mohou například vylepšit data z reálného světa a zlepšit výkon vašich modelů umělé inteligence. Syntetická data můžete použít k simulaci vzácných událostí, které může být obtížné zachytit, jako jsou přírodní katastrofy, a rozšířit reálná data, když jsou omezená.

Dalším slibným řešením jsou důvěrné výpočty (confidential computing), které mohou transformovat data před vstupem do důvěryhodného exekučního prostředí. Tato technologie je další bariérou, která minimalizuje útočnou plochu na jiné ose. Řešení zajišťuje, že data v prostém textu nebudou kompromitována, i když dojde k porušení TEE. Vyberte si tedy ta správná řešení na ochranu soukromí, která vyhovují vašim potřebám, a maximalizujte výkon své AI, aniž byste ohrozili soukromí dat.

Výzva i problém

Ochrana citlivých dat není jen technický problém – je to celopodniková výzva. S tím, jak spotřebitelé nových dat rozšiřují své schopnosti AI a ML, je zabezpečení osobních údajů (PII) ještě důležitější. Abychom vytvořili vysoce výkonné modely přinášející poctivou hodnotu, musíme maximalizovat přístup k datům a zároveň je chránit.

Každé řešení na ochranu soukromí musí být pečlivě vyhodnoceno, aby vyřešilo naše nejnaléhavější výzvy AI a ML. Nakonec musíme mít na paměti, že důvěrnost PII není jen o dodržování zákonných povinností, ale také o respektování soukromí a duševní pohody jednotlivců a jejich ochraně.

CIO Business World si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.

Našli jste v článku chybu?

Líbí

Nelíbí

Nimesh Mehta

Témata:

22. 7. Méně akvizicí

Počet i objem transakcí na trhu fúzí a akvizic v České republice v letošním druhém čtvrtletí meziročně klesl. Na území ČR či se zapojením ČR se uskutečnilo 18 transakcí za zhruba 207 milionů eur (5,3 miliardy Kč). Ve stejné období loni to bylo 27 transakcí za 877 milionů eur (cca 22,3 miliardy Kč).
Pro investory jsou aktuálně atraktivní sektory počítačového softwaru, automatizace, digitalizace a robotizace či telekomunikací, zvýšený zájem zůstává o oblast energetiky, zdravotnictví a finančních služeb. Vyplývá to ze statistik poradenské společnosti TPA.
10. 7. O2 pohltilo dalšího konkurenta

O2 Czech Republic a Nordic Telecom Holding podepsaly smlouvu o prodeji stoprocentního podílu v Nordic Telecom Regional. Ta jako součást Nordic Telecomu poskytuje pevné a bezdrátové připojení k internetu více než 100 000 koncovým zákazníkům. Transakce podléhá schválení příslušnými úřady.
Naděje na vstup čtvrtého operátora na český trh se definitivně rozplynula.
10. 7. Zlepšení kvůli pojištění

Podle bezpečnostní studie společnosti Sophos 97 % organizací s kybernetickým pojištěním investovalo do zlepšení své ochrany s cílem pojištění získat, přičemž 76 % z nich to umožnilo se pro pojištění vůbec kvalifikovat, 67 % získat lepší cenu a 30 % zajistit lepší pojistné podmínky.
Průzkum také ukázal, že náklady na obnovu po kybernetických útocích převyšují pojistné krytí. Pouze jedno procento z těch, kteří uplatnili pojistnou událost, uvedlo, že jejich pojišťovna uhradila 100 % nákladů vzniklých při odstraňování následků incidentu. Nejčastějším důvodem, proč pojišťovna neproplatila náklady v plné výši, byl fakt, že celkový účet přesáhl pojistný limit.
9. 7. Seyfor při chuti

Seyfor přidává do svého portfolia hned dvě společnosti poskytující software pro recruitment. Koncem koupil společnost Datacruit a současně získal 38% podíl v Recruitis.io. Obě platformy chce Seyfor nadále rozvíjet a současně také využít jejich synergie s dalšími svými produkty.
Na klíčových pozicích v obou společnostech zůstávají dosavadní majitelé. S rozšířeným portfoliem chce Seyfor pronikat i na další evropské trhy. Společnosti Datacruit i Recruitis.io mají zásadní postavení v oblasti vývoje a poskytování softwaru ATS (Applicant Tracking System) pro recruitment a mezi jejich klienty patří mimo jiné velké nadnárodní společnosti.
8. 7. eDoklady zatím moc nejedou

Technologická společnost Qinshift si nechala zpracovat průzkum veřejného mínění, který zkoumal povědomí a používání digitálního průkazu totožnosti (aplikace eDoklady) mezi obyvateli České republiky. Výsledky průzkumu odhalily, že většina (84,8 %) obyvatel ČR už o možnosti digitálního prokázání totožnosti ví.
Reálně však tuto technologii zatím použilo jen 15,4 % dotázaných. Více, než třetina respondentů uvedla jako hlavní motivaci k budoucímu použití aplikace eDoklady její akceptaci většinou úřadů v ČR.

Sdílet

Vstupte do nové třídy

Zajištění soukromí a bezpečnosti v moderním životním cyklu ML

Šestero nejpřeceňovanějších IT technologií

Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody

Federované učení

Diferenciální soukromí

Homomorfní šifrování

Máme se bát umělé inteligence? Zde je deset důvodů, proč ano

Syntetická data

Důvěrné výpočty (confidential computing)

Nový začátek: Čas resetovat hesla a přehodnotit strategii správy hesel

Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII

Tipy pro vytváření sítí pro IT lídry: Průvodce budováním propojení

Výběr správného řešení

Výzva i problém

Byl pro vás článek přínosný?

Autor článku

Nimesh Mehta

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

22. 7. Méně akvizicí

10. 7. O2 pohltilo dalšího konkurenta

10. 7. Zlepšení kvůli pojištění

9. 7. Seyfor při chuti

8. 7. eDoklady zatím moc nejedou

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Chránit osobní data a zároveň poskytnou AI dostatek tréninkových dat, může být oříšek

Sdílet

Vstupte do nové třídy

Zajištění soukromí a bezpečnosti v moderním životním cyklu ML

Šestero nejpřeceňovanějších IT technologií

Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody

Federované učení

Diferenciální soukromí

Homomorfní šifrování

Máme se bát umělé inteligence? Zde je deset důvodů, proč ano

Syntetická data

Důvěrné výpočty (confidential computing)

Nový začátek: Čas resetovat hesla a přehodnotit strategii správy hesel

Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII

Tipy pro vytváření sítí pro IT lídry: Průvodce budováním propojení

Výběr správného řešení

Výzva i problém

Byl pro vás článek přínosný?

Autor článku

Mohlo by vás zajímat

Kvíz týdne

22. 7. Méně akvizicí

10. 7. O2 pohltilo dalšího konkurenta

10. 7. Zlepšení kvůli pojištění

9. 7. Seyfor při chuti

8. 7. eDoklady zatím moc nejedou

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Dále u nás najdete

Kdo má povinnost vydávat výroční zprávu a co musí obsahovat?

Popálená tvář, zlomená páteř. Elektřina mrzačí i bez doteku drátů

Tesco na jedné straně plasty šetří, na druhé jimi ale plýtvá

Allegro v ČR spouští výdejní boxy, WE|DO se mění na One by Allegro

Frida Kahlo: život plný bolesti a vášně

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Intolerance lepku byla po staletí záhadou. Vysvětlil ji až hladomor

Zmatek u důchodové reformy, stejný termín pro dvě opatření

Průjmů z masa je letos víc než jindy, nakazit se lze i z melounů

Jsou prompty pro AI chatboty autorským dílem?

Sanopz, OÚNZ, MRI. Zkuste kvíz o zkratkách, které souvisí se zdravotnictvím

Oddlužení bude na tři roky. Jaké novinky začnou platit?

Pálení na hrudi může poukazovat na řadu zdravotních problémů

Podcast: Umělá inteligence není jen ta generativní, upozorňuje odborník David Filgas

Chráníme totožnost podatele podnětu, tvrdil úřad

Pořad 168 hodin v České televizi končí

Tajemství úspěšných hackathonů

Test Wi-Fi 7 vs. Wi-Fi 6: Další zvýšení rychlostí

Video: Umělá inteligence hlídá už i třeba kvalitu výroby

Připravte se, už příští rok bude drtivá většina B2B prodeje probíhat digitálně