SW/정보보호

개인 정보 보호 AI: 개념, 설명, 중요한 이유

얇은생각 2023. 5. 19. 07:30
반응형

AI 솔루션은 이름이나 다른 직접 식별자로 개인을 식별할 수 없이 학습할 수 있는 방식으로 설계되어야 합니다.

예를 들어, 고용주가 AI 시스템을 사용하여 직원 데이터를 분석하고 채용 및 승진에 대한 결정을 내린다고 가정해 보겠습니다. 그런 경우에, 그것은 당신의 인종이나 성별을 그러한 결정을 내리기 위한 기준 특징 중 하나로 사용할 가능성이 있습니다. 사용자가 모르는 사이 또는 동의 없이 이러한 상황이 발생할 경우, 특히 사용자가 사용 방법에 동의하지 않을 경우 회사와 직원 모두에게 법적 영향을 미칠 수 있습니다. 이 문제는 텍스트 검색 용어나 GPS 좌표와 같은 다른 채널을 통한 액세스를 허용하면서 얼굴 및 성별과 같은 특정 유형의 민감한 정보에 대한 액세스를 제한함으로써 적어도 부분적으로 해결되었습니다. 그러나 이러한 솔루션은 항상 개인 정보 보호 문제를 해결하지 못합니다. 이는 개인 정보 보호 문제를 해결하는 방법이 솔루션들은 여전히 모든 개인 정보 보호 문제를 완벽하게 해결하지 못합니다. 

이 문제는 문자 검색 용어나 GPS 좌표와 같은 다른 경로를 통한 접근을 여전히 허용하면서 얼굴이나 성별과 같은 특정 유형의 민감한 정보에 대한 접근을 제한함으로써 적어도 부분적으로 해결되었습니다, 그러나 이러한 솔루션이 모든 개인 정보 보호 문제를 완전히 해결하는 것은 아닙니다. 항상 주변에 방법이 있기 때문입니다. 누군가는 얼굴을 전혀 포함하지 않고 사진을 찍을 수 없습니다.

 

중요한 이유

이제 페이스북이 수년간 업로드된 모든 사진에 얼굴 인식 소프트웨어를 사용할 수 있었다고 상상해 보십시오. 어떤 사용자에게도 허락을 구하지 않고도 수천 명의 얼굴이 포함된 광범위한 데이터베이스를 쉽게 구축할 수 있었습니다. 마찬가지로, 정부 기관이나 기업은 공항이나 검문소에서 이와 같은 AI 시스템을 사용할 수 있습니다. 검색대를 통과할 수 있는 사람에게 허가를 요청하거나 페이스북과 같은 회사가 우리에게 액세스를 요청하는 것을 몇 번이나 보았는지 고려하지 않고도 무엇을 하고 있는지 볼 수 있습니다(그 반대도 마찬가지입니다. 사용자가 데이터를 친구 및 가족과 공유할 수 있는 많은 응용프로그램 때문에 특히 우려됩니다. 이러한 경우 개인 정보를 공유하는 것은 자발적일 수 있지만 중요한 데이터를 기본적으로 공개적으로 사용할 수 있게 하거나 변경하기 전에 사용자의 긍정적인 조치가 필요한 대부분의 앱의 기본 개인 정보 설정으로 인해 외부인의 액세스를 허용합니다(예: 위치 서비스 해제).

 

할 수 있는 것

AI 솔루션은 이름이나 다른 직접 식별자로 개인을 식별할 수 없이 학습할 수 있는 방식으로 설계되어야 합니다. 이것은 머신 러닝 알고리즘이 정확한 예측을 할 수 있도록 하면서 데이터를 익명으로 비공개로 유지하도록 보장하기 때문에 중요합니다. 이런 종류의 인공지능 시스템의 예는 그들의 게놈 서열 데이터를 기반으로 누군가가 미래에 특정 질병에 걸릴지 여부를 예측하는 것입니다. 이 경우, 유전자 구성을 기반으로 개인의 암이나 알츠하이머병 발병 가능성에 대해 예측하기 전에 데이터 세트에서 모든 개인 정보(예: 이름, 종교, 국적 등)를 제거해야 합니다. 이를 통해 연구자들은 누구의 사생활도 침해하지 않고 대규모 인구 집단의 동향을 연구할 수 있습니다. 이러한 유형의 시스템을 "식별 해제"라고 합니다. 즉, 데이터 세트의 개인에 대한 모든 정보가 사용되기 전에 제거됩니다. 이는 연구자 및 식별되지 않은 데이터 세트에 액세스할 수 있는 다른 개인이 정보 내에 표시된 개인 정보를 손상시키지 않고 정보를 분석할 수 있도록 하는 개인 정보 보호 조치입니다. 익명화된 데이터 세트에는 여전히 우편 번호, 생년월일 또는 전화 번호와 같은 간접 식별자가 포함될 수 있으며, 이는 다른 소스(예: 인구 조사 기록)와 연결된 경우 개인을 식별하는 데 사용될 수 있습니다. 예를 들어, 10자리 모바일 번호가 다른 숫자 집합으로 변경될 수 있지만 데이터 집합 전체에서 동일하게 변경됩니다.

 

 

인공지능을 더 개인적이고 안전하게 만들기 위한 접근법

차등 개인 정보 보호

차등 개인 정보 보호는 개인 정보 보호 ML에 널리 사용되는 기술입니다. 차등 개인 정보 보호의 목표는 데이터에 노이즈를 추가하여 데이터 세트의 개별 데이터 포인트의 개인 정보를 보호하는 것입니다. ML 모델의 출력이 크게 영향을 받지 않도록 노이즈가 추가됩니다. 데이터에 신중하게 보정된 양의 노이즈를 추가해야 하므로 개인의 데이터를 식별하기가 어렵습니다. 데이터에 추가되는 노이즈의 양은 엡실론이라는 매개 변수에 의해 결정됩니다. epsilon 값이 높을수록 데이터에 더 많은 노이즈가 추가되고 개인 정보 보호가 강화됩니다.

그러나 노이즈 수가 증가할수록 ML 모델의 정확도는 감소합니다. 따라서 엡실론에 대한 최적의 값을 찾는 것은 개인 정보 보호와 정확도 사이의 균형을 달성하는 데 중요합니다.

 

연합 학습

자연어 처리, 이미지 분류 및 추천 시스템을 포함한 다양한 응용 프로그램이 연합 학습을 사용했습니다. 또한 연합 학습은 데이터 개인 정보 보호가 중요한 상황에서 사용할 수 있으며 데이터를 중앙 위치로 쉽게 전송할 수 없는 상황에서도 사용할 수 있습니다. 예를 들어, 사용자가 중앙 서버와 데이터를 공유하지 않으려는 모바일 장치에서 ML 모델을 교육하는 데 사용할 수 있습니다.

개인 정보 보호 AI: 개념, 설명, 중요한 이유 1

 

동형 암호화

동형 암호화를 통해 시스템은 암호화된 데이터를 해독하지 않고도 암호화된 데이터에 대한 작업을 수행할 수 있습니다. 이 기술을 사용하여 암호화된 데이터에 대한 ML 모델을 교육하여 데이터를 비공개로 유지할 수 있습니다. 동종 암호화는 선형 회귀, 의사 결정 트리 및 신경망을 포함한 다양한 ML 모델에 적용할 수 있습니다. 암호화에는 암호화된 데이터의 암호를 해독하지 않고 수학적 작업을 사용해야 합니다. 이 기술은 의료 기록이나 재무 데이터와 같이 공유할 수 없는 민감한 데이터를 다룰 때 특히 유용합니다. 그러나 동형 암호화는 계산 비용이 많이 들기 때문에 일부 응용 프로그램에서는 실용성이 떨어집니다.

개인 정보 보호 AI: 개념, 설명, 중요한 이유 2

 

 

개인 정보 보호 모델을 구축하는 라이브러리

 

 

결론

개인 정보 보호는 인공지능 분야에서 점점 더 중요한 관심사가 되고 있습니다. 다행히도 개인 정보 보호 모델을 개발하는 데 사용할 수 있는 몇 가지 기술이 있습니다. 차등 개인 정보 보호, 연합 학습 및 동형 암호화는 이러한 기술의 몇 가지 예에 불과합니다. 올바른 접근 방식을 사용하면 개인 정보 보호 문제를 해결하는 동시에 기계 학습 분야에서 계속 발전할 수 있습니다.

개인정보 보호 시스템을 갖추는 것이 왜 필수적인지, 보다 강력하고 발전된 인공지능 시스템을 개발하면서 개인정보를 어떻게 가장 잘 보호할 수 있는지에 대해 더 잘 이해할 수 있기를 바랍니다.

반응형