차등적 개인정보보호와 AI: IPU로 건강 정보 더 안전하게 보호하기

조기에 더 신속한 질병 진단, 개인화된 의약품 및 신약 개발은 의료 분야에서 AI의 지대한 활약이 기대되는 분야로, 이를 통해 환자의 예후를 개선하고 생명을 구하며 전 세계 사람들이 더 건강하게 오래 사는 데 기여할 수 있습니다.

이러한 분야에서의 발전은 급속도로 이루어지고 있으며, 이미 많은 영향을 주고 있습니다. 한편으로 이러한 동향으로 인해 AI 모델 훈련에 사용되는 민감한 환자 데이터의 개인정보보호와 보안에 관한 새로운 문제가 초래되고 있습니다. 당연히 대중, 의료전문가와 정부 사이에서도 이러한 문제에 대한 논의가 증가하고 있습니다. 또한 더욱 철저한 데이터 프라이버시 보호를 위해 AI 기법을 개선하는 방법을 연구하는 것 또한 명백히 필요한 상황입니다.

최근 스탠포드대학교 의학대학의 연구자들은 민감한 데이터 보호를 위한 중요한 방법인 차등적 프라이버시 사용에 관한 획기적인 성과를 달성했습니다. 스탠포드 팀은 그래프코어 IPU를 사용하여 차등적 프라이버시로 AI 훈련을 10배 이상 가속화함으로써 널리 사용되기에는 연산적으로 너무 어렵다고 여겨졌던 기법을 현실적인 솔루션으로 변환하는 데 성공했습니다.

프라이버시에 민감하지 않은 훈련 데이터를 사용하여 이 기법의 애플리케이션을 입증한 스탠포드 팀은 이제 그래프코어와 협력하여 해당 기법을 코로나19 흉부 CT 이미지에 적용하여 여전히 전 세계의 사람들에게 크나큰 영향을 미치고 있는 이 바이러스에 관한 새로운 인사이트를 발견하고자 합니다.

의료 AI의 데이터 프라이버시 문제:

AI에서 민감한 개인 데이터를 사용하는 데에는 여러 문제가 따르지만, 가장 중요한 두 가지는 데이터 주권 유지와 개인 식별 방지입니다. 각 문제를 해결하기 위한 다음의 정교한 기술 솔루션은 이번 스탠포드대학교 연구를 통해 더 실용적으로 활용할 수 있게 되었습니다.

연합 학습

세계 각지의 여러 인구를 대변하는 복수의 기관과 의료 공급자가 제공하는 데이터셋을 통해 다량의 다양한 환자 데이터로 훈련된 모델은 더욱 탄탄하고 특정 편향 유형을 나타낼 가능성이 보다 낮아 궁극적으로 더 유용합니다.

표준 머신 러닝 접근법에서는 훈련을 위해 중앙에서 데이터를 수집해야 합니다. 환자 식별 정보를 제거하여 데이터를 익명화하려는 시도를 한 경우에도 이러한 정보를 제3자 연구기관과 단체에 제공하는 행위 자체가 큰 문제로 대두되었습니다. 실제로 환자 데이터가 해당 관할권에서만 보존되도록 규정하는 규제의 요구도 점점 더 거세지고 있습니다.

따라서 익명화된 환자 데이터를 중앙에서 수집할 필요 없이 이러한 데이터로 AI 모델을 훈련할 수 있는 연합 학습이 어느 정도 해답을 제공할 수 있습니다. 연합 학습에서는 개발 중인 모델이 전송되어 로컬에서 데이터를 훈련합니다.

연합 학습은 유용한 기법이지만, 최근 연구에서는 완전히 훈련된 모델에서 데이터를 추론하여 익명의 건강 정보를 재식별함으로써 이러한 정보를 개인과 연결하거나 원본 데이터셋을 복원하는 역량에 관련된 개인정보보호 취약성이 발견되었습니다.

이러한 이유로 연합 학습의 사용 또한 차등적 개인정보보호 활용의 개발에 의존합니다.

차등적 개인정보보호

차등적 개인정보보호는 아무도 모델에서 훈련 데이터를 추론하거나 원본 데이터셋을 복원할 수 없는 방식으로 연합 학습 모델을 훈련하여 민감한 데이터의 보호를 한 단계 더 발전시킵니다.

차등적인 비공개 확률적 기울기 강하(DPSGD)는 개별 훈련 데이터 항목의 경사를 클리핑하고 왜곡하여 익명화된 환자 데이터에 노이즈를 추가합니다. 이렇게 노이즈를 추가함으로써 악의적인 자가 사용된 개별 환자 데이터를 발굴하거나 모델 훈련에 사용된 원본 데이터셋을 복원할 확률을 줄일 수 있습니다.

차등적인 비공개 확률적 기울기 강하(DPSGD)는 민감한 데이터 보호에 명백한 이점을 제공하지만, 지금까지 연구가 부족하며 GPU나 CPU와 같은 전통적인 AI 연산 형태에서 사용하기에는 소모되는 컴퓨터 리소스가 너무 많아 대규모 데이터셋에 활용되지 않았습니다.

스탠포드대학교 의학대학의 컴퓨터 비전 전문 방사선학 연구팀은 팀의 논문인 NanoBatch DPSGD: IPU에서 소규모 배치로 ImageNet의 차등적 비공개 학습 탐구에서 바로 이 분야를 집중 연구했습니다.

DPSGD는 컴퓨터 리소스 요구 수준이 높아 보통 소규모 데이터셋 분석에 활용됩니다. 그러나 스탠포드 팀은 공개된 ImageNet 데이터셋에서 가져온 이미지 130만 장을 사용하여 IPU 시스템에서 최초 분석을 수행할 수 있었습니다. 이 논문에서 ImageNet은 비공개 데이터로 구성된 대규모 이미지 데이터셋 대용으로 사용되었습니다. 이번 연구는 대규모로 차등적 개인정보보호 배포에 따르는 현재의 장벽을 극복하는 데 도움을 줄 수 있습니다.

IPU를 사용한 결과에 대해 자세히 알아보려면 계속 읽어보세요.

그래프코어 IPU로 NanoBatch DPSGD 가속화하기

일반적인 처리 가속화 방법은 마이크로 배치를 사용하여 데이터를 공동 처리하고, 개별 표본 기반 경사 대신 공동 경사를 클리핑하고 왜곡하는 것입니다. 분석 결과에 따르면, 이렇게 하는 경우 훈련을 가속화할 수는 있으나 도출되는 모델의 예측 품질과 개인정보보호 지표가 하락하여 결국 훈련의 목적을 달성할 수 없게 됩니다. 실제로 크기가 1인 마이크로 배치('NanoBatch')를 사용하여 실험을 진행하는 경우 정확도가 가장 높은 것으로 나타났습니다.

stanford figure 1_new

그림 1: 여러 경사 누적 횟수에서 100회의 훈련 에포크 경과 후 분류 정확도.

크기가 1인 마이크로 배칭('NanoBatch')과 크기가 2인 마이크로 배칭을 비교했습니다. 유효 배치 크기는 마이크로 배치 크기와 경사 누적 횟수를 곱한 것입니다. 여러 유효 배치 크기에 동일한 클리핑 및 노이즈 비율을 적용했습니다. 따라서 유효 배치 크기가 같은 입력 항목은 개인정보보호 보장이 동일합니다.

NanoBatch DPSGD가 널리 사용되지 않는 주요한 이유 중 하나는 GPU의 처리율을 대폭 감소시켜 ImageNet에 대해 NanoBatch DPSGD Resnet50을 실행하는 데 며칠 이상이 소요되기 때문입니다.

반면 IPU의 경우 NanoBatch DPSGD가 매우 효율적이어서 GPU에 비해 결과가 8~11배 더 빨리 도출되며, 며칠이 단 몇 시간으로 단축됩니다. IPU는 IPU의 MIMD 아키텍처와 세분화된 병렬 처리로 인해 처리 효율성이 훨씬 더 높으므로, DPSGD에 필요한 추가 작업으로 인해 초래되는 컴퓨터 오버헤드도 50~90%가 아닌 10%로 훨씬 더 낮습니다.

또한 개인정보보호 보호와 NanoBatch DPSGD에는 배치 정규화가 아닌 그룹 정규화를 사용해야 하는데, 이 정규화는 IPU의 경우 신속한 처리가 가능하지만 GPU의 속도는 대폭 지연되는 특성이 있습니다. 최근 그래프코어 연구팀은 새로운 정규화 기법인 프록시 정규화를 도입했습니다. 프록시 정규화는 그룹 정규화의 배치 정규화 속성을 회복하고 실행 효율성을 향상합니다. 이러한 방향성은 향후 탐구해볼 만한 가치가 있습니다.

Stanford Throughput comparison table

표: μBS=1에 대한 여러 하드웨어의 처리율 비교.

GPU에서 DPSGD는 vmap과 TensorFlow Differential Privacy 라이브러리를 사용합니다. 왼쪽: 이전의 칩 생성 방법. 오른쪽: 최근의 칩 생성 방법.

6시간만에 NanoBatch DPSGD에 ImageNet 훈련하기

이러한 기법을 활용하여 IPU-POD₁₆에서 100 에포크만에 ResNet-50이 ImageNet을 훈련할 수 있습니다. 이 경우 소요되는 시간은 GPU에서처럼 며칠이 아니라 단 6시간 가량입니다. 또한 달성한 정확도는 71%로, 공개(non-private) 기준선 대비 5% 낮았습니다. 이는 노이즈 추가 때문에 예상된 결과였으며, 기대치보다는 나았으나 향후 추가적인 연구가 필요한 수준입니다.

또한 차등적 개인정보보호의 경우 엡실론값과 델타값이 보고되는 경우가 많습니다. 이 논문에서 델타 = 10^-6인 경우 엡실론값은 11.4로, 양호한 범위입니다. 연구팀은 더 공격적인 학습률 일정으로 에포크 수를 줄이는 등, 이 값을 줄일 수 있는 몇 가지 아이디어를 제시했습니다.

Stanford Differential privacy results table

표: 여러 총 배치 크기와 구성에서 ImageNet의 차등적 개인정보보호 결과(에포크 100회에서 최종 ε 및 정확도).

기간은 에포크 100회를 훈련하는 데 소요되는 시간을 시간 수로 측정한 값입니다.

이 연구는 의료 및 금융서비스와 같이 민감한 개인 데이터의 보호가 필수적인 분야의 애플리케이션에서 개인정보보호를 개선할 수 있는 중요한 기회를 제시했습니다.

논문 읽기

Check out the code

차등적 개인정보보호와 AI: IPU로 건강 정보 더 안전하게 보호하기