Syntetyczne zestawów danych może pomóc w ochronie prywatności

Feb 20, 2019

Zostaw wiadomość

Syntetyczne sieci może zwiększyć dostępność niektórych danych nadal chroniąc prywatność indywidualnych i instytucjonalnych, według statystyk Penn State.


"Moje zainteresowanie klucz jest w rozwijaniu metodologii, która umożliwiłaby szerszą udostępnianie poufnych danych w sposób, który może pomóc w Odkrycie naukowe," powiedział Aleksandra Slavkovic, profesor statystyki i associate dziekana dla absolwentów edukacji, Kolegium Eberly Nauka, Penn State. "Jest w stanie udostępniać poufne dane z minimalnym ryzykiem wymierne dla odnajdywania informacji poufnych i nadal zapewniają dokładność i rzetelność, jest celem."


Slavkovic znalazła rozwiązanie tego problemu prywatności danych poprzez interdyscyplinarnej współpracy, zwłaszcza z komputera i socjologów. Jej badań skupia się na różnych danych, w tym danych sieci przechwycić informacje o relacjach między jednostkami, takich jak osoby lub instytucji. Donosiła jej podejścia do zapewnienia sieci syntetycznych, które spełniają pojęcie prywatność różnicową dziś (16 lutego) podczas dorocznego posiedzenia 2019 Amerykańskiego Stowarzyszenia dla rozwoju nauki w Waszyngtonie.


Prywatność różnicową matematycznie udowodnienia gwarantuje w poziomu utraty prywatności osób fizycznych.


Naukowcy mają dostęp do danych zebranych przez innych na ich badania, ale takiego dostępu również może naruszyć prywatność, nawet po usunięciu danych osobowych tzw.


"Mnóstwo danych pomocniczych jest głównym winowajcą," powiedział Slavkovic. "Z metodologiczne i technologicznych osiągnięć zbierania danych i rekordów powiązania, łatwiejszy dostęp do różnych źródeł danych, które może być połączone z dataset w ręku, i finansowania Agencji wymagania dotyczące udostępniania danych, wzrasta ryzyko dla prywatności danych. "Ale znalezienie dobrych rozwiązań do zarządzania utratę prywatności są niezbędne do włączenia dźwięku Odkrycie naukowe."


Publicznie dostępne informacje z próby leków na HIV narkotyków, na przykład wskazuje, kto był w grupie leczonej i kto był w grupie kontrolnej. Grupie będzie zawierać tylko osoby z rozpoznaniem HIV i mimo, że właściciele danych pobieranych danych szczegółowych z tego zestawu danych, pozostaną niektóre informacje identyfikacyjne. Ponieważ tak wiele informacji dziś jest dostępna online w social media i w innych zestawach danych, jest możliwe, aby połączyć kropki i identyfikacji osób, odsłaniając potencjalnie zakażone wirusem HIV.


"Techniki, aby połączyć dwa zestawy danych, powiedzieć rejestrów wyborców i ubezpieczenia zdrowotnego danych, znacznie się poprawiła," powiedział Slavkovic. "W jednym z pierwszych ustaleń, Latanya Sweeney (teraz na Harvardzie) wykazały, że łącząc te typu danych, można zidentyfikować 87 procent osób w spisie ludności z 1990 roku na podstawie ich daty urodzenia, płeć oraz 5-cyfrowy kod pocztowy. Niedawno naukowcy używane tweets i skojarzone metadane Twitter, aby pokazać, że użytkownicy mogą określić z dokładnością 96,7%."


Slavkovic zauważa, że to nie tylko osób lub instytucji, w których dane są zawarte w bazach danych, ale że ludzie spoza bazy danych mogą również cierpieć na naruszenie prywatności, bezpośrednio lub przez stowarzyszenie. Powiązań między dane w zestawie danych i informacji w serwisach społecznościowych może prowadzić do poważnych prywatności pośladkowych — coś takiego stanu HIV lub orientację seksualną może mieć poważne konsekwencje, jeśli ujawnił.


A prywatność jest ważna, zestawów danych zebranych składają się podstawowym źródłem informacji dla naukowców. Obecnie w niektórych przypadkach, gdy dane są wyjątkowo wrażliwe, naukowcy muszą fizycznie przejdź do repozytoriów danych do swoich badań, Dokonywanie badań, trudniejsze i bardziej kosztowne.


Slavkovic jest zainteresowany w sieci danych. Informacje, które pokazują wzajemne powiązania osób lub instytucji — węzły — i połączeń między węzłami. Jej podejście jest utworzenie sieci nieco zmieniony, dublowane zestawów danych z kilku węzłów przeniesiony, połączenia przesunięte lub zmienione krawędzie.


"Celem jest stworzenie nowych sieci, które spełniają rygorystyczne prywatność różnicową i w tym samym czasie przechwytywania większość funkcji statystycznych z oryginalnego sieci," powiedział Slavkovic.


Te syntetyczne zestawów danych mogą być wystarczające dla niektórych badaczy do zaspokojenia ich potrzeb badawczych. Dla innych to wystarczyłoby do testowania ich podejścia i hipoteza przed konieczności przechodzenia do strony magazynu danych. Naukowców może przetestować kod, czy badania odkrywcze i być może podstawowe analizy czekając na pozwolenie na używanie oryginalnych danych w jego witrynie repozytorium.


"Nie możemy sprostać wymaganiom wszystkich analiz statystycznych z tego samego rodzaju zmienionych danych," powiedział Slavkovic. "Niektórzy ludzie będą potrzebować oryginalnych danych, ale inni może przejść długą drogę z syntetycznych danych takich jak syntetyczne sieci."

Wyślij zapytanie