Integritetsbevarande publicering av hälsodata genom hybrida anonymiseringstekniker : En jämförelse

Autor: Bromark, Johanna
Jazyk: angličtina
Rok vydání: 2019
Předmět:
Popis: Data anonymisation is not a trivial task due to the challenge of balancing the trade-off between anonymity and data utility. A fairly new attempt to address this challenge is the development of hybrid anonymisation algorithms a combination of syntactic privacy models, often k-anonymity, and differential privacy. However, the complexity of evaluating the performance of anonymisation algorithms makes it difficult to draw conclusions of their performance in contrast to one another. To be able to use the algorithms in practice it is important to understand the differences between different algorithms and their strength and weaknesses in different settings.This project addressed this by comparing two recently proposed hybrid anonymisation algorithms, MDP and SafePub, to study their applicability on medical datasets. The algorithms were applied on different datasets, among them a medical dataset from the wild. The resulting performance was based on the information loss and disclosure risk for the anonymised datasets. While MDP had less information loss for stronger privacy guarantees, it is less suitable for medical datasets since the datasets are anonymised under the assumption that all attributes in the dataset are independent. SafePub on the other hand, while keeping the attribute dependencies intact, had a substantial information loss for stronger privacy levels. Therefore, which algorithm that is best suitable depends on the dataset characteristics, the required privacy level and the acceptable information loss. It is of course possible that neither of the models are suitable for a specific use case. Also, to conclude a general performance for the algorithms on medical datasets, more tests are needed. Anonymisering av data är komplicerat på grund av utmaningen att balansera den anonyma datans användarbarhet och integritetsnivån. För att försöka förbättra både användbarheten och integriteten av anonymiserade dataset har hybrida anonymiseringsalgoritmer utvecklats - en kombination av syntaktiska modeller, ofta k-anonymisering, och differentiell integritet. Dock gör komplexiteten att evaluera algoritmernas resultat det svårt att dra några slutsatser om hur de står sig jämfört med varandra. Det här examensarbetet jämförde två relativt nyligen publicerade hybrida algorithmer, MDP och SafePub, för att undersöka hur användbara de är för medicinska dataset. Detta gjordes genom att anonymisera olika typer av dataset, bland dessa ett riktigt medicinskt dataset. Algoritmernas prestation baserades på förlorad information och risken att avslöja data. Medan MDP förlorade mindre information för starkare integritetsnivåer, algoritmen anonymiserar attributen i datasetet som självständiga, vilket gör den mindre passande för att använda på medicinska dataset. SafePub, å andra sidan, förlorar mycket information för starkare integritetsnivåer. Om algoritmerna passar beror på datasetets karakteristik, vilken integritets- och sanningsnivå som behövs. Det kan försås vara så att ingen av modellerna är passande för det specifika syftet. Dock, för att kunna dra en slutsats om algoritmernas generella prestanda på medicinsk data, behöver fler test genomföras.
Databáze: OpenAIRE