Popis: |
With the advance of the Semantic Web and the Open Linked Data initiatives, a huge quantity of RDF data is available on the Web. The goal is to make this data readable for humans and machines, adopting special formats and connecting them by using International Resource Identifiers (IRIs), which are abstractions of real resources of the world. As more data is published and shared, sensitive information could be also provided. In consequence, the protection of entities of interest (e.g., people, companies) is a real challenge, requiring adequate techniques to avoid the disclosure/production of sensitive information on the Web. Three main aspects are considered to ensure entity protection: (i) Pre- serving information, by identifying and treating the data that can disclose entities (e.g., identifiers, quasi-identifiers); (ii) Identifying the utility of the data to be published (e.g., statistics, testing, research) to adopt an adequate; and (iii) Modeling background knowledge that can be used for adversaries (e.g., number of relationships, a specific relationship, information of a node) to dis- cover sensitive information. Anonymization is one technique for entity protection that has been successfully applied in practice [RGCGP15]. However, studies regarding anonymization in the context of RDF documents, are really limited, showing practical anonymization approaches for simple scenarios as the use of generalization and suppression operations based on hierarchies. Moreover, the complexity of the RDF structure requires a high interaction of the expert user to identify and select the RDF’s elements to be protected (main entities), and the ones related to them (identifiers, quasi-identifiers, sensitive information, and unsensitive information). Additionally, the similarity among entities to discover similar data in other datasets, is compromised by disjoint similarities (e.g., the similarity be- tween float and double is 0 for literal nodes). In literal nodes, datatypes play an important role, since it has been proven in the literature that the presence of datatypes, constraints, and annotations improves the similarity among XML documents (up to 14%). RDF adopts the datatypes from XML Schema, which are defined by the W3C. Thus, in this context, the contributions are summarized as follows: • An analysis of datatypes in the context of RDF matching/integration documents, its limitations and adequate applicability for the Semantic Web; • An extended version of the W3C datatype hierarchy, where a parent-child relationship expresses subsumption (parent subsumes children); • A new similarity measure for datatypes to take into account several aspects related to the new hierarchical relations among compared datatypes such as: distance and depth among datatypes, similar children; • A new inference datatype approach to deduce simple datatypes based on four steps: (i) an analysis of predicate information, (ii) an analysis of lexical space values, (iii) a semantic analysis of the predicate, and (iv) a generalization of Numeric and Binary datatypes; • A method to reduce the complexity of the RDF structure of the data to be published, simplifying the task of analysis, which is performed by the expert user; • A method to suggest disclosure sources to the expert user, based on a node similarity, reducing the task of data classification; and • A protection method, based on a generalization operation, to decrease the relations among resources from different datasets, to preserve the main objectives of integration and combination of the Semantic Web. The different proposals have been tested through experimentation. Experimental results are satisfactory and show an important improvement in the accuracy and high performance for similarity and inference datatype approaches with respect to the existing works. Our protection approach for RDF data overcomes the related work and decreases the expert user interaction.; Avec l’avancée du Web Sémantique et des initiatives Open Linked Data, une grande quantité de documents RDF sont disponibles sur Internet. L’objectif est de rendre ces données lisibles pour les humains et les machines, en adoptant des formats spéciaux et en les connectant à l’aide des IRIs (International Resource Identifier), qui sont des abstractions de ressources réelles du monde. L’augmentation du nombre de données publiées et partagées augmente également le nombre d’informations sensibles diffusées. En conséquence, la confidentialité des entités d’intérêts (personnes, entreprises, etc.) est un véritable défi, nécessitant des techniques spéciales pour assurer la confidentialité et la sécurité adéquate des données disponibles dans un environnement ou` chaque utilisateur a accès à l’information sans aucune restriction (Web). Ensuite, trois aspects principaux sont considérés pour assurer la protection de l’entité: (i) Préserver la confidentialité, en identifiant les données qui peuvent compromettre la confidentialité des entités (par exemple, les identifiants, les quasi-identifiants); (ii) Identifier l’utilité des données publiques pour diverses applications (par exemple, statistiques, tests, recherche); et (iii) Les connaissances antérieures du modèle qui peuvent être utilisées par les pirates informatiques (par exemple, le nombre de relations, une relation spécifique, l’information d’un nœud). L’anonymisation est une technique de protection de la confidentialité qui a été appliquée avec succès dans les bases de données et les graphes. Cependant, les études sur l’anonymisation dans le contexte des documents RDF sont très limitées. Ces études sont les travaux initiaux de protection des individus sur des documents RDF, puisqu’ils montrent les approches pratiques d’anonymisation pour des scénarios simples comme l’utilisation d’opérations de généralisation et d’opérations de suppression basées sur des hiérarchies. Cependant, pour des scénarios complexes, ou` une diversité de données est présentée, les approches d’anonymisations existantes n’assurent pas une confidentialité suffisante. Ainsi, dans ce contexte, nous proposons une approche d’anonymisation, qui analyse les voisins en fonction des connaissances antérieures, centrée sur la confidentialité des entités représentées comme des nœuds dans les documents RDF. Notre approche de l’anonymisation est capable de fournir une meilleure confidentialité, car elle prend en compte la condition de la diversité de l’environnement ainsi que les voisins (nœuds et arêtes) des entités d’intérêts. En outre, un processus d’anonymisation automatique est assuré par l’utilisation d’opérations d’anonymisations associées aux types de données. |