Popis: |
В данной статье приводится обзор и анализ современных методов дедупликации информации в базах персональных данных клиентов на основе методов машинного обучения. Предметом исследования являются этапы дедупликации данных, алгоритмы вычисления схожести пар данных, их классификации и обнаружения дубликатов. Исследуется реализация данных алгоритмов с помощью технологий машинного обучения и нейронных сетей. Рассматриваются различные способы их применения; анализируются преимущества и недостатки существующих алгоритмов и нескольких программных решений, созданных на их основе, а также выделяются функции, которые необходимо реализовать в программном обеспечении для возможности эффективной дедупликации данных с помощью рассмотреных методов. |