Intelligent mapping for hotel records representing the same entity

Autor: Yıldız, Olcay Taner, Bayrak, Ahmet Tuğrul, Özbek, Eyüp Erkan, Kestepe, Sedat
Přispěvatelé: Işık Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Işık University, Faculty of Engineering, Department of Computer Engineering, Yıldız, Olcay Taner
Jazyk: turečtina
Rok vydání: 2019
Předmět:
Popis: Otel sayısının her geçen gün arttığı turizm sektöründe, aracı firmaların tüm oteller ile ayrı ayrı çalışma imkanı bulunmadığından, firmalar dünya üzerinde bir çok otelle anlaşması bulunan servis sağlayıcılarıyla beraber çalışmaktadır. Farklı servis sağlayıcılarından alınan otel kayıtlarında tekrarlayan otel verileri olabilmektedir. Tekrarlayan bu kayıtlar aynı bilgilere sahip olabileceği gibi, farklı bilgilere sahip olmasına rağmen aynı oteli temsil edebilmektedir. Otel verilerini tutarlı hale getirmek için aynı oteli temsil eden kayıtlar eşleştirilmelidir. Bu amaçla, otel kayıtları üzerinde çalışılarak, adres zenginleştirmesi ve ön işleme yapılan aday kayıtlar için kategorik ve görsel verilerin benzerliklerinin kullanıldığı makine öğrenmesi algoritmaları uygulanmıştır. Yapılan işlem sonucunda, 132.287 satırlık otel verisinde 14.985 adet otel %99,12 doğruluk oranı ile eşleştirilmiştir. Having the day by day increasing number of hotel entities, dealing with the whole set of hotels individually is almost impossible. Therefore, travel agencies work with online hotel providers which have deals with many hotels around the world. Whereas, working with online providers saves agencies from a big challenge, it degrades the problem of agency to another one: duplicate hotel records from different sources. The repeating records might either have all same set of identical features or features with different values that represent the same hotel. Matching and merging such records need to be applied for a consistent database. In this study, we propose a set of methods which aims to solve the pointed problem. We work on hotel records, applied machine learning algorithms using string and image similarity on records for which address enrichment and pre-processing applied, selecting prior methods as a baseline. Proposed method achieved 99.12% accuracy, matching 14.985 hotels on a 132.287 rows of data. Publisher's Version
Databáze: OpenAIRE