Intelligent mapping for hotel records representing the same entity
Autor: | Yıldız, Olcay Taner, Bayrak, Ahmet Tuğrul, Özbek, Eyüp Erkan, Kestepe, Sedat |
---|---|
Přispěvatelé: | Işık Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Işık University, Faculty of Engineering, Department of Computer Engineering, Yıldız, Olcay Taner |
Jazyk: | turečtina |
Rok vydání: | 2019 |
Předmět: |
Learning (artificial intelligence)
Travel agency Learning algorithms Machine learning algorithms Pre-processing Image similarity Image analysis String similarity Metin benzerliği Near dupli-cate detection Machine learning Information retrieval Records management Hotel mapping Otel eşleştirme Address preprocessing Learning systems Online hotel providers Privacy-preserving record Travel agencies Hotel industry Duplicate hotel records Makine öğrenmesi Hotels Hotel entities Applied machine learning Görsel benzerliği Database systems Mapping Online providers Address enrichment Intelligent mapping Tekrarlayan kayıtların tespiti Algorithms |
Popis: | Otel sayısının her geçen gün arttığı turizm sektöründe, aracı firmaların tüm oteller ile ayrı ayrı çalışma imkanı bulunmadığından, firmalar dünya üzerinde bir çok otelle anlaşması bulunan servis sağlayıcılarıyla beraber çalışmaktadır. Farklı servis sağlayıcılarından alınan otel kayıtlarında tekrarlayan otel verileri olabilmektedir. Tekrarlayan bu kayıtlar aynı bilgilere sahip olabileceği gibi, farklı bilgilere sahip olmasına rağmen aynı oteli temsil edebilmektedir. Otel verilerini tutarlı hale getirmek için aynı oteli temsil eden kayıtlar eşleştirilmelidir. Bu amaçla, otel kayıtları üzerinde çalışılarak, adres zenginleştirmesi ve ön işleme yapılan aday kayıtlar için kategorik ve görsel verilerin benzerliklerinin kullanıldığı makine öğrenmesi algoritmaları uygulanmıştır. Yapılan işlem sonucunda, 132.287 satırlık otel verisinde 14.985 adet otel %99,12 doğruluk oranı ile eşleştirilmiştir. Having the day by day increasing number of hotel entities, dealing with the whole set of hotels individually is almost impossible. Therefore, travel agencies work with online hotel providers which have deals with many hotels around the world. Whereas, working with online providers saves agencies from a big challenge, it degrades the problem of agency to another one: duplicate hotel records from different sources. The repeating records might either have all same set of identical features or features with different values that represent the same hotel. Matching and merging such records need to be applied for a consistent database. In this study, we propose a set of methods which aims to solve the pointed problem. We work on hotel records, applied machine learning algorithms using string and image similarity on records for which address enrichment and pre-processing applied, selecting prior methods as a baseline. Proposed method achieved 99.12% accuracy, matching 14.985 hotels on a 132.287 rows of data. Publisher's Version |
Databáze: | OpenAIRE |
Externí odkaz: |