Semantic Search of Text-based Knowledge Repositories in Business Domains

Autor: Bejuk, Borna
Přispěvatelé: Pintar, Damir
Jazyk: chorvatština
Rok vydání: 2019
Předmět:
Popis: Za izvlačenje korisnih informacija iz velike količine podataka potrebne su sofisticirane metode pretraživanja podataka. U slučaju sustava odgovaranja na upit potrebne su metode obrade upita, dohvaćanja podataka i odabira prikladnog odgovora. Ovaj rad bavi se izvlačenjem rečenice iz baze znanja koja predstavlja odgovor na pitanje upućeno sustavu. Većina rada posvećena je mjerenju semantičke sličnosti između pitanja i potencijalnog odgovora na hrvatskom jeziku. Implementirano je nekoliko tehnika reprezentiranja rečenica vektorom. Rad zaključuje da je običan TF-IDF vektor rečenice i kosinusna sličnost rečenica i dalje najbolja metoda usporedbe rečenica s obzirom na robusnost metode i lakoću korištenja. For large amounts of textual information to be useful, appropriate search methods need to exist. In case of a question-answering system, methods of information retrieval, question processing and question answering are crucial. This thesis deals with non-factoid question answering where the answer is usually a sentence. Therefore, most of the work in the thesis is devoted to question-sentence semantic similarity task tested on Croatian language. Several sentence embedding techniques have been tested with various results. Thesis concludes that plain TF-IDF vectors of sentences combined with cosine similarity is still the preferable option for sentence comparison due to its robustness and ease of use.
Databáze: OpenAIRE