Semantic Search of Text-based Knowledge Repositories in Business Domains
Autor: | Bejuk, Borna |
---|---|
Přispěvatelé: | Pintar, Damir |
Jazyk: | chorvatština |
Rok vydání: | 2019 |
Předmět: |
obrada prirodnog jezika
obrada pitanja TEHNIČKE ZNANOSTI. Računarstvo dohvaćanje podataka reprezentiranje rečenica nlp question processing question answering TECHNICAL SCIENCES. Computing odgovaranje na upit sentence embedding information retrieval natural language processing non-factoid question answering |
Popis: | Za izvlačenje korisnih informacija iz velike količine podataka potrebne su sofisticirane metode pretraživanja podataka. U slučaju sustava odgovaranja na upit potrebne su metode obrade upita, dohvaćanja podataka i odabira prikladnog odgovora. Ovaj rad bavi se izvlačenjem rečenice iz baze znanja koja predstavlja odgovor na pitanje upućeno sustavu. Većina rada posvećena je mjerenju semantičke sličnosti između pitanja i potencijalnog odgovora na hrvatskom jeziku. Implementirano je nekoliko tehnika reprezentiranja rečenica vektorom. Rad zaključuje da je običan TF-IDF vektor rečenice i kosinusna sličnost rečenica i dalje najbolja metoda usporedbe rečenica s obzirom na robusnost metode i lakoću korištenja. For large amounts of textual information to be useful, appropriate search methods need to exist. In case of a question-answering system, methods of information retrieval, question processing and question answering are crucial. This thesis deals with non-factoid question answering where the answer is usually a sentence. Therefore, most of the work in the thesis is devoted to question-sentence semantic similarity task tested on Croatian language. Several sentence embedding techniques have been tested with various results. Thesis concludes that plain TF-IDF vectors of sentences combined with cosine similarity is still the preferable option for sentence comparison due to its robustness and ease of use. |
Databáze: | OpenAIRE |
Externí odkaz: |