N-Gram based Language Model Development

Autor: Šimunec, Magdalena
Přispěvatelé: Vuković, Marin
Jazyk: chorvatština
Rok vydání: 2019
Předmět:
Popis: Jezični model hrvatskog jezika kod obrade prirodnog jezika temelji se na opsežnoj n-gramskoj bazi koju je za daljnji razvoj i optimizaciju potrebno pretvoriti u prikladniji oblik. Cilj ovog rada je ukratko objasniti osnovne koncepte obrade prirodnog jezika, te predstaviti i opisati programsko rješenje pohrane n-gramskih nizova u usmjerenu bazu podataka. Uz to, opisuju se i operacije pretraživanja i dohvaćanja pohranjenih entiteta i/ili informacija o njima. Inicijalni dobiveni rezultati na bazi od 4410 riječi i 8550 veza između njih pokazuju se obećavajućima. Trajanje operacija je u zadanim okvirima i performanse su zadovoljavajuće, međutim još uvijek ima prostora za daljnji rad i ispitivanje kako bi se pokazalo radi li se o idealnom rješenju. The Croatian language model for natural language processing is based on a comprehensive n-gram base that needs to be converted to more appropriate for for further development and optimization. Thea im of this paper is to briefly explain the basic concepts of natural language processing and to present and describe a software solution for storing n-gram sequence in a directed database. In addition, the operations of searching and retrieving stored entities and/or information about them are also described. The initial results obtained on the basis of 4410 words and 8550 relationships between them prove promising. The duration of operations is within the given limits and the performance is satisfactory, however there is still room for further work and testing to show whether it is an ideal solution.
Databáze: OpenAIRE