A levenshtein distince augmented anchor-based sentence alignment for English-Turkish translated text
Autor: | Kızılırmak, Emir |
---|---|
Přispěvatelé: | Tüysüz, Mehmet Ali Aksoy, Maltepe Üniversitesi, Fen Bilimleri Enstitüsü, Kızılırmak, Emir |
Jazyk: | turečtina |
Rok vydání: | 2020 |
Předmět: | |
Popis: | Doğal dil işlemi, yapay zekânın ve dil biliminin gelişimiyle son yıllarda önem kazanmıştır. Çeviri şirketlerinin yapmış olduğu, “Türkçe’den İngilizce’ye - İngilizce ’den Türkçe’ye” birebir çevirileri cümlelerin sırasının değişmesi veya rastgele sıralanması sonucunda, cümleleri tekrar düzenlemek için insan gücüne ihtiyaç duyulmaktadır. Doğal dil işleme alanında, cümle hizalama algoritmaları ile ilgili çok sayıda algoritma vardır. Bu tez aşamasında sözlüğe ve cümlelerin kelime konum hizalama tekniklerine dayanarak yeni ve etkili bir yöntem önerdik. Bu yöntem sayesinde insan gücünü azaltmak, cümleleri hızlı ve doğru biçimde hizalamak mümkün olacaktır. Bu tez çalışması cümle hizalama işlemini, sözlüğe dayalı ve Levenshtein Mesafe algoritmasını kullanarak gerçekleştirmektedir. Yapılan algoritma sonrasında bilimsel, teknoloji gibi metinlerde sözlükte bulunmayan ve metin içerisinde kendini tekrarlamayan kelimelerin sayısı arttıkça cümle hizalama başarı oranın arttığı sözlükte bulunan ve kendini tekrarlayan kelime sayısının kitap, roman, hikâye gibi metinlerde ise cümle hizalama başarı oranın düştüğü gözlemlenmiştir. The natural language process has gained importance in recent years with the development of artificial intelligence and linguistics. As a result of the changing or random ordering of sentences made by the translation companies, from Turkish to English & English to Turkish” manpower is needed to rearrange the sentences. In the field of natural language processing, there are many algorithms related to sentence alignment algorithms. In this thesis, we propose a new and effective method based on the vocabulary and word position alignment techniques of sentences. With this method, it will be possible to reduce the manpower and to align sentences quickly and accurately. This thesis is based on dictionary and “Levenshtein Distance” algorithm. After the algorithm, it is observed that sentence alignment success rate decreases with the number of words that are not found in the dictionary such as scientific and technology and the number of words that do not repeat itself in the text increases, and the number of words that repeat itself in books, novels and stories decreases. |
Databáze: | OpenAIRE |
Externí odkaz: |