SUPERPIXEL BASED TEXT LINE SEGMENTATION

Autor: Ufuk Özkaya, Ali Demir
Rok vydání: 2019
Předmět:
Zdroj: Volume: 7, Issue: 4 854-868
ISSN: 1308-6693
DOI: 10.21923/jesd.520406
Popis: Satır bölütleme tarihi doküman analizi uygulamalarının en temelaşamalarından birisidir. Satır bölütleme başarısı, daha sonraki doküman analiziyöntemlerinin başarısını doğrudan etkilemektedir. Matbu belgelerde kayıpsız satırbölütleme işlemi kolaylıkla yapılabilmektedir. Ancak, el yazımı belgeler içinsatır bölütleme işlemi metin satırlarının eğik, eğri, dalgalı olması, satırlararası boşlukların darlığı, örtüşen ve temas eden bileşenlerden dolayı hala zorlayıcıbir problemdir. Bu çalışmada, el yazımı dokümanlar için süperpiksel tabanlı yenibir satır bölütleme yöntemi önerilmiştir. Yöntem ardışık satırlarıbölütleyebilen en güvenli sınırın elde edilmesini hedeflemektedir. Önerilenyöntem 853 adet Çince el yazımı doküman imgesi içeren HIT-MW veri seti üzerindeuygulanmıştır. Veri setinin en önemli özelliği eğik, temas eden ve örtüşensatır davranışlarına sahip imgelerden oluşmasıdır. Önerilen yöntem ile % 98.03tespit oranı, % 97.66 tanıma doğruluğu elde edilmiş ve yöntemin başarısı literatürdebulunan diğer yöntemlerle karşılaştırılmıştır. Elde edilen sonuçlar ışığındaönerilen yöntemin el yazımı metinlerde satır bölütleme uygulamalarındakibaşarısı ve potansiyeli ortaya konmuştur.
Text line segmentationis one of the essential stages of historical document analysis applications.The accuracy of text line segmentation affects directly the success offollowing document analysis steps. Forprinted documents, lossless text line segmentation can be done readily. But, forhandwritten documents, unfortunately it is still a challenging problem becauseof the skewed, curved, fluctuated text lines, narrow gaps between the textlines, overlapping and touching components. In this paper, a novel superpixel-basedtext line segmentation method for handwritten documents is proposed. Thismethod aims to extract the most reliable boundary to segment consecutive textlines. This method is implemented HIT-MWdataset containing 853 Chinese handwritten document images. The most importantfeature of this dataset is to be composed of documents having skewed,overlapping and touching text lines. A detectionrate of 98.03% and a recognition accuracy of 97.66% is obtained and theseresults are compared with the ones of existing state of the art methods. Withthese results, segmentation success and potential of our method for handwritingtext line segmentation is pointed out.
Databáze: OpenAIRE