Popis: |
Metin özetleme, kaynak belgenin ana içeriğini ve genel anlamını koruyarak metnin özet adı verilen daha kısa bir sürüm halinde yapılandırılmasıdır. Çıkarmalı metin özetlemede, cümleler önem düzeylerine göre derecelendirilmekte ve ardından özete dâhil edilmeye değer cümleler belirlenmektedir. Bu tez çalışmasında, çıkarmalı metin özetlemede, cümlelere önem derecesi atamada başlıca etken olan öznitelikler sözdizimsel ve anlamsal olmak üzere incelenmiş ve sözdizimsel ve anlamsal özniteliklerin birlikte kullanımını öneren yeni bir cümle derecelendirme yöntemi geliştirilmiştir. Geliştirilen bu yöntem, insanlar tarafından hazırlanmış hedef özetleri içeren yeni bir veri kümesi üzerinde ve literatürde mevcut olan bir karşılaştırma veri kümesi üzerinde deneysel çalışmalarla değerlendirilmiştir. Ayrıca bu veri kümeleri üzerinde bulanık çıkarsama sistemi, yapay sinir ağı ve bir gözetimsiz metin özetleme yönteminin gerçekleştirimi yapılmış ve ortaya çıkan model özetleri önerilen yöntemden elde edilen özetlerle karşılaştırılmıştır. Değerlendirmelerden elde edilen çıkarmalı özetlerin başarısı incelendiğinde, sözdizimsel ve anlamsal özniteliklerin birlikte kullanımının ayrı ayrı kullanıma göre, kaynak metnin karakteristik özelliklerini yansıtma ve kaynak metni temsil etme kriterleri açısından daha başarılı olduğu görülmüştür. Geliştirilen mimari ile literatürdeki otomatik metin özetleme alanındaki benzer çalışmalar deneysel olarak karşılaştırılmış ve geliştirilen mimarinin otomatik metin özetlemede literatürdeki çalışmalardan daha başarılı olduğu gösterilmiştir. Text summarization is generating a shorter version of a document while preserving its main content and general meaning. In extractive text summarization, the sentences are scored according to their level of importance, and then summary-worthy sentences are determined to be included in the summary. In this thesis study, the features, the main factors in sentence scoring during summarization, have been examined as syntactic and semantic approaches, and a new sentence scoring method has been developed that proposes the joint use of these syntactic and semantic features. This method was evaluated by experimental studies on a new dataset containing human-generated goal summaries, and a benchmark dataset available in the literature. Additionally, a fuzzy system, artificial neural network, and an unsupervised text summarization method were performed on these datasets, and the resulting model summaries were compared with the summaries obtained from the proposed method. Once the success of the resulting summaries obtained from the evaluations was examined, it was concluded that the joint use of syntactic and semantic features was more successful in reflecting the characteristics of the source document and representing it, compared to the individual use of these features. The proposed method has been empirically compared with similar studies in the field of automatic text summarization in the literature, and the results showed that it was more successful than the studies in the literature in automatic text summarization. |