Tam metin bilimsel makalelerden bilgi çıkarımı
Autor: | Nasar, Zara |
---|---|
Přispěvatelé: | Maltepe Üniversitesi, Mühendislik ve Doğa Bilimleri Fakültesi, Nasar, Zara |
Jazyk: | angličtina |
Rok vydání: | 2019 |
Předmět: | |
Popis: | In last few decades, advent of computers and later internet has changed human civilization dramatically. Now we live in the world which is being overloaded with the data and the information. This information overload is posing new challenges to human intellect and hence creating opportunities for innovation. Scientific research is one of key beneficiaries under these new trends. Recently a tremendous increase in scientific publications is observed due to increase in researchers across the globe. This growth in scientific content consequently results in various challenges during determination of underlying key-insights from bulk of scientific articles. Hence, this process of reading and extracting key information nuggets out of multiple research articles has become a quite laborious, time consuming and cumbersome job for researchers. Therefore, a dire need is felt to automatically extract potential information out of immense set of research papers. Hence, in this study, aim is to develop a system that would be able to assist research community during literature review. Existing work in this regard, deals with key-insights extraction from single passage. This study, on the other hand, is focused on extracting key-insights from the full-length scientific articles. Therefore, in order to carry out this study, three major tasks are to be fulfilled. First task deals with the development of annotation guidelines, that describes the precise definitions of key-insights, to be extracted. Second task deals with annotation of complete scientific articles using devised annotation guidelines. Last task is focused on training of various machine learning modes to perform key-insights extraction. Current work applies three widelyused sequence labeling algorithms including Conditional Random Fields, Hidden Markov Models and Maximum Entropy Markov Models. These techniques are applied on self-annotated dataset of Computer Science scientific articles. Results show that a great deal of improvement is required in order to effectively carry out the task of automatic key-insights extraction from full-length scientific articles. Son birkaç on yılda, bilgisayarların ve daha sonra internetin gelişmesi insan medeniyetini çarpıcı biçimde değiştirdi. Şimdi verilerle ve bilgiyle dolu bir dünyada yaşıyoruz. Bu bilgi yüklemesi, insan aklına yeni zorluklar getirmekte ve bu nedenle yenilik(inovasyon) için fırsatlar yaratmaktadır. Bilimsel araştırma, bu yeni eğilimlerden en çok fayda sağlayanlardan biridir. Son zamanlarda, dünya çapındaki araştırmacılardaki artıştan dolayı bilimsel yayınlarda büyük bir artış gözlenmektedir. Sonuç olarak, bilimsel içerikteki bu büyüme, bilimsel makale yığınlarının temelindeki fikirlerin(içgörülerin) belirlenmesinde çeşitli zorluklarla sonuçlanır. Bu nedenle, çok sayıda araştırma makalesinden çıkan kilit bilgileri okuma ve çıkarma işlemi araştırmacılar için oldukça zahmetli, zaman alıcı ve zor bir iş haline gelmiştir. Bu nedenle; potansiyel olarak geniş kapsamlı araştırma makaleleri grubundan önemli bilgileri çıkarmak için bir ihtiyaç duyulmaktadır. Bu çalışmada amaç, araştırma topluluğuna literatür taraması sırasında yardımcı olabilecek bir sistem geliştirmektir. Bu konuda var olan çalışmalar, pasajlardan elde edilen anahtar kavrayışlarla ilgilenir. Öte yandan, bu çalışma, tam kapsamlı bilimsel makalelerden kilit fikirler çıkarmaya odaklanmıştır. Bu nedenle, bu çalışmayı yürütmek için üç ana görev yerine getirilmelidir. İlk görev, çıkarılacak anahtar kavrayışların kesin tanımlarını tanımlayan ek açıklama kılavuzlarının geliştirilmesiyle ilgilidir. İkinci görev, tasarlanmış ek açıklama kılavuzlarını kullanarak tam bilimsel makalelerin ek açıklamalarıyla ilgilenir. Son görev, temel bilgiler çıkarma işlemini gerçekleştirmek için çeşitli makine öğrenme modlarının eğitimi üzerine odaklanmıştır. Mevcut çalışma, Koşullu Rastgele Alanlar, Gizli Markov Modelleri ve Maksimum Entropi Markov Modelleri dahil olmak üzere yaygın olarak kullanılan üç dizi etiketleme algoritmasını uygulamaktadır. Bu teknikler, Bilgisayar Bilimleri bilimsel makalelerinin açıklamalı veri setine uygulanır. Sonuçlar, tam uzunlukta bilimsel makalelerden otomatik olarak konunun önemli başlıklarını çıkarma görevini etkin bir şekilde yerine getirmek için çok fazla iyileştirmenin gerekli olduğunu göstermektedir. |
Databáze: | OpenAIRE |
Externí odkaz: |