Creating a model for evaluating investment decisions based on sentiment analysis and statistics methods

Autor: Tsopelas, Thomas
Přispěvatelé: Φιλιππάκης, Μιχαήλ, Filippakis, Michael, Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων, Πληροφοριακά Συστήματα και Υπηρεσίες
Jazyk: Greek, Modern (1453-)<br />Greek
Rok vydání: 2022
Předmět:
DOI: 10.26267/unipi_dione/1999
Popis: Η παρούσα διπλωματική εργασία περιέχει μια μελέτη στην ερευνητική περιοχή των Predictive Analytics, κάνοντας χρήση των δυνατοτήτων της γλώσσας Python και των διαθέσιμων βιβλιοθηκών καθώς γίνεται μια προσπάθεια πρόβλεψης της τιμής μιας μετοχής ως χρονοσειρά σε αρχικό χρόνο. Ως προς το περιεχόμενο, αρχικά παρουσιάζονται κάποιες βασικές έννοιες που συνδέονται με τις μετοχές και τις επενδύσεις, όπως είναι η αναμενόμενη απόδοση,efficient market hypothesis, η πραγματική απόδοση μιας επένδυσης, ο κίνδυνος που ενέχει μια επένδυση η ανάλυση φυσικής γλώσσας και συναισθήματος και πώς αυτά τα δύο πεδία έχουν εφαρμογή στην σύγχρονη οικονομία και καθημερινότητα. Γίνεται ανάλυση της έννοιας της χρονοσειράς και των βασικότερων χαρακτηριστικών της σε θεωρητικό επίπεδο, όπως η στασιμότητα, η αυτοσυσχέτιση, η περιοδικότητα. Παρουσιάζονται, επίσης, τα γραμμικά μοντέλα AR(p), MA (q) και ARIMA (p,d,q), τα οποία δύνανται να «προσαρμοστούν» στα δεδομένα μιας στάσιμης χρονοσειράς και να παρέχουν προβλέψεις με μια σχετική ακρίβεια. Τέλος, το θεωρητικό υπόβαθρο των χρονοσειρών και των γραμμικών μοντέλων εφαρμόζεται στην πράξη σε μια μελέτη πραγματικής μετοχής για την περίοδο 17/11/2016 – 16/11/2021. Η έρευνα αφορά τις μετοχές των εταιρειών «Home Depot» η οποίa είναι εισηγμένη στο Αμερικανικό Χρηματιστήριο Dow Jones. Η ανάπτυξη του παγκόσμιου ιστού έχει οδηγήσει στην ραγδαία αύξηση των δεδομένων όπου είναι διαθέσιμα προς επεξεργασία και ανάλυση για την εξαγωγή συμπερασμάτων, για το λόγο αυτό έχουν κατασκευαστεί εργαλεία για την άντληση και επεξεργασία των δεδομένων αυτών. Η ανάλυση της προσωπικής άποψης και πεποίθησης αποτελεί ένα βασικό σημείο όπου μπορεί να πραγματοποιηθεί μέσω των παραπάνω δεδομένων. Στη συνέχεια γίνεται χρήση ενός ήδη εκπαιδευμένου νευρωνικού δίκτυο για την συσχέτιση δημοσιεύσεων έγκυρων οικονομικών πηγών με την πορεία της μετοχής μέσω ανάλυσης φυσικής γλώσσας και στη προσπάθεια εξαγωγής αποτελεσμάτων στον τομέα της ανάλυσης συναισθήματος του οικονομικού site ενημέρωσης finviz,με τη χρήση της τεχνικής ενός διαθέσιμου λεξικού. Για την ανάπτυξη των μοντέλων ανάλυσης χρνοσειρών και ανάλυσης συναισθήματος, χρησιμοποιήθηκε η γλώσσα προγραμματισμού Python, η οποία τα τελευταία χρόνια Οι βασικότερες βιβλιοθήκες που χρησιμοποιήθηκαν είναι οι Pandas, NumPy, Seaborn και Vader, οι οποίες προσφέρουν τις απαραίτητες τεχνικές που απαιτούνται για την παρούσα εργασία.
This thesis contains a study in the research field of Predictive Analytics, making use of the capabilities of the Python language and the available libraries as well as an attempt is made to predict the price of a stock as a time series at an initial stage. Regarding the content, some basic concepts related to the share-prices , financial analysis and investments, such as the expected return, efficient market hypothesis, rate of return of an investment, the risk involved in an investment and natural language process as well as sentiment analysis and how these two fields apply to the modern economy and everyday life. The concept of time series and its main characteristics are analyzed in theoretical level, such as stationarity, autocorrelation, periodicity are presented, also the linear models AR(p), MA (q) and ARIMA (p,d,q), which can "fit" the data of a stationary time series and provide forecasts with a relative accuracy. Finally, the theoretical background of time series and linear models is applied to act in a real share study for the period 17/11/2016 – 16/11/2021. The research concerns the shares of "Home Depot" company which is listed on the American Stock Exchange Dow Jones. The growth of the world wide web has led to the rapid growth of data wherever it is available for processing and analysis in order to draw conclusions, that's why they have build tools for extracting and processing this data. The analysis of personal opinion and belief is a key point where it can be done through the above extracted data. An already trained neural network is then used for correlation publications of authoritative financial sources with the course of the stock through natural language processing and in trying to derive results in the field of sentiment analysis of the financial information site «finviz», using the technique of an already trained dictionary. To develop the time series analysis and sentiment analysis models, the Python programming language was used.
Databáze: OpenAIRE