Identifying GitHub Trends Using Temporal Analysis

Autor: Anderl, Thomas
Jazyk: angličtina
Rok vydání: 2021
Předmět:
DOI: 10.34726/hss.2021.93182
Popis: Durch die COVID-19 Pandemie sowie dem steigenden Interesse an quelloffenen Projekten, gewinnen Versionskontrollsysteme wie Git an zunehmender Popularit��t. Durch diesen Anstieg erh��hte sich auch die Vielfalt und das Ausma�� an Daten auf Plattformen wie GitHub zunehmend, was zu steigendem Interesse f��r Soziologen und Softwareanalyst enf��hrt. Diese Arbeit fokussiert sich auf die Visualisierung von GitHub-Daten mit der Hilfe von Visual Analytics. Die Daten stammen sowohl aus der GitHub API als auch dem GitHub Archive, sind multivariate und enthalten diverse Informationen ��ber Projekte, Nutzer und Ereignisse. Diese Daten werden au��erdem durch die zeitliche Dimension erg��nzt, um potentielle Trends zu entdecken. F��r die Problemdefinition und der Methodik wurde das Design Triangle wie von Miksch et. al beschrieben, herangezogen. Das Ergebnis dieser Arbeit ist ein Prototyp, der es Dom��nen-Experten nicht nur erlaubt typische Aufgaben in Bezug auf GitHub Trends durchzuf��hren, sondern auch visuelle Interaktionsm��glichkeiten bereitstellt, um Fokus auf speziellere Zeitbereiche zu legen. Obwohl sich grunds��tzlich viele Arten von Trends visualisieren lassen k��nnten, fokussiert sich der hier entwickelte Prototyp nur auf eine kleinere Teilmenge von Problemen. Die generelle Zielgruppe liegt hierbei auf Analysten in technologischen Industrien. Der Prototyp wurde durch Dom��nen-Experten mit verschiedenen Schwerpunkten durch eine vordefinierte Liste an Aufgaben evaluiert. Die Ergebnisse der Evaluation zeigen,dass es ein gro��es Interesse in der Analyse von GitHub-Daten gibt und das die Wahl der korrekten visuellen Kodierung und Interaktionsm��glichkeit essentiell f��r das Finden von Trends sein kann.
With the increase of remote work due to COVID-19 and the overall movement towards open source projects, distributed version control system, like Git gained popularity overthe last years. The publicly available data on platforms (e.g., GitHub) therefore becomes richer and attracts sociologists and software analysts for further analysis.This master thesis aims to visualize GitHub trends using Visual Analytics. The data used originates from the GitHub API as well as GitHub Archive, is multivariate and contains different types of information containing repositories, users and events. This data will be extended by the temporal dimension to identify potential trends. For the problem definition and further methodology, the design triangle as described by Mikschet. al is being used.The outcome of the thesis is a prototype, that not only enables domain experts to fulfill common tasks related to identifying GitHub anomalies and trends but also allows foruser interaction to focus on more granular analysis. While many trends can potentially be visualized, this thesis will focus on a small subset of trends to introduce a generic approach and evaluate it on given scenarios and tasks. The general group of potential user groups is broad, but there is a strong emphasis on analysts in technology industries.The prototype was evaluated with domain experts in different fields of expertise that were asked to perform given tasks that can be fulfilled using the developed prototype. The results of the evaluation showed, that there is a strong interest in the analysis of GitHub data and that the right encodings and visualization methods can help find patterns and trends significantly.
Databáze: OpenAIRE