Doktorandenkolloquium Data and Knowledge Engineering

Im Rahmen dieses Kolloquiums werden aktuelle Forschungsarbeiten von Doktoranden im Bereich Data and Knowledge Engineering (DKE) vorgestellt.
Das Kolloquium findet in der Regel jeweils Donnerstags ab 13:00 s.t. im Wechsel mit dem Forschungskolloquium DKE in Raum G29-301 statt.

Fragen zum Kolloquium richten Sie bitte an  Michael Kotzyba oder Andreas Nürnberger

Aktuelle Vorträge:

26.04.2018 (13:00 Uhr s.t. in Raum G29-335)
Konzeption und Implementierung eines wissensbasierten Systems zur nachhaltigen Entwicklung von Gesundheitssystemen in Westafrika
M.Sc. Wendgounda Francis Ouédraogo (TH Brandenburg, Fachbereich Wirtschaft)

Die Gesundheitssysteme Afrikas werden nicht nur von Ressourcenknappheit und deren asymmetrischer Verteilung geprägt, sondern auch durch weitere Herausforderungen mit enormen Auswirkungen auf die Gesundheitspolitik bezeichnet. Zu einem geht es um das Management medizinischer Informationen. Die ständige Sammlung und Aktualisierung medizinischer Informationen stellen sich als Problematik heraus, denn die Informationen werden immer noch überwiegend auf Papier und in den Bibliotheken zur Verfügung gestellt. Zum anderen stellt die Weiterbildung der Akteure ein weiteres Problem dar. Die Herausforderung hier besteht in der Verfügbarkeit des Wissens in einer Digitalform so aufzubereiten, dass deren Ausbreiten durch massives Eindrängen von mobilen Geräten bis ins tiefste Afrika effizienter wird. Es stellt sich eher die Frage des „Wie“ Softwareanwendungen durch deren Vernetzung zu einer Art von Wissenpool umgewandelt werden und als Treibkraft des Wissenstransfers bei den Akteuren des Gesundheitssystems dienen könnte.

03.05.2018 (13:00 Uhr s.t. in Raum G29-412)
Hidden Markov models for signal decoding in brain-computer-interfaces
Dipl.-Phys. Tim Pfeiffer (Lehrstuhl Medizinische Telematik und Medizintechnik, OvGU (FEIT))

Hidden Markov models (HMM) are widely used for decoding purposes in the field of automated speech recognition (ASR) and their application has shown great success for various different problems. Their beneficial features are also highly promising for decoding of brain signals, which is an essential task in so-called brain-computer-interfaces (BCI). A BCI is a system that provides a way of direct communication between the human brain and a computer. This can be used to grant control over assistive devices (e.g. wheelchairs or prostheses) for patients with severe handicaps without the need for muscle activity. While HMM-based decoders are well investigated in ASR topics, only a small number of studies can be found in the literature that considered using HMMs in the context of brain signal decoding yet. This talk discusses adaptions to the central components of the signal processing chain that need to be considered when applying HMM-based decoding approaches to BCI settings. Central focus will be on strategies to incorporate prior knowledge into the decoding by effective utilization of so-called language models. Exemplary results from a finger movement decoding task are shown to demonstrate the benefit of the routines.

Vergangene Vorträge:

09.11.2017 (16:00 Uhr s.t. in Raum G29-301)
Ein Rahmenmodell für die Einführung und Bewertung sozialer Medien
Peter Gerhard (Festo AG & Co. KG)

Soziale Medien hielten in den letzten Jahren Einzug in Unternehmen. Man spricht in diesem Zusammenhang von Enterprise Social Media (ESM). ESM erlauben es ihren Nutzern, nicht nur Inhalte zu konsumieren, sondern auch selber welche zu erzeugen, und sie fördern die Interaktion und die Vernetzung. Dies ermöglicht Mitarbeitern wiederum, für eine Sache zu werben, Mitstreiter zu gewinnen, sich zu organisieren, gemeinsam Positionen zu erarbeiten, Aktionen zu planen, und schlussendlich organisatorischen Wandel zu initiieren und zu gestalten. In Bezug auf die faktische Nutzung sozialer Medien in Unternehmen ergibt sich jedoch ein geteiltes Bild. Einerseits nimmt deren Nutzung stetig zu, andererseits ist deren Durchdringung nachwievor gering, insbesondere im deutschen Mittelstand. Im Grunde steckt das Verständnis, was soziale Medien innerhalb eines Unternehmens leisten können, sowohl für die Mitarbeiter als auch deren Führungskräfte, noch in den Anfängen. In der vorliegenden Arbeit wird ein Rahmenmodell erarbeitet, das die Leitideen sozialer Medien in eine Organisation integriert und in dem die Akteure handeln. Das Modell besteht aus fünf Teilen: dem Beitrag von ESM zur Organisationsentwicklung (Effizienzsteigerung und Verbesserung des Arbeitslebens), der Ebene, auf der dieser Beitrag erfolgt, dem Prozess zur Einführung und Bewertung von ESM, einer Beschreibung des Kontextes in dem ESM eingesetzt werden und der Rolle der Führungskräfte. Es wird gezeigt, wie das Rahmenmodell auf ein konkretes Unternehmen angewendet werden kann. Daraus leiten sich konkrete Gestaltungsempfehlungen für dessen Anwendung in der betrieblichen Praxis und Hinweise zur Weiterentwicklung von ESM ab. Generell trägt die Arbeit zum besseren Verständnis der Rolle von IT in Organisationen bei.

11.05.2017 (13:00 Uhr s.t. in Raum G29-301)
Kontextbasierte Fusion von Fahrstreifeninformationen unter Betrachtung der Zuverlässigkeit
Tuan T. Nguyen (Volkswagen, Konzernforschung, Automatisches Fahren)

In den letzten Jahren rückt automatisches Fahren in den Fokus zahlreicher Forschungseinrichtungen und Unternehmen. Dabei ist die Fahrstreifenerkennung eine der entscheidenden Aufgaben. In der Literatur wird diese Aufgabe durch den Einsatz einer oder mehrerer Informationsquellen realisiert, z.B.: optische Fahrbahnmarkierungserkennung mittels Kamerasensoren, Trajktorie des Vorderfahrzeugs, digitale Karte, etc. Diese Quellen unterscheiden sich in ihrer Performanz in Abhängigkeit von  Fahrbahn- bzw. Umfeldbedingungen. Die Markierungserkennung mittels Kameras funktioniert gut auf Autobahnen und Landstraßen. Allerdings sinkt ihre Performanz in urban Szenarien, wo häufig lediglich Asphaltübergänge oder Bordsteine die Fahrbahn begrenzen. In solchen Fällen besteht die Alternative darin dem Vorderfahrzeug zu folgen. Viele vorhandene Arbeiten setzen bei der Fusion unterschiedlicher Informationsquellen auf die Annahme, dass die Quellen immer  die gleiche Performanz besitzen und somit gleichermaßen zuverlässig sind. Jedoch zeigen die obigen Beispiele, dass die Performanz der Informationsquellen auch  von vielen Faktoren abhängen, wie z. B.: Standort, Wetter, usw. Daher erfordert  automatisches Fahren in allen Szenarien eine explizite korrekte Zuverlässigkeitsschätzung der  Informationsquellen. Dies kann durch die Integration einer Zuverlässigkeitsschätzung bei der Fusion  erreicht werden. Die vorliegende Arbeit präsentiert einen Ansatz zum Definieren, Messen, Lernen und Integrieren von Zuverlässigkeit in die Fahrbahnschätzung, indem sie

  • den Begriff Zuverlässigkeit einer Fahrstreifen-Hypothese definiert
  • zeigt, wie  die Zuverlässigkeit anhand  Ground-Truth-Daten gemessen werden kann
  • zeigt, dass die Zuverlässigkeit einer Hypothese signifikant vom Kontext abhängig ist
  • zeigt, welche Kontext- und Sensordaten signifikant beim Bestimmen der Zuverlässigkeit sind
  • präsentiert ein Verfahren, welches aus signifikanten Kontext- und Sensordaten die Zuverlässigkeit schätzt.
  • einen Performance Begriff für Fusionsalgorithmen definiert
  • nachweist, dass kontextbasierte Schätzung der Zuverlässigkeit die Performance bestehender Algorithmen (in allen Szenarien) signifikant verbessert und dabei keine signifikante Verschlechterung (z.B. durch neue systemematische Fehler) erzeugt.

Das Ziel dieser Arbeit besteht darin, für die Querregelung beim automatischen Fahren immer die zuverlässigen Ego-Lane-Hypothesen zu fusionieren.

13.04.17 (13:00 Uhr s.t. in Raum G29-301)
Visual Analytics in Participatory Processes
M.Sc. Lars Schütz (Hochschule Anhalt)

Today, e-participation in the domain of planning and decision processes attracts more and more attention. The growing number of participants and the use of ICT lead to several key challenges. First, the processes contain complex data in terms of diversity and connectedness, e. g., natural language text, images, geospatial and time-oriented data, that might additionally relate to each other in form of ideas, comments, formal statements, or documents. A network of explicit and implicit information containing all contributions evolves. Second, the exploration of the process data is time-consuming and affords high cognitive demands. It is challenging to get the overall context and view. Third, knowledge discovery is currently based on manual analysis only. Implicit information, e. g., similar or contrary contributions, remain hidden. Automated data analysis and (information) visualization can provide a more comprehensive approach. The goal of the intended thesis is not to solely examine these fields individually, but rather tightly combine them while focusing on interaction. I. e., visual analytics methods are applied to the e-participation domain. We investigate methods for the analysis of contributions, the moderation of processes, and the exploration of the involved data. This research is supported by additional questions. For example, how can interactively triggered model updates be computed in real time in order to provide instant feedback and how can these changes be visualized? Several prototypes will be implemented and evaluated in a Web-based context to illustrate that the targeted groups of participants, namely public administrations and citizens, can accomplish their tasks more efficiently.

26.01.17 (13:00 Uhr s.t. in Raum G29-301)
Training Visual Concept Classifiers
M.Sc. Christian Hentschel (Hasso Plattner Institute for Software Systems Engineering)

Visual Concept Detection describes the process of automatically classifying images and video based on the depicted visual content. This talk will start by comparing different approaches for visual concept detection, namely Bag-of-Visual-Words and Deep Convolutional Neural Networks (CNN). Bag-of-Visual-Words methods represented the de facto standard until CNNs emerged, backed by highly parallel hardware as well as large training datasets. The talk will present the impact of the available amount of training data on the classification performance as achieved by the individual approaches. Furthermore, techniques for model visualization will be presented. Non-linear models suffer from the lack of interpretability. The presented visualization methods help to qualitatively compare visual concept models by highlighting image regions considered important for the final classification decision. Finally, the talk will address the problem of leveraging social photo communities in order to increase the amount of available training data without additional manual labeling efforts. A social community language model will be presented as well as an outlook for multi-modal retrieval.

30.06.16 (13:00 in Raum G29-128)
Automatische Ableitung von Balanced Scorecards aus Textkorpora
Henner Graubitz

Unternehmen weltweit werden derzeit mit dem Zeitalter der Digitalisierung konfrontiert. Schlüsselfaktoren wie Gewinne oder Bilanzkennzahlen sind nicht mehr zwingend entscheidend für die erfolgreiche Zukunft eines Unternehmens. Die weltweit am höchsten bewerteten Unternehmen zeichnen sich dadurch aus, dass sie über flache Hierarchien verfügen, bei denen Mitarbeiter mehr Vertrauen geschenkt wird und in denen sie eigenverantwortlich arbeiten und transparente Entscheidungen treffen können. Eine Transparenz wird dadurch erreicht, indem Dokumente, die für alle interessant sein können, weitergeschickt oder unternehmensintern - für alle Mitarbeiter eines Unternehmens einsehbar - abgelegt werden. Einer Idee kann digital ein Freiraum verschafft werden. Information Retrieval, Methoden aus dem Bereich des Natural Language Processings (NLP) und Data-Mining können helfen, diese unstrukturierten Informationen zu aggregieren und aus ihnen Erkenntnisse über das Unternehmen abseits bisheriger Kennzahlen zu erlangen, um für die wachsende digitale Zukunft vorbereitet zu sein. Eine große Herausforderung stellt die Breite der unstrukturierten Informationen innerhalb eines Unternehmens dar. Dieser Vortrag zeigt die Herausforderung und schlägt verschiedene Methoden aus den oben genannten Bereichen vor. Es wird ein Ansatz präsentiert, wie unstrukturierte Texten in handhabbare Fragmente unterteilt werden können. Die Vernetzung der einzelnen Mitarbeiter im Unternehmen wird durch Algorithmen aufgedeckt, in dem vorab Namensentitäten durch die Abgleichung mit häufig vorkommenden Mustern erkannt werden. Hinzu kommt die Anwendungen von klassischen Methoden zur Erkennung von Namensdubletten und Wortstammformen, um alle Informationen zu aggregieren und aus ihnen Informationen zu extrahieren. Ebenso werden aus den einzelnen Klassen durch Methoden der Textzusammenfassung Strategien abgeleitet. Als Ergebnis präsentiert dieser Vortrag neue Sichtweisen und Strategien des Unternehmens abseits üblicher Finanzkennzahlen, die in einer Balanced Scorecard (BSC) Verwendung finden.

03.05.16 (13:00 in Raum G29-301)
Role-based Data Management
Tobias Jäkel, TU Dresden, GRK 1907 RoSI

Softwaresysteme sind allgegenwärtig und aus dem heutigen Leben, in dem jeder mit allem und überall verbunden ist, nicht mehr wegzudenken. Zusätzlich werden diese Systeme ständig erweitert indem neue Funktionalitäten hinzukommen und die Systeme in sich ständig ändernden Umgebungen agieren. Die daraus resultierenden Herausforderungen an moderne Softwaresysteme, wie zum Beispiel kontextabhängiges Verhalten von Objekten, die sowohl zur Entwicklungs- als auch zur Laufzeit entstehen, können durch das Rollenkonzept bewältigt werden. Dies hat dazu geführt, dass Rollen heute zur Modellierung und zur Implementierung komplexer und kontextabhängiger Softwaresysteme genutzt werden. Die Datenbanken, als essentieller Teil solcher Systeme, werden dabei oft vernachlässigt, was darin endet, dass die Rollensemantiken nicht direkt im Datenbanksystem repräsentiert werden können. Eine indirekte Abbildung bringt jedoch Nachteile mit sich, wie zum Beispiel einen erhöhten Transformationsaufwand oder den Verlust der kontextabhängigen Informationen.

Um diese Probleme und Herausforderungen aus Perspektive eines Datenbankmanagementsystems zu bewältigen, wird das RSQL-Framework vorgestellt, ein dreiteiligen Ansatz bestehend aus Datenmodell, Anfragesprache und Ergebnisrepräsentation. Das Datenmodell ist dabei die Grundlage und definiert die Rollensemantik im Datenbanksystem. Zum einen werden auf Schemaebene Dynamische Datentypen zur Darstellung der kontextabhängigen Informationen eingeführt und zum anderen bilden Dynamische Tupel diese Informationen auf Instanzebene ab. Die Anfragesprache stellt eine auf dem definierten Datenmodell basierende externe Schnittstelle für Benutzer und Anwendungen dar. Daher ist sie auf die Definition von Dynamischen Datentypen bzw. die Manipulation der Dynamischen Tupel ausgelegt. Der dritte Bestandteil sichert die Rollensemantik in den Anfrageergebnissen und wird als Netz verbundener Dynamischer Tupel dargestellt. Weiterhin werden verschiedene Pfade für die Navigation innerhalb dieses Netzes bereitgestellt und erläutert.

28.04.16 (13:15 in Raum G29-301)
Dynamic Clustering in Social Networks
Pascal Held  (FIN, IWS)

In den letzten Jahren haben soziale Netze immer mehr Einfluss auf unser Leben bekommen. Spätestens seit dem Aufkommen von Facebook, Twitter oder anderer großer Plattformen steigt die Beliebtheit solcher Netze. Dieses gesteigerte Interesse zeigt sich auch in der Wissenschaft und der Analyse dieser Netze. Dabei bezieht sich Social Network Analysis (SNA) nicht nur auf die offensichtlichen Netzwerke großer sozialer Plattformen, sondern auch auf soziale Netze die im verborgenen liegen. Dies kann z.B. die Analyse eines Kommunikationsnetzwerkes, ein Co-Autoren Netzwerk oder ein Strukturnetzwerk von Websites sein. Auch im menschlichen Körper finden sich Netzwerke die ähnliche Eigenschaften besitzen, wie beispielsweise in Protein-Protein-Interaktionen oder in Wechselbeziehungen zwischen einzelnen Hirnregionen. Social Network Analysis ist mittlerweile ein eigenes Forschungsgebiet mit verschiedensten Forschungsrichtungen, nicht nur in der Informatik, sondern auch in anderen Disziplinen. Dazu gehören zum Beispiel die Analyse sozialer Beziehungen, der Status einzelner Teilnehmer in der Gruppe oder Dichteuntersuchungen verschiedener Teilgraphen. Ein weiterer Schwerpunkt liegt im Finden von zusammengehörigen Gruppen innerhalb der Netze. Diese nennen sich auch Cluster oder Communities. Bei vielen Arbeiten wird davon ausgegangen, dass die vorliegenden Netzwerke statisch sind, bzw. werden auf statischen Momentaufnahmen die Analysen durchgeführt und für verschiedene Zeitpunkte verglichen. Der Fokus meiner Forschungsarbeit liegt auf der Cluster- bzw. Community Analyse für dynamische Netzwerke. Bei Änderungen im zu Grunde liegenden Netzwerk, sollen dynamisch die gefundene Cluster- und Community-Struktur aktualisiert werden. Dazu werde ich auf Arbeiten aus dem statischen Fall aufbauen und Methoden adaptieren, bzw. neue entwickeln, die eben diese Möglichkeiten bieten.

10.03.16 (13:15 in Raum G29-301)
Feature Improvement and Matching Refinement for Near and Semi Duplicate Image Retrieval in Large Collection (Thesis Proposal)
Afraa Ahmad Alyosef  (FIN, ITI)

Image near-duplicate retrieval is very challenging field to detect the similar images, to overcome the problems such as infringement copyright of images, forged images, obtain altering version of existent images and use them as not related images. Furthermore, images for a site taken hours (days or even month) apart may be no identical because of the movement or occlusion of objects of foreground or because of the changes in the lightness of the site between day and night. Moreover, the change in camera parameters, photometric conditions (lighting condition), change in contrast, resolution or use different cameras to take images for the same scene, make the task of determine similar images more complex. In this thesis, we aim to improve near-duplicate image retrieval in the case of being the query image sub-image of one of the database images. This sub-images may be an exact cut part of the original scene or a zoom-in image, it can be taken form different viewpoint, different lightness conditions or even different camera. These different kinds of variation that may be applied on the sub-image make the retrieval task more complex. From this point of view it is important to answer the following questions:
- What is size of the sub-image that can be still considered as a near-duplicate image.
- What are changes types that make it difficult to detect near-duplicate images.

11.02.16 (13:15 in Raum G29-301)
Clinical decision support system based on Bayesian networks to support interdisciplinary tumor board decisions
Mario Cypko (Universität Leipzig, Innovation Center Computer Assisted Surgery)

The Innovation Center for Computer-assisted surgery (ICCAS) is a research initiative funded by the Federal Ministry for Education and Research in Germany. It was founded in 2005 as a central facility at the University of Leipzig. It is a place of research for surgeons from various disciplines as well as engineers and computer scientists, who collaborate on the development of state-of-the-art technologies for clinical assistant systems and the operating room of the future. The increasing understanding of the complexity of oncological diseases and the dramatic growth of available patient information allow, in principle, for a highly individualized treatment of patients. At the same time, however, optimal treatment decisions are becoming more difficult to make. Clinical decision support systems based on patient-specific Bayesian networks can help to overview the entire patient situation and find the best treatment decisions. Cypko will highlight aspects of decision making in tumor boards, and also present the complexity developing clinical decision support system and its integration into tumor boards.

17.12.15 (13:15 in Raum G29-128)
Ein neuer Ansatz zur Touchgestenerkennung zur Unterscheidung von durch Beispielen definierten Gesten mit unterschiedlichen zeitlichen Dynamiken (Thesis Proposal)
Tim Dittmar (FIN, ISG)

Touchbasierte mobile Geräte wie Smartphones und Tablets haben in den letzten Jahren eine enorme Verbreitung erfahren und sind daher heutzutage nahezu überall anzufinden. Auch der Zugriff auf passwortgeschützte Onlinedienste erfolgt oft über solche Geräte und das Touchinterface. Die Eingabe sicherer Passwörter über eine virtuelle Tastatur ist jedoch im Vergleich zu einer physikalischen wesentlich aufwändiger und nimmt mehr Zeit in Anspruch. Als komfortablere Alternative könnten an dieser Stelle Gestenpasswörter eingesetzt werden. Die Idee Touchgesten zur Authentifizierung zu nutzen gibt es in einer sehr einfachen Form bereits auf Android-Geräten (Patternlock), wurde aber auch in wissenschaftlichen Papern etwas genauer betrachtet. Jedoch wurde vor allem versucht die Form der Geste zu erkennen. Die Betrachtung der Geschwindigkeiten während der Ausführung fand bisher nie statt, würde aber die Sicherheit des Konzeptes der Gestenauthentifizierung erhöhen. Es gibt bisher jedoch kein spezialisiertes Verfahren, welches durch Beispiele Touchgesten definieren kann, bei denen auch die Geschwindigkeiten während der Ausführung relevant sind. Für viele Gestenerkennungsaufgaben bei denen Gesten durch Beispiele definiert werden, finden Hidden Markov Modelle Verwendung und eine Erweiterung dieser Modellklasse stellen die sogenannten Conversive Hidden-non Markovian Modelle (CHnMM) dar. Diese ermöglichen eine viel konkretere Definition von zeitlichen Verläufen und erscheinen damit deutlich geeigneter, um Gesten auch anhand des zeitlichen Verlaufs zu unterscheiden. Das Ziel dieser Arbeit ist es, ein Verfahren zur automatischen Erstellung von CHnMM basierten Gestenmodellen anhand von Beispielen zu entwickeln, um so die Erkennung von Touchgesten mit unterschiedlichen Ausführungsgeschwindigkeiten zu ermöglichen. Zur Evaluierung des Verfahrens wird außerdem ein Gestenerkennungssystem implementiert, so dass Maße zur Erkennungsqualität (Precision, Recall) und -geschwindigkeit erhoben werden können.

22.10.15 (13:00 in Raum G29-301)
Infrastructure for Research Data Publication in the Frame of High-Throughput Plant Phenotyping
Daniel Arend (Leibniz Institute of Plant Genetics and Crop Plant Research)

Life sciences have become one of the most data-intense disciplines and a major player in the “big data” age. High-throughput technologies became affordable and produce a huge amount of research data, which are the basis for nearly every bioinformatics analysis pipeline. But there is a huge gap of standards and policies for their maintenance, life cycle and citation. Furthermore, there are a many less interacting domain-specific archives, like the databases, maintained by the European Bioinformatics Institute (EBI), but also several general data sharing services like figshare. Research institutes use no or private policies, which define how to describe research data with metadata or how to preserved them. Therefore the reproducibility and the long-term preservation of research data depend strongly on the scientists, project bodies or the journal to which they want to publish their results. In the scientific life cycle research data pass through different domains and thereby the scientists are often faced with the problem of insufficient infrastructures, which guarantee a persistent preservation and support them during their work, as well as missing benefits for making their research data available. Focus of this thesis will be the development of a general applicable framework and a concept for research data management. A comprehensive requirement analysis will give a review to current strategies, established systems, and their pro and cons. Based on a use case in the field of plant phenotyping, a workflow for data publication, the long term preservation of research data and its citation is under investigation. The conceptual work and the implementation of a necessary infrastructure will make in the frame of the running 5 year DPPN research project, which is a big international project with the aim to develop an infrastructure and standards for the storage and analysis of high-throughput plant phenotyping experiments. The developed framework is a main component to realize a future-proof storage and sustainable citation using persistent identifiers, like the popular Digital Object Identifier (DOI).

21.07.15 (14:00 in Raum G29-E036)
Creating Learning Material from Web Resources
Katrin Krieger (FIN, IWS)

Technology-enhanced learning (TEL), especially Web-based learning, has become a fundamental part in education over the last decades. E-Learning platforms provide access to electronic learning material, accompany in-class lectures in blended learning scenarios or offer assessment facilities for formal and informal testing. Whole courses are held online, whether as qualification training, school education in sparsely populated areas or as courses dealing with special topics, letting remotely located experts teach students all over the world. TEL has torn down barriers in time and space, enabling students to learn where and whenever they want. We observed that learners use general Web resources as learning material. In order to overcome problems such as distraction and abandonment of a given learning task, we want to integrate these Web resources into Web-based learning systems and make them available as learning material within the learning context. We present an approach to generating learning material from Web resources that extracts a semantic fingerprint for these resources, obtains educational objectives, and publishes the learning material as Linked Data.

04.06.2015 (13:15 in Raum 301)
A FRAMEWORK FOR INTELLIGENT DECISION SUPPORT SYSTEM FOR ONSHORE DRILLING RIG SELECTION
Opeyemi Bello (Institute of Petroleum Engineering, Clausthal University of Technology, Germany)

Today, making a choice of drilling rig equipment during the well planning phase of E&P wells could be very challenging task; this is mainly caused by the existing multiple drilling rig manufacturers in the market that meets  the operational conditions but not in accordance most operators design specifications. The conventional approach for the selection of appropriate drill rig for onshore operational activities is based on method of exclusion associated with engineering experience and lithology of the field to be developed serving as key drive factors. A poorly selected drill rig could add up unnecessary operation cost.
The objective of this study is to develop an unconventional approach for the selection of drill rig using data mining and machine learning techniques. An Intelligent decision support system will be developed guiding well designers and E&P operators in making decision to select appropriate drilling rig that will deliver a reliable performance resulting to safety drilling operations, mitigate effect of time delay, environmental friendly and most importantly be economically viable. In solving this problem, scientific based-approach will be adopted. First, this study will identify the most effective factors utilized and mostly considered in the selection of a drill rig, establish an object function and considered those factors (i.e. both qualitative and quantitative parameters influencing drill rig selection) in the function by implementing them in data mining and machine learning environment to evaluate their performances and identify a suitable drilling rig. The output results will provide the best drilling rig with appropriate score to compare the performance of each existing drilling rigs for onshore applications.

27.11.2014 (10:30 in Raum 301)
High Performance Data Management beyond Counting Cache Misses
Holger Pirk (Data­base Architec­tures group, CWI Amster­dam)

Databases are bandwidth bound applications - this litany has driven research for more than twenty years. However, recent developments in computer hardware have changed the status quo significantly motivating a re-investigation of this assumption. To illustrate the urgency of this line of research, I present a recent study on the efficiency of pivoted two-way partitiong (the basis for many algorithms such as quicksort or database cracking). This study indicates that even such simple algorithms need significant tuning to actually hit the "memory wall". For these tuning efforts we can draw from an arsenal of techniques such as vectorized processing, predication and the use of SIMD instructions. However, a classic technique still plays a key role: parallelization. Unfortunately, the parallel implementation of data processing systems becomes increasingly challenging due to the increasing diversity of involved devices: CPUs, GPUs, APUs, SSDs and classic spinning disks perform best at different degrees of parallelism. For that reason, I will also use this opportunity to present a novel DBMS architecture that aims to mediate between the different devices allowing each to work at sweet spot performance.

21.07.2014 (12:00 in Raum 301)
Exploration by Learning Views from Templates
Thomas Low (AG DKE, Institut für Technische und Betriebliche Informationssysteme)

Nowadays, data not only explodes in terms of size, it also grows in richness. Current search and exploration tools usually ignore a lot of information to provide specialized views on the data. For example, web search engines present search results in a sorted list based on their relevance to a query. However, it also might be interesting to find groups of similar results in order to get an overview. There are many different views on the data. Each emphasizes certain properties of the information space and neglects or ignores others. Depending on the task some views are more appropriate or interesting. In contrast to recent approaches, the goal of this thesis is not to personalize a single application-specific view, but instead to provide means to explore the space of different views on the data. The vision is that views can be interactively selected or learned from partial information given in the form of direct manipulations of visual representations of the information space, e.g., partially sorting a list or moving objects in a two-dimensional map. This translates to questions like: What is a suitable sorting such that one item is an extremum and another is rather average? What is a suitable map-based projection such that two items are close together, but another one is far away? Such user-specified templates allow to narrow down the search space to useful views, which are more likely to contain the desired patterns or clusters.

26.05.2014 (10:00 in Raum 301)
Analyzing Similarity of Cloned Software Variants using Hierarchical Set Models
Slawomir Duszynski (Fraunhofer-Institut für Experimentelles Software Engineering (IESE), Kaiserslautern)

Software reuse approaches, such as software product lines, are known to enable considerable effort and cost savings when developing families of software systems with a significant overlap in functionality. In the practice, however, the need for strategic reuse often becomes apparent only after a number of product variants have already been delivered. The variants are often created in ad-hoc manner - cloning of the original system's code and changing it according to the specific requirements of the customer is frequently observed in the industrial practice. In such a situation, a reuse approach has to be introduced afterwards based on the already existing product implementations. An approach for code similarity analysis, needed for that purpose, is the main focus of the presented dissertation research.

In the talk, we present a reverse engineering approach for obtaining the information about source code similarity of existing product variants. The variant systems are modeled as hierarchical sets of uniquely identifiable elements having known sizes, and the similarity of the variants is expressed using set algebra. The similarity information is available on any abstraction level, from a single code line up to a whole system group. A generic analysis framework is proposed, which can be used for diverse system representations and diverse similarity detection algorithms, including clone detection. The approach supports simultaneous analysis of multiple source code variants and proposes visualization concepts that enable easy interpretation of the analysis results even for large systems and a high number of variants. We hypothesize that the analysis approach allows for obtaining more detailed and more correct variant similarity information with lower analysis effort as compared to the existing approaches. The performed empirical evaluations of the hypothesized improvements are discussed.

22.05.2014 (10:00 in Raum 301)
Long-Term Preservation and Management of Scientific Research Data
Daniel Arend (Leibniz Institute of Plant Genetics and Crop Plant Research (IPK) Gatersleben)

The “big data” problem is one of the main challenges in life sciences. High-throughput technologies became affordable and produce a huge amount of primary data, which are the basis for nearly every bioinformatics analysis pipeline. But there is a huge gap of standards and policies for their maintenance, life cycle and citation. Furthermore, there is a high number of less interacting domain-specific databases, like the European Nucleotide Archive or the BioModels database, but also several general databases and data sharing services like figshare or DRYAD.
Beside those technical aspects, research institutes use no or private policies, which define how to handle primary data, how to describe them with metadata or which state of the datasets must be preserved. Therefore the sustainability and the long-term preservation of research data depend strongly on the scientists, project bodies or the journal to which they want to publish their results. In the scientific life cycle primary data pass through different domains and thereby the scientists are often faced with the problem of insufficient infrastructures, which guarantee a persistent preservation and support them during their work, as well as missing benefits for making their research data available.
Focus of this thesis will be the development of a general applicable framework and policy for research data management. A comprehensive requirement analysis will give a review to current strategies, established systems, and their pro and cons. Based on two use cases in the fields of system biology and plant phenotyping, a workflow for data publication, the long term preservation of primary data, and its citation is under investigation. The conceptual work and the implementation of a necessary infrastructure will make in the frame of a running 5 year research project. Here the developed e!DAL API (electronic Data Archive Library) for Java is a possible solution to address those shortcomings and close the gap between the storage of scientific primary data and their long-term availability. It provides an enhanced storage backend, which is comparable to a file system, but providing different features, which based on literature studies and recommendations of several organizations, to guarantee a long-term preservation of the digital objects. In the case of the DPPN/EPPN project which is a big international project with the aim to develop an infrastructure and standards for the storage and analysis of high-throughput plant phenotyping experiments, the API can be a main component to realize a future-proof storage and sustainable citation using persistent identifiers, like the popular Digital Object Identifier (DOI).
The talk will summarize challenges in research data management with a special focus to long-term preservation of primary data. First, an overview to the state of the art in the research field and existing databases will be given. Furthermore, the use case scenario for research data life cycle with focus to high-throughput phenotyping in the DPPN research collaboration is introduced. A first prototypes of the data citation infrastructure e!DAL will be presented. The talk concludes with an outline of the planed PhD thesis.

20.03.2014 (13:00 in Raum 128)
Collaborative Technology Search Using Search Maps: Enhancing Traceability, Overview and Sensemaking in Collaborative Information Seeking
Dominic Stange (Volkswagen AG)

We propose a search user interface that is especially designed to support information seeking in a collaborative search setting. The motivation of the thesis is twofold. The first goal is to support awareness, understanding, and sensemaking within a group working together on the same search task. The support is achieved by visualizing the information seeking activities of the user group with an interactive two-dimensional search map. The users share the same search map and can actively collaborate and evolve their search topic together. The search map serves as a common ground and enables each user to gain a more comprehensive understanding of the domain in question by taking advantage of the shared view of the community.

The second goal of the thesis is to create a graphical network of entities which are discovered during the search process. The entities are manually extracted by highlighting text within documents encountered during the search process and classified given a previously developed domain taxonomy of a business application in technology search. These classified entities are then linked to each other in a graph database using their classes and the context of the search map to create the link structure. Technology search focuses on identifying and evaluating interesting technologies that can be used in a business application.

Letzte Änderung: 01.06.2018 - Ansprechpartner:

Sie können eine Nachricht versenden an: Webmaster
Sicherheitsabfrage:
Captcha
 
Lösung: