Otto-von-Guericke-Universität Magdeburg

 
 
 
 
 
 
 
 

Doktorandenkolloquium Data and Knowledge Engineering

Im Rahmen dieses Kolloquiums werden aktuelle Forschungsarbeiten von Doktoranden im Bereich Data and Knowledge Engineering (DKE) vorgestellt.
Das Kolloquium findet in der Regel jeweils Donnerstags ab 13:00 s.t. im Wechsel mit dem Forschungskolloquium DKE in Raum G29-301 statt.

Fragen zum Kolloquium richten Sie bitte an  Thomas Low oder Andreas Nürnberger

Aktuelle Vorträge:

30.06.16 (13:00 in Raum G29-128)
Automatische Ableitung von Balanced Scorecards aus Textkorpora
Henner Graubitz

Unternehmen weltweit werden derzeit mit dem Zeitalter der Digitalisierung konfrontiert. Schlüsselfaktoren wie Gewinne oder Bilanzkennzahlen sind nicht mehr zwingend entscheidend für die erfolgreiche Zukunft eines Unternehmens. Die weltweit am höchsten bewerteten Unternehmen zeichnen sich dadurch aus, dass sie über flache Hierarchien verfügen, bei denen Mitarbeiter mehr Vertrauen geschenkt wird und in denen sie eigenverantwortlich arbeiten und transparente Entscheidungen treffen können. Eine Transparenz wird dadurch erreicht, indem Dokumente, die für alle interessant sein können, weitergeschickt oder unternehmensintern - für alle Mitarbeiter eines Unternehmens einsehbar - abgelegt werden. Einer Idee kann digital ein Freiraum verschafft werden. Information Retrieval, Methoden aus dem Bereich des Natural Language Processings (NLP) und Data-Mining können helfen, diese unstrukturierten Informationen zu aggregieren und aus ihnen Erkenntnisse über das Unternehmen abseits bisheriger Kennzahlen zu erlangen, um für die wachsende digitale Zukunft vorbereitet zu sein. Eine große Herausforderung stellt die Breite der unstrukturierten Informationen innerhalb eines Unternehmens dar. Dieser Vortrag zeigt die Herausforderung und schlägt verschiedene Methoden aus den oben genannten Bereichen vor. Es wird ein Ansatz präsentiert, wie unstrukturierte Texten in handhabbare Fragmente unterteilt werden können. Die Vernetzung der einzelnen Mitarbeiter im Unternehmen wird durch Algorithmen aufgedeckt, in dem vorab Namensentitäten durch die Abgleichung mit häufig vorkommenden Mustern erkannt werden. Hinzu kommt die Anwendungen von klassischen Methoden zur Erkennung von Namensdubletten und Wortstammformen, um alle Informationen zu aggregieren und aus ihnen Informationen zu extrahieren. Ebenso werden aus den einzelnen Klassen durch Methoden der Textzusammenfassung Strategien abgeleitet. Als Ergebnis präsentiert dieser Vortrag neue Sichtweisen und Strategien des Unternehmens abseits üblicher Finanzkennzahlen, die in einer Balanced Scorecard (BSC) Verwendung finden.

Vergangene Vorträge:

03.05.16 (13:00 in Raum G29-301)
Role-based Data Management
Tobias Jäkel, TU Dresden, GRK 1907 RoSI

Softwaresysteme sind allgegenwärtig und aus dem heutigen Leben, in dem jeder mit allem und überall verbunden ist, nicht mehr wegzudenken. Zusätzlich werden diese Systeme ständig erweitert indem neue Funktionalitäten hinzukommen und die Systeme in sich ständig ändernden Umgebungen agieren. Die daraus resultierenden Herausforderungen an moderne Softwaresysteme, wie zum Beispiel kontextabhängiges Verhalten von Objekten, die sowohl zur Entwicklungs- als auch zur Laufzeit entstehen, können durch das Rollenkonzept bewältigt werden. Dies hat dazu geführt, dass Rollen heute zur Modellierung und zur Implementierung komplexer und kontextabhängiger Softwaresysteme genutzt werden. Die Datenbanken, als essentieller Teil solcher Systeme, werden dabei oft vernachlässigt, was darin endet, dass die Rollensemantiken nicht direkt im Datenbanksystem repräsentiert werden können. Eine indirekte Abbildung bringt jedoch Nachteile mit sich, wie zum Beispiel einen erhöhten Transformationsaufwand oder den Verlust der kontextabhängigen Informationen.

Um diese Probleme und Herausforderungen aus Perspektive eines Datenbankmanagementsystems zu bewältigen, wird das RSQL-Framework vorgestellt, ein dreiteiligen Ansatz bestehend aus Datenmodell, Anfragesprache und Ergebnisrepräsentation. Das Datenmodell ist dabei die Grundlage und definiert die Rollensemantik im Datenbanksystem. Zum einen werden auf Schemaebene Dynamische Datentypen zur Darstellung der kontextabhängigen Informationen eingeführt und zum anderen bilden Dynamische Tupel diese Informationen auf Instanzebene ab. Die Anfragesprache stellt eine auf dem definierten Datenmodell basierende externe Schnittstelle für Benutzer und Anwendungen dar. Daher ist sie auf die Definition von Dynamischen Datentypen bzw. die Manipulation der Dynamischen Tupel ausgelegt. Der dritte Bestandteil sichert die Rollensemantik in den Anfrageergebnissen und wird als Netz verbundener Dynamischer Tupel dargestellt. Weiterhin werden verschiedene Pfade für die Navigation innerhalb dieses Netzes bereitgestellt und erläutert.

28.04.16 (13:15 in Raum G29-301)
Dynamic Clustering in Social Networks
Pascal Held  (FIN, IWS)

In den letzten Jahren haben soziale Netze immer mehr Einfluss auf unser Leben bekommen. Spätestens seit dem Aufkommen von Facebook, Twitter oder anderer großer Plattformen steigt die Beliebtheit solcher Netze. Dieses gesteigerte Interesse zeigt sich auch in der Wissenschaft und der Analyse dieser Netze. Dabei bezieht sich Social Network Analysis (SNA) nicht nur auf die offensichtlichen Netzwerke großer sozialer Plattformen, sondern auch auf soziale Netze die im verborgenen liegen. Dies kann z.B. die Analyse eines Kommunikationsnetzwerkes, ein Co-Autoren Netzwerk oder ein Strukturnetzwerk von Websites sein. Auch im menschlichen Körper finden sich Netzwerke die ähnliche Eigenschaften besitzen, wie beispielsweise in Protein-Protein-Interaktionen oder in Wechselbeziehungen zwischen einzelnen Hirnregionen. Social Network Analysis ist mittlerweile ein eigenes Forschungsgebiet mit verschiedensten Forschungsrichtungen, nicht nur in der Informatik, sondern auch in anderen Disziplinen. Dazu gehören zum Beispiel die Analyse sozialer Beziehungen, der Status einzelner Teilnehmer in der Gruppe oder Dichteuntersuchungen verschiedener Teilgraphen. Ein weiterer Schwerpunkt liegt im Finden von zusammengehörigen Gruppen innerhalb der Netze. Diese nennen sich auch Cluster oder Communities. Bei vielen Arbeiten wird davon ausgegangen, dass die vorliegenden Netzwerke statisch sind, bzw. werden auf statischen Momentaufnahmen die Analysen durchgeführt und für verschiedene Zeitpunkte verglichen. Der Fokus meiner Forschungsarbeit liegt auf der Cluster- bzw. Community Analyse für dynamische Netzwerke. Bei Änderungen im zu Grunde liegenden Netzwerk, sollen dynamisch die gefundene Cluster- und Community-Struktur aktualisiert werden. Dazu werde ich auf Arbeiten aus dem statischen Fall aufbauen und Methoden adaptieren, bzw. neue entwickeln, die eben diese Möglichkeiten bieten.

10.03.16 (13:15 in Raum G29-301)
Feature Improvement and Matching Refinement for Near and Semi Duplicate Image Retrieval in Large Collection (Thesis Proposal)
Afraa Ahmad Alyosef  (FIN, ITI)

Image near-duplicate retrieval is very challenging field to detect the similar images, to overcome the problems such as infringement copyright of images, forged images, obtain altering version of existent images and use them as not related images. Furthermore, images for a site taken hours (days or even month) apart may be no identical because of the movement or occlusion of objects of foreground or because of the changes in the lightness of the site between day and night. Moreover, the change in camera parameters, photometric conditions (lighting condition), change in contrast, resolution or use different cameras to take images for the same scene, make the task of determine similar images more complex. In this thesis, we aim to improve near-duplicate image retrieval in the case of being the query image sub-image of one of the database images. This sub-images may be an exact cut part of the original scene or a zoom-in image, it can be taken form different viewpoint, different lightness conditions or even different camera. These different kinds of variation that may be applied on the sub-image make the retrieval task more complex. From this point of view it is important to answer the following questions:
- What is size of the sub-image that can be still considered as a near-duplicate image.
- What are changes types that make it difficult to detect near-duplicate images.

11.02.16 (13:15 in Raum G29-301)
Clinical decision support system based on Bayesian networks to support interdisciplinary tumor board decisions
Mario Cypko (Universität Leipzig, Innovation Center Computer Assisted Surgery)

The Innovation Center for Computer-assisted surgery (ICCAS) is a research initiative funded by the Federal Ministry for Education and Research in Germany. It was founded in 2005 as a central facility at the University of Leipzig. It is a place of research for surgeons from various disciplines as well as engineers and computer scientists, who collaborate on the development of state-of-the-art technologies for clinical assistant systems and the operating room of the future. The increasing understanding of the complexity of oncological diseases and the dramatic growth of available patient information allow, in principle, for a highly individualized treatment of patients. At the same time, however, optimal treatment decisions are becoming more difficult to make. Clinical decision support systems based on patient-specific Bayesian networks can help to overview the entire patient situation and find the best treatment decisions. Cypko will highlight aspects of decision making in tumor boards, and also present the complexity developing clinical decision support system and its integration into tumor boards.

17.12.15 (13:15 in Raum G29-128)
Ein neuer Ansatz zur Touchgestenerkennung zur Unterscheidung von durch Beispielen definierten Gesten mit unterschiedlichen zeitlichen Dynamiken (Thesis Proposal)
Tim Dittmar (FIN, ISG)

Touchbasierte mobile Geräte wie Smartphones und Tablets haben in den letzten Jahren eine enorme Verbreitung erfahren und sind daher heutzutage nahezu überall anzufinden. Auch der Zugriff auf passwortgeschützte Onlinedienste erfolgt oft über solche Geräte und das Touchinterface. Die Eingabe sicherer Passwörter über eine virtuelle Tastatur ist jedoch im Vergleich zu einer physikalischen wesentlich aufwändiger und nimmt mehr Zeit in Anspruch. Als komfortablere Alternative könnten an dieser Stelle Gestenpasswörter eingesetzt werden. Die Idee Touchgesten zur Authentifizierung zu nutzen gibt es in einer sehr einfachen Form bereits auf Android-Geräten (Patternlock), wurde aber auch in wissenschaftlichen Papern etwas genauer betrachtet. Jedoch wurde vor allem versucht die Form der Geste zu erkennen. Die Betrachtung der Geschwindigkeiten während der Ausführung fand bisher nie statt, würde aber die Sicherheit des Konzeptes der Gestenauthentifizierung erhöhen. Es gibt bisher jedoch kein spezialisiertes Verfahren, welches durch Beispiele Touchgesten definieren kann, bei denen auch die Geschwindigkeiten während der Ausführung relevant sind. Für viele Gestenerkennungsaufgaben bei denen Gesten durch Beispiele definiert werden, finden Hidden Markov Modelle Verwendung und eine Erweiterung dieser Modellklasse stellen die sogenannten Conversive Hidden-non Markovian Modelle (CHnMM) dar. Diese ermöglichen eine viel konkretere Definition von zeitlichen Verläufen und erscheinen damit deutlich geeigneter, um Gesten auch anhand des zeitlichen Verlaufs zu unterscheiden. Das Ziel dieser Arbeit ist es, ein Verfahren zur automatischen Erstellung von CHnMM basierten Gestenmodellen anhand von Beispielen zu entwickeln, um so die Erkennung von Touchgesten mit unterschiedlichen Ausführungsgeschwindigkeiten zu ermöglichen. Zur Evaluierung des Verfahrens wird außerdem ein Gestenerkennungssystem implementiert, so dass Maße zur Erkennungsqualität (Precision, Recall) und -geschwindigkeit erhoben werden können.

22.10.15 (13:00 in Raum G29-301)
Infrastructure for Research Data Publication in the Frame of High-Throughput Plant Phenotyping
Daniel Arend (Leibniz Institute of Plant Genetics and Crop Plant Research)

Life sciences have become one of the most data-intense disciplines and a major player in the “big data” age. High-throughput technologies became affordable and produce a huge amount of research data, which are the basis for nearly every bioinformatics analysis pipeline. But there is a huge gap of standards and policies for their maintenance, life cycle and citation. Furthermore, there are a many less interacting domain-specific archives, like the databases, maintained by the European Bioinformatics Institute (EBI), but also several general data sharing services like figshare. Research institutes use no or private policies, which define how to describe research data with metadata or how to preserved them. Therefore the reproducibility and the long-term preservation of research data depend strongly on the scientists, project bodies or the journal to which they want to publish their results. In the scientific life cycle research data pass through different domains and thereby the scientists are often faced with the problem of insufficient infrastructures, which guarantee a persistent preservation and support them during their work, as well as missing benefits for making their research data available. Focus of this thesis will be the development of a general applicable framework and a concept for research data management. A comprehensive requirement analysis will give a review to current strategies, established systems, and their pro and cons. Based on a use case in the field of plant phenotyping, a workflow for data publication, the long term preservation of research data and its citation is under investigation. The conceptual work and the implementation of a necessary infrastructure will make in the frame of the running 5 year DPPN research project, which is a big international project with the aim to develop an infrastructure and standards for the storage and analysis of high-throughput plant phenotyping experiments. The developed framework is a main component to realize a future-proof storage and sustainable citation using persistent identifiers, like the popular Digital Object Identifier (DOI).

21.07.15 (14:00 in Raum G29-E036)
Creating Learning Material from Web Resources
Katrin Krieger (FIN, IWS)

Technology-enhanced learning (TEL), especially Web-based learning, has become a fundamental part in education over the last decades. E-Learning platforms provide access to electronic learning material, accompany in-class lectures in blended learning scenarios or offer assessment facilities for formal and informal testing. Whole courses are held online, whether as qualification training, school education in sparsely populated areas or as courses dealing with special topics, letting remotely located experts teach students all over the world. TEL has torn down barriers in time and space, enabling students to learn where and whenever they want. We observed that learners use general Web resources as learning material. In order to overcome problems such as distraction and abandonment of a given learning task, we want to integrate these Web resources into Web-based learning systems and make them available as learning material within the learning context. We present an approach to generating learning material from Web resources that extracts a semantic fingerprint for these resources, obtains educational objectives, and publishes the learning material as Linked Data.

04.06.2015 (13:15 in Raum 301)
A FRAMEWORK FOR INTELLIGENT DECISION SUPPORT SYSTEM FOR ONSHORE DRILLING RIG SELECTION
Opeyemi Bello (Institute of Petroleum Engineering, Clausthal University of Technology, Germany)

Today, making a choice of drilling rig equipment during the well planning phase of E&P wells could be very challenging task; this is mainly caused by the existing multiple drilling rig manufacturers in the market that meets  the operational conditions but not in accordance most operators design specifications. The conventional approach for the selection of appropriate drill rig for onshore operational activities is based on method of exclusion associated with engineering experience and lithology of the field to be developed serving as key drive factors. A poorly selected drill rig could add up unnecessary operation cost.
The objective of this study is to develop an unconventional approach for the selection of drill rig using data mining and machine learning techniques. An Intelligent decision support system will be developed guiding well designers and E&P operators in making decision to select appropriate drilling rig that will deliver a reliable performance resulting to safety drilling operations, mitigate effect of time delay, environmental friendly and most importantly be economically viable. In solving this problem, scientific based-approach will be adopted. First, this study will identify the most effective factors utilized and mostly considered in the selection of a drill rig, establish an object function and considered those factors (i.e. both qualitative and quantitative parameters influencing drill rig selection) in the function by implementing them in data mining and machine learning environment to evaluate their performances and identify a suitable drilling rig. The output results will provide the best drilling rig with appropriate score to compare the performance of each existing drilling rigs for onshore applications.

27.11.2014 (10:30 in Raum 301)
High Performance Data Management beyond Counting Cache Misses
Holger Pirk (Data­base Architec­tures group, CWI Amster­dam)

Databases are bandwidth bound applications - this litany has driven research for more than twenty years. However, recent developments in computer hardware have changed the status quo significantly motivating a re-investigation of this assumption. To illustrate the urgency of this line of research, I present a recent study on the efficiency of pivoted two-way partitiong (the basis for many algorithms such as quicksort or database cracking). This study indicates that even such simple algorithms need significant tuning to actually hit the "memory wall". For these tuning efforts we can draw from an arsenal of techniques such as vectorized processing, predication and the use of SIMD instructions. However, a classic technique still plays a key role: parallelization. Unfortunately, the parallel implementation of data processing systems becomes increasingly challenging due to the increasing diversity of involved devices: CPUs, GPUs, APUs, SSDs and classic spinning disks perform best at different degrees of parallelism. For that reason, I will also use this opportunity to present a novel DBMS architecture that aims to mediate between the different devices allowing each to work at sweet spot performance.

21.07.2014 (12:00 in Raum 301)
Exploration by Learning Views from Templates
Thomas Low (AG DKE, Institut für Technische und Betriebliche Informationssysteme)

Nowadays, data not only explodes in terms of size, it also grows in richness. Current search and exploration tools usually ignore a lot of information to provide specialized views on the data. For example, web search engines present search results in a sorted list based on their relevance to a query. However, it also might be interesting to find groups of similar results in order to get an overview. There are many different views on the data. Each emphasizes certain properties of the information space and neglects or ignores others. Depending on the task some views are more appropriate or interesting. In contrast to recent approaches, the goal of this thesis is not to personalize a single application-specific view, but instead to provide means to explore the space of different views on the data. The vision is that views can be interactively selected or learned from partial information given in the form of direct manipulations of visual representations of the information space, e.g., partially sorting a list or moving objects in a two-dimensional map. This translates to questions like: What is a suitable sorting such that one item is an extremum and another is rather average? What is a suitable map-based projection such that two items are close together, but another one is far away? Such user-specified templates allow to narrow down the search space to useful views, which are more likely to contain the desired patterns or clusters.

26.05.2014 (10:00 in Raum 301)
Analyzing Similarity of Cloned Software Variants using Hierarchical Set Models
Slawomir Duszynski (Fraunhofer-Institut für Experimentelles Software Engineering (IESE), Kaiserslautern)

Software reuse approaches, such as software product lines, are known to enable considerable effort and cost savings when developing families of software systems with a significant overlap in functionality. In the practice, however, the need for strategic reuse often becomes apparent only after a number of product variants have already been delivered. The variants are often created in ad-hoc manner - cloning of the original system's code and changing it according to the specific requirements of the customer is frequently observed in the industrial practice. In such a situation, a reuse approach has to be introduced afterwards based on the already existing product implementations. An approach for code similarity analysis, needed for that purpose, is the main focus of the presented dissertation research.

In the talk, we present a reverse engineering approach for obtaining the information about source code similarity of existing product variants. The variant systems are modeled as hierarchical sets of uniquely identifiable elements having known sizes, and the similarity of the variants is expressed using set algebra. The similarity information is available on any abstraction level, from a single code line up to a whole system group. A generic analysis framework is proposed, which can be used for diverse system representations and diverse similarity detection algorithms, including clone detection. The approach supports simultaneous analysis of multiple source code variants and proposes visualization concepts that enable easy interpretation of the analysis results even for large systems and a high number of variants. We hypothesize that the analysis approach allows for obtaining more detailed and more correct variant similarity information with lower analysis effort as compared to the existing approaches. The performed empirical evaluations of the hypothesized improvements are discussed.

22.05.2014 (10:00 in Raum 301)
Long-Term Preservation and Management of Scientific Research Data
Daniel Arend (Leibniz Institute of Plant Genetics and Crop Plant Research (IPK) Gatersleben)

The “big data” problem is one of the main challenges in life sciences. High-throughput technologies became affordable and produce a huge amount of primary data, which are the basis for nearly every bioinformatics analysis pipeline. But there is a huge gap of standards and policies for their maintenance, life cycle and citation. Furthermore, there is a high number of less interacting domain-specific databases, like the European Nucleotide Archive or the BioModels database, but also several general databases and data sharing services like figshare or DRYAD.
Beside those technical aspects, research institutes use no or private policies, which define how to handle primary data, how to describe them with metadata or which state of the datasets must be preserved. Therefore the sustainability and the long-term preservation of research data depend strongly on the scientists, project bodies or the journal to which they want to publish their results. In the scientific life cycle primary data pass through different domains and thereby the scientists are often faced with the problem of insufficient infrastructures, which guarantee a persistent preservation and support them during their work, as well as missing benefits for making their research data available.
Focus of this thesis will be the development of a general applicable framework and policy for research data management. A comprehensive requirement analysis will give a review to current strategies, established systems, and their pro and cons. Based on two use cases in the fields of system biology and plant phenotyping, a workflow for data publication, the long term preservation of primary data, and its citation is under investigation. The conceptual work and the implementation of a necessary infrastructure will make in the frame of a running 5 year research project. Here the developed e!DAL API (electronic Data Archive Library) for Java is a possible solution to address those shortcomings and close the gap between the storage of scientific primary data and their long-term availability. It provides an enhanced storage backend, which is comparable to a file system, but providing different features, which based on literature studies and recommendations of several organizations, to guarantee a long-term preservation of the digital objects. In the case of the DPPN/EPPN project which is a big international project with the aim to develop an infrastructure and standards for the storage and analysis of high-throughput plant phenotyping experiments, the API can be a main component to realize a future-proof storage and sustainable citation using persistent identifiers, like the popular Digital Object Identifier (DOI).
The talk will summarize challenges in research data management with a special focus to long-term preservation of primary data. First, an overview to the state of the art in the research field and existing databases will be given. Furthermore, the use case scenario for research data life cycle with focus to high-throughput phenotyping in the DPPN research collaboration is introduced. A first prototypes of the data citation infrastructure e!DAL will be presented. The talk concludes with an outline of the planed PhD thesis.

20.03.2014 (13:00 in Raum 128)
Collaborative Technology Search Using Search Maps: Enhancing Traceability, Overview and Sensemaking in Collaborative Information Seeking
Dominic Stange (Volkswagen AG)

We propose a search user interface that is especially designed to support information seeking in a collaborative search setting. The motivation of the thesis is twofold. The first goal is to support awareness, understanding, and sensemaking within a group working together on the same search task. The support is achieved by visualizing the information seeking activities of the user group with an interactive two-dimensional search map. The users share the same search map and can actively collaborate and evolve their search topic together. The search map serves as a common ground and enables each user to gain a more comprehensive understanding of the domain in question by taking advantage of the shared view of the community.

The second goal of the thesis is to create a graphical network of entities which are discovered during the search process. The entities are manually extracted by highlighting text within documents encountered during the search process and classified given a previously developed domain taxonomy of a business application in technology search. These classified entities are then linked to each other in a graph database using their classes and the context of the search map to create the link structure. Technology search focuses on identifying and evaluating interesting technologies that can be used in a business application.

05.12.2013 (10:00 in Raum 301)
Rekonstruktion und Vermessung von Holzpoltern auf mobilen Geräten mit Hilfe von Structure-from-Motion-Methoden
Christopher Herbon (Hochschule für angewandte Wissenschaft und Kunst Göttingen)

In der Holzindustrie werden zunehmend foto-optische Verfahren zur Vermessung von Holzpoltern (gestapelte Baumstämme) eingesetzt, da die manuelle Vermessung zeitaufwändig und fehleranfällig ist. Durch eine automatische Vermessung kann die Stückzahl der Baum\-stämme ermittelt und ihr Volumen berechnet werden. Das Ziel des Dissertationsvorhabens ist es, zu erforschen, inwieweit und mit welchen Mitteln Holzpolter durch Structure-from-Motion-Methoden (SfM) vermessen werden können und welche Genauigkeit dabei erzielt werden kann. Weiterhin soll geprüft werden, ob ein Einsatz von SfM zur Vermessung von Objekten auf mobilen Geräten wie Smartphones und Tablets möglich ist. Der Vermessungsprozess durch SfM soll hierbei allgemeingültig und auf Objekte beliebiger Art anwendbar sein. Um forstwirtschaftlich relevante Daten aus den Eingangsbildern und dem dreidimensionalen Modell des SfM-Prozesses zu extrahieren, sollen Verfahren zur Klassifizierung und Segmentierung der Stammschnittflächen angewendet und optimiert werden. Das Ergebnis der Segmentierung soll anschließend zur Präzisierung des dreidimensionalen Modells genutzt werden. Zur Größenreferenzierung des 3D-Modells sollen mehrere Möglichkeiten evaluiert und deren Genauigkeit verglichen werden. In einem ersten Schritt werden eine oder mehrere Referenzflächen an der Vorderseite des Holzpolters als Größenreferenz verwendet. Weitere Möglichkeiten bestehen in der Georeferenzierung der Aufnahmepositionen durch GPS- und Beschleunigungsdaten des mobilen Gerätes oder eines externen Empfängers. Zum Abschluss des Dissertationsprojektes soll eine Aussage darüber getroffen werden, welche dieser Referenzierungsverfahren sich für einen Einsatz in der Praxis eignen und welche Genauigkeit dabei erreicht werden.

17.10.2013 (13:15 in Raum 128)
Verfahren zur vorkollisionären Prognose der zu erwartenden Unfallschwere von Fahrzeugfrontalkollisionen
Andreas Meier (Konzernforschung/Fahrerassistenz und Integrierte Sicherheit, Volkswagen)

Strengere gesetzliche Normen, komplexe Verbrauchertests wie EuroNCAP, ambitionierte politische Vorhaben sowie die eigenen Ansprüche von Automobilherstellern führen kontinuierlich zu verbesserten und neuen Sicherheitssystemen. Eine der nächsten Evolutionsstufen im Fahrzeugsicherheitsbereich stellen dabei Systeme dar, die sich „intelligent“ an die Schwere eines Unfalls anpassen und somit ein höheres Schutzpotential bieten können. Dafür muss diesen Systemen allerdings frühzeitig bekannt sein, wie schwer ein Unfall werden wird. Im Rahmen der Promotion wird deshalb ein neuartiger Algorithmus entwickelt, um mit Hilfe von durch Umfeldsensorik ermittelten Unfallparametern schon vor einer Kollision die zu erwartende Schwere einer Fahrzeugfrontalkollision abschätzen zu können. In diesem Vortrag zum Thesis Proposal wird dazu der Ansatz erläutert, wie aus Crashsimulationen mit Hilfe von Methoden der künstlichen Intelligenz Prognosemodelle für die Unfallschwere erzeugt werden können. Weiterhin werden erste Ergebnisse gezeigt, die auf die potenzielle Leistungsfähigkeit des Ansatzes hindeuten.

25.07.2013 (13:15 in Raum 301)
A Neuro-Fuzzy ANP based Decision Model for ERP System Selection
Abiot Sinamo Boltena (Carl von Ossietzky University Oldenburg)

Companies of all size and industries are adopting Enterprise resource planning (ERP) systems. The increase in ERP adoption and the risks coming from their incorrect selection initiate efforts toward effective and reliable selection methods. In this regard several studies have explored various ERP system selection models. However a depth evaluation revealed that the existing models have limitations in addressing the characteristics and requirements of ERP selection problems. This is mainly due to the missing of important procedures in existing frameworks, the consideration of varying and non-standard criteria in evaluating alternatives, and the lack of requirements- and characteristics-oriented ERP selection methods. This research, therefore, developed a suitable and enhanced model which addressed these limitations such that selection related ERP failures can be mitigated. The proposed Neuro-Fuzzy ANP (NFANP) based model is composed of suitable procedures for the selection of ERP systems, important criteria for the evaluation of ERP alternatives, and a requirement and characteristics oriented method to facilitate the pairwise comparison in ERP selection decisions. The proposed model is evaluated through scientifically acceptable approaches and the result of the evaluation indicates its suitability for ERP selection problems. This report, therefore, will focus on the process followed in developing the model and the result of the evaluation, which is conducted to determine its practical viability.

09.07.2013 (12:00 in Raum 301)
Product-Line Verification with Feature-Oriented Contracts
Thomas Thüm (AG Datenbanken)

Software product lines allow programmers to reuse code across similar software products. Software products are decomposed into separate modules representing user-visible features. Based on a selection of desired features, a customized software product can be generated automatically. However, these reuse mechanisms challenge existing techniques for specification and verification of software. Specifying and verifying each product involves redundant steps, and is often infeasible. We discuss how method contracts (i.e., preconditions and postconditions) can be used to efficiently specify and verify product lines.

27.06.2013 (13:15 in Raum 301)
Ein Knowledge Discovery Cycle zur Überwachung mobiler cyber-physikalischer Systeme
Tino Noack (BTU Cottbus)

Mobile cyber-physikalische Systeme (MCPS), wie z.B. die Internationale Raumstation ISS, sind allgegenwärtig in unserer heutigen Zeit. Diese MCPS sind ortsungebunden und in eine physikalische Umwelt eingebettet. Aufgrund von Verschleißerscheinungen und Einflüssen der physikalischen Umwelt (z.B. Temperaturschwankungen oder Luftfeuchtigkeit) werden MCPS während der Laufzeit zunehmend unzuverlässig. Aus diesem Grund ist die Überwachung notwendig, um ein gewisses Maß an Zuverlässigkeit zu gewährleisten und kritische Systemausfälle zu vermeiden. MCPS interagieren mit der einbettenden Umwelt mittels Sensoren und Aktoren. Diese Sensoren erzeugen kontinuierlich Sensordatenströme, die für eine angemessen Überwachung verarbeitet und analysiert werden müssen. MCPS unterliegen jedoch restriktiven Systemressourcen (z.B. Prozessorgeschwindigkeit, Speicher- und Stromverbrauch). Daher sind MCPS meist über ein drahtloses Netzwerk mit externen Informationssystemen verbunden. Der Knowledge Discovery Cycle (KDC) ist eine abstrakte Architektur für die Überwachung MCPS. Diese abstrakte Architektur bietet die Möglichkeit einzelne Problemstellungen genauer zu betrachten, ohne dabei an eine konkrete Implementierung gebunden zu sein. Somit können einzelne Komponenten des KDC zu existierenden Technologien zugeordnet werden. Zu diesen Technologien gehören u.a. Knowledge Discovery in Databases, Knowledge Discovery from Data Streams, Information Flow Processing und Data Stream Anomaly Detection. Die identifizierten Technologien können dann für ein konkretes Anwendungsszenario zusammengefügt und angewendet werden. Der KDC enthält einen Offline- und einen Online-Subzyklus. Der Offline-Subzyklus bezieht sich auf externe Informationssysteme und wird zur Langzeitanalyse der Sensordaten eingesetzt. Der Online-Subzyklus bezieht sich direkt auf das MCPS und wird zur Verarbeitung der Sensordaten in Echtzeit eingesetzt. Als konkretes Anwendungsszenario dient das Fehlermanagementsystem des ISS Columbus Moduls.

13.06.2013 (13:00 in Raum 301) abgesagt
Product-Line Verification with Feature-Oriented Contracts
Thomas Thüm (AG Datenbanken)

Software product lines allow programmers to reuse code across similar software products. Software products are decomposed into separate modules representing user-visible features. Based on a selection of desired features, a customized software product can be generated automatically. However, these reuse mechanisms challenge existing techniques for specification and verification of software. Specifying and verifying each product involves redundant steps, and is often infeasible. We discuss how method contracts (i.e., preconditions and postconditions) can be used to efficiently specify and verify product lines.

30.05.2013 (13:00 in Raum 301)
Optimal path planning for industrial robots among multiple under-specified tasks
Sergey Alatartsev (Computer Systems in Engineering)

Industrial robots are flexible and powerful machines. Equipped with the right tool, they can be applied to almost every production task. Industrial robots are very expensive machines, therefore the faster they do their work, the more income they provide. In order to increase efficiency of the industrial robots, different approaches were developed: techniques for deriving robot paths from CAD models, collision-free path planning, automated sequencing of subtasks, etc. This PhD thesis focuses on developing of the algorithm, which compute optimal task sequences automatically. In contrast (and synergy) to other approaches, we want to make use of the obvious but generic fact that most robotic tasks allow a certain degree of flexibility (but not treated in such a way, i.e., specified in a mono-semantic way that describe only one variant of task execution). In this project additional freedom in task performing is referred as under-specification. Virtually all movements of industrial robots in an application scenario can be separated into two (disjoint) categories. One category contains all robotic movements that are necessary to complete the intended work (e.g., welding a seam). These movements are referred to as effective tasks or effective movements. The other category consists of moving the robot between two effective movements (e.g., moving between two seams). We call these supporting tasks or supporting movements. While many planning approaches already make use of the fact that supporting movements are under-specified, we will also allow under-specification in effective movements. This brings much new potential for optimization and allows obtaining much better solutions.

14.03.2013 (13:15 in Raum 301)
Decoding brain signals for prosthetic Brain-Machine-Interface control
Christoph Reichert (Universitätsklinik für Neurologie und Universitätsklinik für Stereotaktische Neurochirurgie)

In the recent years there was considerable effort in developing communication and control strategies for human-machine interaction by using an interface to the human brain. Especially severely paralyzed people could greatly benefit from brain controlled prostheses. To date there are a couple of experimental implementations using mainly electroencephalographic or electrocorticographic brain signals and different decoding strategies aiming to move artificial limbs by systematic modulation of the user’s brain activity. However, until now the resulting movements are often guided by timed stimuli, sometimes require high invasive electrode implantations and most importantly, are still insufficiently reliable to be helpful for patients. The current work investigates two strategies to overcome these shortcomings. In the first part I will present an approach to identify brain activity related to the initiation of a movement. In particular, a brain machine interface will be implemented that enables a person to select objects for grasping in a VR environment driven by the brain’s magnetic fields. An intelligent robotic grasping system could subsequently execute the grasp autonomously. In the second part the actual process of movement execution is investigated. Here, I precisely focus on the reconstruction of arm movement parameters (e.g. velocity of the hand) decoded from electrocorticographic recordings. By applying complementary decoding methods the objective is to minimize prediction errors. With these basically different approaches to execute movements of prosthetic devices I cover the capabilities of non-invasive and invasive recordings. In the first approach only a low information transfer rate is needed to trigger an intelligent actuator while in the second approach a more informative signal is used to improve trajectories of limbs decoded from cortical activity. Both parts, detection of movement initiation and analysis of complex arm movements will be based on pattern recognition approaches and optimized regarding feature space and decoding algorithm. The optimization further addresses common problems of brain signal processing at a low signal to noise level, physiological and environmental artifacts and non-stationarity of brain patterns.

14.11.2012 (14:00 in Raum 301)
Nutzermodellierung und Empfehlungen für wissenschaftliche Literatur basierend auf nutzergenerierten Mind-Maps
Jöran Beel (Institut für Technische und Betriebliche Informationssysteme)

Weltweit gibt es einige Millionen Anwender die regelmäßig Mind-Maps erstellen. Im Rahmen meiner Doktorarbeit beschäftige ich mich damit, wie von diesen Anwendern Nutzermodelle erstellt werden können, die ihre Interessen abbilden. Mit der Mind-Map-basierten Literaturverwaltungssoftware Docear wurden mehrere Ansätze zur Nutzermodellierung getestet, indem 529 Nutzern 14.404 Empfehlungen für wissenschaftliche Literatur gezeigt wurden. Die Empfehlungen basierten dabei auf den Mind-Maps der Nutzer. Unterschiedliche Verfahren erreichten teils sehr unterschiedliche Ergebnisse - die Klickraten auf die Empfehlungen lagen zwischen 0,32% und 9,27%, je nach eingesetztem Verfahren. Die Verfahren, Ergebnisse sowie Ideen für weitere Verbesserungen stelle ich in meinem Vortrag vor.

04.10.2012 (13:30 in Raum 301)
Tracking people's perception of products over time with Opinion Stream Mining
Max Zimmermann (Institut für Technische und Betriebliche Informationssysteme)

By the appearance of the WEB 2.0, the Internet user has increasingly started to express herself/himself by supplying webpages with own content, i.e. the amount of user written content on the internet has risen exponentially over the last years. As a result, the decision-making has changed in the way, for example, that people have the option to see what other peers say and think about, an event, a product or a service. Understanding people's perception of products over time becomes an essential information for customers as well as for sellers during the decision process of buying or adapting products. A potential customer might be interested on how the product, that he/she thinks about to buy, is perceived by other people over time: having a dominating positive impression might convince him/her to buy the product while a consistently negative perception discourages to buy the product. Tracking people's perception of a product is also important for the sellers of the products. It provides (a) information to understand only the customers opinion towards the product in question - no personal information of single customers regarding other aspects are shown - and (b) an appraisal value for products which can be accumulated with the number of sales to a more sophisticated appraisal system. This system helps to make the customer's attitude of a product accessible, which might also help to interpret the perception of customers and therefore to adapt the products appropriate to that perception.

06.09.2012 (15:30 in Raum 301)
Sichere Multi-Faktor-Authentifizierung an mobilen Endgeräten (Smartphones und Tablets) mithilfe von Keystroke
Matthias Trojahn (Institut für Technische und Betriebliche Informationssysteme)

Smartphones und Tablets sind heutzutage nicht mehr aus dem Alltag wegzudenken. Durch ihre Hardwareausstattung zählen sie nicht mehr zu den reinen Mobiltelefonen, sondern eher zu kleinen Computern. Doch speziell durch die Portabilität dieser Geräte können sie leicht verloren oder gestohlen werden, was besonders durch die steigende Anzahl an personenbezogenen Daten zu einem Sicherheitsproblem führen kann. Insbesondere, da die meisten Geräte nur durch eine einfache PIN-Abfrage (vier numerische Werte) geschützt werden, die nicht den heutigen Passwortstandards entsprechen. Um ein höheres Sicherheitsniveau bei der Authentifizierung zu erreichen, wird eine Erweiterung der Authentifizierung durch das Tippverhalten vorgeschlagen. Zum einen hat sich dabei das Tastaturenlayout zu existierenden Ansätzen verändert und zum anderen gibt es weitere Merkmale, die durch das kapazitive Display aufgenommen werden und für die Entscheidung bei der Authentifizierung hinzugezogen werden können. In dem Vortrag werden verschiedene Merkmale vorgestellt, sowie aufgestellte Thesen und erste Ergebnisse.

06.07.2012 (10:00 in Raum 301)
User Interfaces for Exploratory Search - Towards generalized design patterns for complex information retrieval tasks
Marcus Nitsche (Institut für Technische und Betriebliche Informationssysteme)

While ad-hoc searches are well supported by current search engines, complex search tasks are not. There exist nearly no tools that match users’ needs in managing search results, especially when they are trying to satisfy complex information needs, in a way that users are able to search for and filter information in domains they might be not familiar with. Exploratory search is a promising interaction paradigm that tries to tackle these problems. While information retrieval techniques in general are quite good developed, exploratory search systems often lack in ergonomically designed user interfaces, e.g. they do not provide easy-to-use interactions for dynamic query reformulation, do not allow contextual change of user’s perspective and do not provide adequate result overviews. Users engaged in an exploratory search need to search sequentially or/and perform parallel searches, and often switch between sub-searches and different modes. This activity strains user's working memory capacities and increases her or his workload. This PhD thesis aims to address the ergonomic design of user interfaces and user experience for exploratory search tasks by providing generalized design patterns for the implementation of such applications.

28.06.2012 (13:00 in Raum 301)
Model-based tuning of machine learning systems and statistical experiments on high-performance clusters
Bernd Bischl (TU Dortmund University)

Machine learning techniques like support vector machines have been established as powerful techniques for non-linear classification and regression tasks. Unfortunately and especially for complex tasks, often the accuracy of the learned model highly depends on hyperparameters and decisions which are not obtained through the usual model-fitting process. This includes the kernel function and its parameters as well as pre- and post-processing operations. To solve the problem of efficiently obtaining the hyperparameters of all these modelling steps, a model-based global optimization technique based on kriging is suggested. The technique is evaluated on different problems from data mining and enigineering. In general, the empirical analysis of statistical algorithms often demands time-consuming experiments which are best performed on high performance computing clusters. While distributed computing environments provide immense computational power, they are not easy to use for the non-expert. Therefore, I present two R packages which greatly simplify working in batch computing environments. The package BatchJobs implements the basic objects and procedures to control a batch cluster from within R. It is structured around cluster versions of the well-known higher order functions Map/Reduce/Filter from functional programming. The second package, BatchExperiments, is tailored for the still very general scenario of analyzing arbitrary algorithms on problem instances. It is possible to associate statistical designs with parameters of algorithms and problems and therefore systematically study their influence on the algorithm’s performance.

24.05.2012 (11:00 in Raum 128)
Modelling Knowledge with Distributions over Set-Valued Data
Frank Ruegheimer (Inst. Pasteur, Frankreich)

In the biomedical field computational data analysis and knowledge engineering have now become a fixed element of the scientific process. Comparing the amount of data collected per unit of time or investment over the last ten years illustrates the rapid advances in data acquisition, but fails to show that the complexity of that data itself and of the scientific questions regarding it has similarly increased. As a consequence the latter development there is a demand for analysis techniques supporting complex relations and structured data. Due to their utility for representing imprecision, relations and annotations, sets are a popular choice for modelling observations about complex systems. However, in biology such sets usually draw on large domains of potential elements rendering direct modelling prohibitive. Extant models, on the other hand, tend to draw on independence assumptions that conflict with the established knowledge in the domain. The presentation will discuss a method for the compact representation of probability distributions over sets that preserves relevant distribution properties, such as marginal probabilities under projection to lower dimensional data spaces. It is then shown, how this approach can be used in conjunction with biological ontologies to form an efficient system for modelling structured information consistently over a number of contexts. This allows to integrate information from inhomogeneous sources and make it accessible to comparison and interpretation.

01.12.2011 (13:15 in Raum 301)
Opinion Mining based on Machine Learning Techniques and Multi-agent Systems Technologies
Mohammed Almashraee

The rapid spread of different social media applications provides a new way for people to interact and share information on-line all over the world. This massive and enormous volume of information as on-line reviews needs to be structured and organized in a useful way for users to get oriented opinions from text related to their search. Collecting information about the emotions and feelings in these social networks is an important request for many parties such as governments, manufacturers, suppliers, as well as consumers. Large number of research efforts has been done recently to provide solutions to the issue of extracting and analyzing emotions. However, most existing emotion detection proposals consider only the keywords rather than the fine-grained sentiments which are very important in giving more accurate results for the social networks users. In order to overcome such shortcomings, this proposal presents an extendable agent-based mechanism with emerging machine learning classification features that together promise better level of efficiency.

 

17.10.2011 (14:00 Uhr in Raum 301)
IR-Systeme für junge Nutzer
Tatiana Gossen (Institut für Technische und Betriebliche Informationssysteme)

Kinder sind die mit am schnellsten wachsende Nutzergruppe des Internets. Sie nutzen das Internet, unter anderem die Web-Suchmaschinen, für ihre Hausaufgaben, zum Spielen und zur Kommunikation. Leider sind nicht alle junge Nutzer erfolgreich bei der Suche nach Informationen. Das hängt damit zusammen, dass die meisten IR-Lösungen (Algorithmen wie Nutzerschnittstellen) für Erwachsene entwickelt wurden. Bei der Entwicklung der IR-Systeme für junge Nutzer sollte man aber beachten, dass ihre motorischen und kognitiven Fähigkeiten anders als die von Erwachsenen sind. Im Rahmen dieses Promotionsvorhabens soll ein Suchsystem entwickelt werden, dass die individuellen Anforderungen und Bedürfnisse der Kinder berücksichtigt. Ein Schwerpunkt wird dabei auf eine Verbesserung der Unterstützung der Suche von Kindern im Internet gelegt. Die Ziele hier sind die Entwicklung einer Benutzeroberfläche für Kinder im Grundschulalter, die Entwicklung einer an das Alter bzw. die Fähigkeiten und Kompetenzen angepassten Benutzeroberfläche und die Entwicklung von passenden Algorithmen zum Relevanzsortierung der Suchergebnisse. Der Vortrag stellt das Forschungsvorhaben als Thesis Proposal nach Vorgaben der FIN vor.

24.03.2011 (13:15 Uhr in Raum 301)
Adaptive classification in the presence of drift and latency

Georg Krempl (Institut für Statistik und Operations Research, Univ. Graz)

An important issue in Machine Learning is the problem of drifting populations and concepts. While there exist adaptive learning strategies addressing this issue, most approaches assume that new, labelled data is available instantaneously. However, there can be a lag between the classification of new data and the moment, the true labels of the dependent variable become known. This problem, known as latency, is a major issue in application domains such as credit scoring. This work discusses models of drift for this problem as well as their corresponding data generating processes. Furthermore, adaptive learning strategies for these types of drift are presented.

21.12.2010 (11:00 Uhr in Raum 335)
Visualisierung für web-basierte Informationssuche

Marian Dörk (InnoVis group and Interactions Lab at the University of Calgary)

Informationsräume im Web zeichnen sich durch immer größere Ausmaße, Vielfalt und Dynamik aus. In meiner Forschung beschäftige ich mich mit der Frage, wie wachsende Informationsräume mittels interaktiver Visualisierung besser zugänglich gemacht werden können. Um dieser Frage nachzugehen, entwickele ich neuartige Visualisierungen und Systeme, die aktuelle web-technologische Entwicklungen, wie zum Beispiel native Graphik und Interaktivität, aufgreifen. In meinem Vortrag werde ich anhand von Beispielen erläutern, wie die Exploration von Informationen entlang verschiedener Facetten durch web-basierte Visualisierungen ermöglicht werden kann. Ich werde drei meiner Projekte vorstellen: web-basierte Visualisierungs-Widgets (VisGets), ein dynamisches Interface zur Twitter-Visualisierung (Visual Backchannel) und eine Visualisierungstechnik, die explizite und implizite Datenrelationen miteinander integriert (EdgeMaps). Erste Ergebnisse dieser Fallstudien deuten auf neue Formen der web-basierten Informationssuche hin, bei der Visualisierungen helfen können, Überblick und Orientierung in wachsenden Informationsräumen zu entwickeln.

02.12.2010 (13:15 Uhr in Raum K058)
Temporal Data Mining in Real-world Applications

Christian Moewes (Institut für Wissens- und Sprachverarbeitung (IWS))

In this talk we present three real-world applications dealing with temporal sequences. We briefly describe the corresponding data mining tasks and possible approaches to solve them. Each problem comes from very diverse areas, i.e. automobile safety, visual field recovery, and software engineering. In the first problem, highly interpretable but still very accurate rules shall be extracted from a set of automobile crash tests. We developed an evolutionary fuzzy algorithm that is capable to solve this safety-critical problem adequately based on the dominance-based rough set approach. The second application involves patients who underwent an electro-stimulating therapy to recover from visual field defects. The challenge here is to evaluate several data sources, e.g. clinical data, therapeutic session parameters, electroencephalograms (EEGs), and subjective questionnaire data. We show preliminary results to classify patients based on visual exploratory analysis of EEGs. The third application deals with pattern mining in software. One goal is to find a relation between several code metrics to identify bugs (e.g. team-working bugs) or scattered functionality as early as possible during development. Another problem is the exploration of execution traces coming from function calls to analyze the causes of multithreaded software bugs, e.g. race conditions, deadlocks, livelocks. We show the outline of ongoing work in this young research field.

11.11.2010 (13:15 Uhr in Raum K058)
Analyse Diskreter Stochastischer Partiell-Beobachtbarer Modelle

Robert Buchholz (Institut für Simulation und Graphik)

Die bisher nur theoretisch mögliche Analyse partiell-beobachtbarer diskreter stochastischer Systeme verspricht, das interne Verhalten von stochastischen Systemen rekonstruieren zu können, wenn dieses zwar nicht beobachtet wurde (oder beobachtet werden konnte), aber beobachtete Auswirkungen hat. So könnte zum Beispiel aus dem Protokoll des Türsensors einer FastFood-Filiale brechnet werden, mit welcher Wahrscheinlichkeit der Angestellte während seiner Schicht weiter laufen musste als dies vom Arbeitsschutz her zulässig ist. Im Rahmen dieses Promotionsvorhabens werden Algorithmen entwickelt, um diese und andere praktischen Fragestellungen an partiell-beobachtbare diskrete stochastische Systeme effizient zu beantworten und die Genauigkeit der Antwort abschätzen zu können. Der Vortrag stellt das Forschungsvorhaben als Thesis Proposal nach Vorgaben der FIN vor.

08.07.2010 (13:15 Uhr)
Eine Privatsphären-schützende Plattform für soziale Mikro-Communities

Alexander Korth

Social Media ist allgegenwärtig. Heutzutage nutzen ca. 500 Mio. Menschen Soziale Netzwerke, um sich zu profilieren und mit Freunden zu kommunizieren. Die meisten Menschen versuchen dabei intuitiv, Verhaltensmuster und Normen aus der realen in die digitale Welt zu übernehmen. Das ist meist nicht annähernd ausreichend möglich: es fehlt an intuitiv nutzbaren Funktionen um die Zugänglichkeit zu privaten Informationen kontrollierbar und transparent zu machen. In der Folge entstehen Probleme durch die Verletzung der Privatsphäre der Nutzer. Verursacht werden diese Probleme nicht nur durch die Nutzer selbst sondern auch durch die Anbieter von Sozialen Netzwerken. Es wird eine neuartige Taxonomie für die Probleme rund um die Verletzung der Privatsphäre der Nutzer eingeführt. Daraufhin wird eine Software-Plattform vorgestellt, die ihre Nutzer befähigt zu kontrollieren und zu erfahren welche Informationen und Daten über sie wem zugänglich gemacht werden. Erste Ergebnisse zur Evaluation des Ansatzes werden aufgeführt.

15.04.2010 (13:15 Uhr)
The Slashdot Zoo: Mining a Social Network with Negative Edges

Jérôme Kunegis (DAI-Labor TU Berlin)

This talk will present an analysis of the user relationships on the Slashdot.org technology news site. The dataset was collected from the Slashdot Zoo feature where users of the website tag other users as friends and foes, providing positive and negative endorsements. We adapt social network analysis techniques to the context of negative edge weights. We describe signed variants of global network characteristics such as the clustering coefficient, node-level characteristics such as centrality and popularity measures, and link-level characteristics such as distances and similarity measures. We evaluate these measures on the task of identifying unpopular users (also known as "trolls"), as well as on the task of predicting the sign of links and show that the network exhibits multiplicative transitivity which allows algebraic methods based on matrix multiplication to be used.

04.03.2010 (13:15 Uhr)
Efficient Non-Redundant Subspace Clustering

Emmanuel Müller (RWTH-Aachen - Lehrstuhl für Informatik 9)

In the knowledge discovery process, clustering is an established technique for grouping objects based on mutual similarity. However, in today's applications for each object very many attributes are provided. As multiple concepts described by different attributes are mixed in the same data set, clusters do not appear in all dimensions. In these high dimensional data spaces, each object can be clustered in several projections of the data. Subspace Clustering aims at detecting such clusters in any subspace projection. However, as the number of possible projections is exponential in the number of dimensions, the result is often tremendously large. Recent approaches fail to reduce results to relevant subspace clusters. Their results are typically highly redundant, i.e. many clusters are detected multiple times in several projections.

In this talk, we discuss accurate but also efficient solutions to the general problem of redundancy in subspace clustering. We present a global optimization which detects the most interesting non-redundant subspace clusters. We prove that computation of this model is NP-hard. Thus, for an efficient computation we propose an approximative solution that shows high accuracy with respect to our relevance model. We report experiments on synthetic and real world data showing that our approach successfully reduces the result to manageable sizes. It reliably achieves top clustering quality while competing approaches show greatly varying performance.

28.1.2010 (13:15 Uhr in Raum 412)
Eigenvector-Based Clustering Using Aggregated Similarity Matrices

Hans-Henning Gabriel (AG Wirtschaftsinformatik II Wissensmanagament und Wissensentdeckung)

Clustering of high dimensional data is often performed by applying Singular Value Decomposition (SVD) on the original data space and building clusters from the derived eigenvectors. Often no single eigenvector separates the clusters. We propose a method that combines the self-similarity matrices of the eigenvector in such a way that the concepts are well separated. We compare it with a K-Means approach on public domain data sets and discuss when and why our method outperforms the K-Means on SVD method.

14.1.2010 (13:15 Uhr)
Data Mining in der Landwirtschaft

Georg Ruß (AG Computational Intelligence)

Mit der in den letzten Jahren stark zunehmenden Rationalisierung und Technisierung in der Landwirtschaft hat sich ein relativ junges Gebiet herausgebildet: Präzisionslandwirtschaft (precision agriculture). Dieses
Gebiet befindet sich an der Schnittstelle von Landwirtschaft und Informatik. Da aufgrund verbesserter und neuer Technologien wie (differentiellem) GPS, neuen Sensoren und bildgebenden Verfahren immer mehr Daten anfallen und gesammelt werden können, spielen hier insbesondere die Datenanalyse und das Data Mining eine zentrale Rolle, um diese Rohdaten in nützliches Wissen zu verwandeln.

Im Vortrag werden einige Ansätze zu spezifischen Fragestellungen auf diesem Gebiet vorgestellt. Im ersten Teil des Vortrags wird die Herkunft der Daten genauer vorgestellt; ein Überblick über die verschiedenen Datenarten wird gegeben. Insbesondere ist hierbei die Unterscheidung zwischen räumlichen und nicht-räumlichen Daten erwähnenswert. Dies wird am Beispiel der Ertragsvorhersage genauer erläutert, wobei auf das Problem der räumlichen Autokorrelation näher eingegangen wird. Hierbei bietet sich die Möglichkeit, einige der Verfahren zur multidimensionalen Regressiono, die üblicherweise für nicht-räumliche Daten genutzt werden, auf räumliche Daten zu übertragen. Dazu wurde ein relativ simpler, generischer Ansatz entwickelt, der auf räumlichem Clustering beruht. Weiterführende Ideen zu diesem Thema, die den vorgestellten Ansatz benutzen, werden vorgestellt.

11.12.2009 (11:00 Uhr)
Probabilistic information integration in the Semantic Web

Livia Predoiu

Since it can be expected that the amount of information describing overlapping domains will be huge on the Semantic Web, we need to face the necessity to apply automatic matching and integration techniques in order to integrate that huge amount of information. However, the results of automatic matching and integration techniques per se are attached with some sort of uncertainty. E.g. any matcher produces its mappings with a confidence. When integrating the information automatically, it is important to take the uncertainty of the mappings into account. My research revolves around modelling the results of those uncertain matching techniques by means of probability theory and using probabilistic logics for reasoning with uncertain mappings and deterministic ontologies.
In this talk I will present two logical formalisms that allow to use probabilistic mapping rules to integrate ontologies represented in description logic formalisms underlying OWL which is a W3C language recommendation for the Semantic Web.

27.11.2009 (11:00 Uhr)
Learning from the Human Visual System - Can eye tracking help to alleviate the automatic object recognition task?

Christian Hentschel (Fraunhofer Institut für Nachrichtentechnik, Berlin)

Visual scene and object recognition in the past has been largely conceived as a stimulus-driven classification task: low-level features get extracted at region level and the image is classified based on these features using machine learning techniques. The automatic selection of image regions that are supposed to contain valuable information, however, still is an open issue in computer vision. In addition research in cognitive psychology has shown that visual attention cannot be modelled satisfactorily based on image stimulus only but can be task-dependent.
Although numerous keypoint detection algorithms exist, there has been only little work to justify the appropriateness in terms of their ability to match the human visual attention process. It has only been since the availability of robust eye tracking systems that identifying the fixation points of a human observer became possible and some researchers in computer vision are now trying to model saccadic targeting in order to improve keypoint detection techniques.
In my presentation I will provide some ideas on how to exploit eye tracking data to find regions and features that are likely to attract attention. The major idea is to evaluate whether it is possible to identify a minimal set of common salient regions required for understanding a given semantic concept.

12.11.2009 (13:15 Uhr)
An alternative metaheuristic selection strategy

Kent Steer (zur Zeit AG Computational Intelligence)

The selection and configuration of metaheuristic optimisation algorithms for specific problem sets is itself a problem needing attention. In some situations-where a set of problems with exploitable similarities is given-it is worth investing time in determining the most appropriate algorithm. It is currently common to use a set of benchmark problems and extrapolate the results to the problems of interest. We are exploring an alternative approach based on analysis of the problem structure, with the goal of associating algorithm performance with specific search space features.

08.10.2009
Ontologiebasierte Indexierung und Kontextualisierung persönlicher, multimedialer Dokumente

Annett Mitschick

Digitale Daten und Dokumente bestimmen mittlerweile einen Großteil unseres Alltags - nicht nur im professionellen sondern verstärkt auch im privaten Umfeld. Die Anwender sehen sich zunehmend mit dem Problem konfrontiert, geeignete Strategien zur Organisation ihrer Dokumente zu entwickeln, um eine effiziente Verwaltung zu gewährleisten und auf die enthaltenen Informationen schnell und zielsicher zugreifen zu können. In der Regel sammeln sich im Laufe der Zeit große Mengen eher grob oder unzureichend organisierter Dokumente an. Eine geeignete Grundlage für eine Lösung zur intelligenten, langfristigen Dokumentenverwaltung bietet das Semantic Web und die damit verbundenen Technologien. Mit Hilfe anwendungsspezifischer Ontologien kann der Nutzer Dokumente über deren Relationen zueinander und zu persönlichen, kontextuellen Informationen verwalten und wiederfinden. Dazu sind jedoch entsprechende Automatismen notwendig, die dem Anwender grundlegenden Annotations- und Bearbeitungsaufwand abnehmen und eine ausreichende Datenqualität und -konsistenz sicherstellen. Im Rahmen dieses Vortrages werden zunächst die Herausforderungen und Probleme einer systemgestützten, ontologiebasierten Dokumentenverwaltung sowie der aktuelle Stand der Forschung dargestellt. Die anschließende Vorstellung des am Lehrstuhl Multimediatechnik der TU Dresden im Forschungsprojekt K-IMM erarbeiteten Lösungsansatzes für die Indexierung und Kontextualisierung persönlicher multimedialer Dokumente mit Hilfe semantischer Informationen wird durch die praktische Demonstration eines entwickelten Prototyps abgerundet.

07.05.2009
Design elements of B2G collaborations in global trade

Barbara Flügge (SAP AG)

In global trade, business partners, customs, and tax authorities are confronted with regulatory and technically safeguarding measures that affect business-to-government interactions. One of which is the plan to deploy a number of B2G relevant software applications (cf. European Commission (2006), p. 22 f.). Having issued scope and deployment details to EU member states, references to IT implementation, architectural and standardization specific requirements or recommendations are not yet provided. To-date global trade activities are supported with the following offerings:

Each of the named offerings contributes to B2G collaborations. A choreographed and B2G focused composition of these offerings however does not exist so far. The following presentation introduces key elements and describes them. It prospects further steps needed for a choreographed composition of these elements.

Reference: European Commission. (2006). Commission Staff Working Document: Annex to the Proposal on the Community programme CUSTOMS 2013 Impact Assessment. Retrieved. from http://ec.europa.eu/taxation_customs/resources/documents/Customs2013_impact.pdf.

02.04.2009
Scienstein - A Research Paper Recommender System

 

Jöran Beel, Bela Gipp (VLBA Lab)

Die Suche und Qualitätsevaluierung von wissenschaftlichen Dokumenten ist sehr zeitaufwändig. Synonyme, die zunehmende Menge von Publikationen und mehrdeutige Nomenklaturen erschweren die Suche nach relevanten Dokumenten. Hinzu kommt, dass sich Nomenklaturen mit der Zeit ändern. Daher ist es wahrscheinlich, dass bei der Verwendung von Schlüsselwort basierten Suchmaschinen einige relevante Dokumente nicht gefunden werden. Nachdem eine Publikation gefunden wurde muss der Leser deren Qualität und Glaubwürdigkeit bewerten. Normalerweise wird hierfür die Reputation des herausgebenden Journals herangezogen oder die Anzahl von Zitationen ermittelt. Beide Methoden erlauben jedoch keine zuverlässige Qualitätsevaluation.

Das Projekt Scienstein, welches im VLBA-Lab entwickelt wird, soll die aktuelle Situation verbessern. Dafür werden existierende Such- und Empfehlungsverfahren kombiniert, verbessert und neue entwickelt. Neue Verfahren sind u.a. "fortgeschrittene Zitationsanalyse", "Collaborative Document Evaluation" und die Analyse der genutzten Dokumente. Diese komplexen Möglichkeiten werden mittels einer komfortablen Grafischen Benutzeroberfläche dem Nutzer zur Verfügung gestellt.

26.02.2009
The ImageCLEF2009 PhotoAnnotation Task

Christian Hentschel (Fraunhofer Institut für Nachrichtentechnik, Berlin)

This years ImageCLEF visual concept detection and photo annotation task will focus on large scale image data and a significant increase in visual concepts to be detected. Several thousands of photos taken from the Flickr community will be provided depicting an approximate of 50 different concepts, which will be presented in a small ontology. The scale of this task poses significant problems for current image classifiers as these are typically designed to distinguish a few concepts only. This short presentation will introduce the ImageCLEF task and the provided data in more detail and will show some ideas for concept detection that shall be applied. More specifically we intend to exploit the hierarchical order of the ontology and the relations between concepts to allow for reasoning from real world objects to abstract concepts. Local image description using saliency feature points shall be used for local object detection.

21.06.2007
Personalized Hierarchical Collection Structuring

Korinna Bade (AG Information Retrieval)

With the huge amount of available electronic data, the need for efficient organization of personal data is strong in order to re-find information. Labeled hierarchical structures have proven useful in the past and are widely used for this purpose. Unfortunately external data is usually not structured at all or not structured by criteria most useful to a certain user. However, such hierarchies are most efficient for a user, if they reflect his personal preferences. Therefore, my work deals with structuring collections in a hierarchy most appropriate to a certain user using user specific data. I view the problem from two different perspectives. In the first case, a given user hierarchy is fixed and the collection shall be structure into this hierarchy. In the second case, the given user hierarchy can be further defined and is assumed in general to be uncomplete. I show how these problems could be solved with either a hierarchical classification approach (case 1) or a hierarchical constraint based clustering approach (case 2).

24.05.2007
A real-word problem: Application of Neuro fuzzy techniques to predict physical sensitivity and vulnerability for marine cage culture

Juan Navas Moreno (Geographical Information System Group, Institute of Aquaculture, University of Stirling, UK)

There is a need to develop new modelling techniques that assess to select the best site for marine cage culture in coastal water with less expensive data and which are robust when the data are uncertain and incomplete. The incorporation of Geographic Information Systems (GIS), and 3D Hydrodynamics modelling have the potential for creating a successful modelling tool. The output will be an environmental spatial model for coastal areas intended to facilitate policy decision, taking into account the intrinsic characteristics of the target area, in this case an Irish fjord.

14.12.2006
Semantic Support for Cross-language Text Retrieval

Ernesto W. De Luca (AG Information Retrieval)

Current search engines (e.g. Google) have become an essential tool for the majority of Web users. Nevertheless, certain fundamental properties leave room for improvement. For instance, from a linguistic point of view, current information retrieval systems lack lexical and grammatical resources with sufficient coverage for unrestricted text. Linguistic Information (e.g. semantics) can help users in specifying the meaning of their query for retrieving only the relevant documents related to it. In this talk I present an interface for supporting users in an interactive multilingual search process using semantic classes. The focus of this presentation is especially on the problem of browsing and navigating the different meanings of a word in one source and possibly several target languages. Therefore, word sense disambiguation, cross-language text retrieval and document categorization play, in this case, an important role for building such an interactive multilingual retrieval system.

Mittwoch 23.08.2006 15:00
Reliable Classifiers via Isometrics in ROC Space

Stijn Vanderlooy (Institute for Knowledge and Agent Technology (IKAT), Faculty of General Sciences, Universiteit Maastricht, The Netherlands)

A wide variety of state-of-the-art machine learning classifiers are available to be used in practice. Nevertheless, only few classifiers are employed in application domains with high misclassification costs, e.g., medical diagnosis. Classifiers can be applied only if they are reliable: they guarantee at least the necessary performance on each class as defined by domain experts. In this talk I will outline a technique that tunes and, if needed, transforms a classifier such that it guarantees a sufficient level of reliability. I will show that this technique is practically useful and does not have any strong assumption. Therefore, it enables the application of classifiers in real-life domains with high misclassification costs.

24.05.2006 (Raum G22A-203)
Community Dynamics Mining

Tanja Falkowski (AG KMD)

Recently, several methods and tools have been proposed to extract communities from static graphs. However, since communities are not static, but change over time, it is necessary to provide methods to determine and observe the community transitions and to extract the factors that cause the development. We regard a community as an object that exists over time and propose to observe community transitions along the time axis. For this we partition the time axis under observation by time windows. In each time window, a set of interactions between community participants is aggregated. These static networks are analyzed for sub-communities by applying community detection mechanisms. Through this we detect communities in each interval and can observe if they persist over time or undergo a transition.

30.03.2006
Data Mining auf Datenströmen

Jürgen Beringer (AG DKE)

Datenströme liefern über einen beliebig langen Zeitraum kontinuierlich sehr große Datenmengen, die es zu verarbeiten und zu analysieren gilt. In diesem Zusammenhang beschäftige ich mich mit der Entwicklung verschiedener Data Mining Methoden, die den speziellen Anforderungen von Datenströmen gerecht werden. Im Rahmen des Vortrages werde ich konkret auf Ansätze zum Clustern und Klassifizieren eingehen.

16.03.2006
Linguistische Analysen für die semantische Aufbereitung von Dokumenten

Manuela Kunze (AG Wissensbasierte Systeme und Dokumentverarbeitung)

In diesem Vortrag werden Methoden vorgestellt, die für die Extraktion von Informationen aus natürlichsprachlichen Dokumenten genutzt werden können. Auf der Basis ausgezeichneter morphosyntaktischer Informationen in Dokumenten werden neben einem semantischen Tagger und einer Kasusrahmenanalyse auch die semantische Analyse syntaktischer Strukturen für die Erkennung von semantischen Konzepten und Relationen genutzt. Die Qualität der vorgestellten Verfahren wird im starken Maße durch die Güte bzw. Abdeckung der verwendeten Ressourcen beeinflusst. Die Ressourcen manuell für die Verarbeitung eines neuen Korpus zu erweitern ist zeitaufwändig. Mittels korpusbasierter Ansätze kann dieser Aufwand reduziert werden. Auf diese Ansätze wird im Vortrag kurz eingegangen. Es handelt sich dabei um Verfahren, die zur gebietsspezifischen Erweiterung des lexikalischen Wortnetzes GermaNet genutzt werden können.

02.03.2006 13:00
Fairnet: A Reputation System for P2P Data Structures

Erik Buchmann (AG DKE)

Peer-to-Peer (P2P) Datenstrukturen (bzw. P2P Overlays oder Strukturierte P2P Netzwerke) verteilen Daten und Arbeitslast über viele Teilnehmer in einem großen, offenen Rechnernetzwerk. Die meisten Ansätze für P2P Datenstrukturen gehen davon aus, dass sich alle Peers freiwillig protokollgerecht verhalten und bereitwillig ihren Anteil an der Arbeitslast übernehmen. Die ökonomisch dominante Verhaltensweise für anonyme Peers in offenen Netzwerken besteht jedoch darin, Anfragen anderer Teilnehmer nicht zu beanworten um Ressourcen zu sparen, d.h., sich unkooperativ zu verhalten. Der Vortrag wird ein reputationsbasiertes Protokoll beschreiben, das dieses unkooperative Verhalten unattraktiv macht. Das Protokoll basiert darauf, Feedback über geleistete oder verweigerte Arbeit zwischen benachbarten Knoten auszutauschen. Dabei wird der Vortrag auch auf Probleme eingehen, die bei der Anwendung eines derartigen Protokolls auftauchen, insbesondere auf gefälschtes Feedback.

Letzte Änderung: 27.06.2016 - Ansprechpartner: Webmaster