Zu Hauptinhalt springen
Gewählte Sprache ist Deutsch Select language
Startseite UR

Wissen schafft2 Daten

Daten lesen und verstehen zu können, ist von vitaler Bedeutung für alle mündigen Bürger. Was über Jahre gut funktionierte, ist wieder zu einer akademischen und gesellschaftlichen Herausforderung geworden, als sich Form, Struktur, Menge und Zugänglichkeit von Daten in den letzten Jahren rasant verändert hat. Unsere moderne Welt ist voller neuer und durchaus sensibler Datenbestände, in denen sowohl wissenschaftliche und wirtschaftliche Perspektiven als auch gesellschaftliche Risiken verborgen sind. Data Literacy wurde so zu einer Schlüsselkompetenz für viele Fachbereiche unserer Universität. Mit einer fakultätsübergreifenden Data Literacy-Initiative wollen wir unsere Studierenden in die Lage versetzen, gekonnt, kritisch und verantwortungsbewusst mit modernen Daten zu arbeiten. Unsere Absolventen werden so für den Arbeitsmarkt kompetitiver, unser Lehrangebot insgesamt attraktiver und der Ausbildungs-, Forschungs- und Industriestandort Ostbayern nachhaltig stärker.

Wir entwickeln eine Data Science-Ausbildung für Studierende aller Fakultäten, in der sie zwei abgestufte Zertifikate (das kleine und das große „Daten-Latinum“) erwerben können. Eines richtet sich an Studierende ohne Vorkenntnisse, und eines an Studierende, die in ihren Studiengängen bereits einschlägige Grundlagen (z. B. in Programmierung, Statistik oder Maschinellem Lernen) erwerben konnten. Zusätzlich etablieren wir einen von Studierenden eigenverantwortlich gestalteten und geleiteten Data Science-Inkubator, in dem die Zusammenarbeit über Fakultäten hinweg vor allem durch Studierende gedeihen soll.

Die Lehre in Daten schafft2 Wissen basiert auf fünf Säulen:


SÄULE 1

MOTIVATION

Um Studierenden zu zeigen, was sie in ihren jeweiligen Fächern mit Data Science-Methodik erreichen können, werden wir in la-fende fachspezifische Grundvorlesungen Teaser im Umfang von 1-2 Doppelstunden integrieren. Um ihnen zu vermitteln, dass Data Science von interdisziplinärerem Austausch lebt, entwickeln wir eine Ringvorlesung, in der Lehrende unterschiedlicher Fachbereiche ihren Zugang zur Data Science darlegen. Zusagen haben wir für Beiträge zur Stilometrie, zum Fußgängernavigationssystem der Universität, zu Alexa, zum Suchverhalten im Internet, zu Genomstrukturdaten, zu personalisierten Therapieentscheidungen, zu Proteinstrukturdaten, zu High Performance Computing und Künstlicher Intelligenz, zum Brain-Imaging und zu ökologischen Modellen.

SÄULE 2

DATA 101

Studierende erwerben die Kompetenz, Data Science-Problemstellungen in R zu bearbeiten. Dazu werden unsere Studierenden echte Daten analysieren: von Fußballergebnissen über die Clinton-Emails bis hin zur bakteriellen Zusammensetzung der Darmflora. Im Vordergrund dieses Kurses stehen nicht statistische Verfahren und deren mathematische Grundlagen, sondern die Arbeit mit Daten am Computer. Ein wichtiges Ziel ist es die Studierenden weg von Tools wie Excel hin zu einer Programmiersprache wie R oder Python zu führen, die nicht nur flexibler und mächtiger sind, sondern auch die Analysen eindeutig und reproduzierbar dokumentieren.

Säule 3

KERNKOMPETENZEN

Darunter verstehen wir Programmierung und statistisches Denken und bauen auf das existierende Lehrangebot auf. In dafür konzipierten Kursen werden den Studierenden die fundamentalen Konzepte und Denkweisen aus Informatik und Statistik vermittelt.

Bei der Programmierung setzen wir auf die Sprachen Python und R. Entsprechende Kurse für Anfänger existieren bereits und müssen nur auf den Bedarf nachfolgender Kurse abgestimmt werden. Anstelle von Fortgeschrittenenkursen werden wir auf die ständige Nutzung der Sprachen in Datenanalyseprojekten setzen.

Säule 4

Fortgeschrittene Methoden

Aktuelle Stellenausschreibungen enthalten Stichworte wie: Maschinelles Lernen, Künstliche Intelligenz, Deep Learning, Big Data, Data Mining, Bildanalyse, Zeitreihenanalyse, Regression, Räumliche Modelle, Bayes’sche Verfahren oder Simulation komplexer Systeme. Dies sind ausnahmslos fortgeschrittene Techniken, deren Erler-nen auf einer grundlegenden Ausbildung in Datenmanagement, Programmierung, und Statistik zwar aufbauen, hier jedoch nicht enden. Wir wollen deshalb auch ein attraktives Angebot an fortgeschrittenen Methodenkursen anbieten: von Daten-Visualisierung über maschinelles Lernen bis hin zu einem Kurs in der Machine Learning-Software TensorFlow und Praktika im Programmieren eines Super-Computers. 

Der Schlüssel zu fortgeschrittenen Data Science-Methoden sind Mathematikkenntnisse, insbesondere aus der Linearen Algebra, der Wahrscheinlichkeitstheorie, und aus Numerik und Optimierung. Wir bieten einen eigenen Kurs für die Data Science-Ausbildung an, in dem die Mathematik immer direkt an Data Science-Probleme gekoppelt ist, zum Beispiel: Vektoren an Datenvisualisierung, Matrizen an Markovketten, Bilinearformen an Kovarianzmatrizen, die Hauptachsentransformation an LDA, das Gesetz großer Zahlen an Simulationstechniken, und der Gradient-Descent an Neuronale-Netze.

Säule 6

 Gesellschaftlicher Bezug

Die sechste Säule in Abbildung 1 – der gesellschaftliche Bezug – ist ein Querschnitts-thema, das wir nicht mit klassischen Lehrformen, sondern in einem innovativen Kon-zept zusammen mit hochschulexternen Akteuren behandeln möchten. Dazu steht mehr unten im Abschnitt über den Inkubator.


Ein wichtiges Konzept des Lehrprogramms ist der Bezug zu wissenschaftlichen Fächern, die Data Science einsetzen. Wir stellen den Bezug über Konnektoren her - das sind Veranstaltungen anderer Fächer, die ihre Lehrinhalte so umstellen, dass auf die Elemente der Data Science-Ausbildung zurückgegriffen wird. Für die Konnektoren gibt es schon mehrere Beispiele:


Konnektor Digital Humanities

In der Erforschung des Blickverhaltens von Personen etwa in Museen bei der Betrachtung von Exponaten, auf der Suche nach Sehenswürdigkeiten im Urlaub oder während der Orientierung bei Navigationsvorgängen als Fußgänger spielt maschinelles Lernen eine immer größere Rolle. Denn es verbindet in einem datengetriebenen, empirischen Ansatz Ergebnisse aus der Wahrnehmungspsychologie mit Resultaten aus der qualitativen Analyse wahrnehmbarer Objekte und effektiv und effizient berechenbaren Eigenschaften der Objekte. Der zentrale Begriff ist der der Salienz. In diesem Konnektor wird der Begriff der Salienz zunächst aus der klassischen Betrachtungsweise in den Fachdisziplinen Psychologie, Kulturwissenschaft und Geo-Informationssysteme vorgestellt. Im zweiten Teil werden empirische Methoden, insbesondere Befragungen über standardisierte Fragebögen besprochen, mit deren Hilfe die Salienz konkreter Objekte erfasst werden kann. Im dritten Teil werden rechnergestützte Verfahren zur Berechnung der Salienz aus Bilddaten (z.B. Farbunterschiede, Farbhistogramme) und aus Blickdaten erlernt. Ziel des Konnektors ist, mit Hilfe moderner Methoden des maschinellen Lernens Korrelationen zwischen objektzentrierten und betrachterzentrierten Modellen für Salienz zu ermitteln. Damit lässt sich ein für viele Anwendungen in den Digital Humanities relevantes Problem, nämlich die Prädiktion von Verhalten bzgl. konkreter Objekte (z.B. welche Stellen eines Gemäldes betrachten Museumsbesucher, welche eher nicht, und wie kann dann etwa ein Audio-Guide lehrreich und unterhaltsam gestaltet werden).


Konnektor Stilometrie

 Die Frage der Autorschaft und der besonderen Stilistik eines Autors ist ein klassisches Thema in der Literatur- und Sprachwissenschaft und auch in der Kunstgeschichte. Aus der Antike überlieferte Handschriften sind oft nur fragmentarisch erhalten oder im Lauf der Zeit falschen Autoren zugeordnet worden. Nicht immer ist eine Korrektur mit inhaltlichen Argumenten möglich, aber der quantitative Vergleich des Sprachstils kann eine erfolgreiche Methode zur Beantwortung derartiger Fragen sein. Auch in der jüngeren Literaturgeschichte war dies der Fall: der Roman “The Cookoo’s Calling” wurde unter dem Namen Robert Galbraith als Autor veröffentlicht, mit Hilfe der Stilometrie wurde aber ermittelt, dass dieser Name das Pseudonym der Harry-Potter-Autorin Joanne K. Rowling ist. Quantitative Stilometrie basiert auf Corpora und deren maschineller Verarbeitung. Data Science spielt also eine zentrale Rolle. Dies ist auch der Fall bei der Charakterisierung des Sprachstils verschiedener Epochen oder literarischer Gattungen. Im Zeitalter der sozialen Medien bekommt Stilometrie eine neue Bedeutung. Sie hilft beim Aufdecken von Bot-Beiträgen in Online-Foren, in Tweets oder in anderen Informationskanälen. In der Kunstgeschichte ist die Farbigkeitsanalyse eine wesentliche Methode, auch sie ist corpusbasiert - in diesem Fall auf Bilddaten. So haben Herrscherportraits oft auffallend ähnliche Farbhistogramme. Auch in der Photographie lassen sich typische Histogramme für redaktionell bearbeitete Photographien von Politkern ausmachen. Auch hier greift die Digitalisierung in klassische Theorien ein.


Konnektor Sequenzkonservierung

Erbgut kann man sich als einen Programmcode vorstellen, der über Milliarden Jahre durch zufällige Variation und Selektion entstanden ist. Eine Grundstrategie der Evolution war dabei das Kopieren existierenden und funktionierenden Codes gefolgt durch die Abänderung beider Kopien durch Mutation. Schaut man heute auf genomische Daten unterschiedlicher Lebewesen, ist dies noch sehr gut in Form konservierter Sequenzen erkennbar. Aus der Analyse konservierter Sequenzen können Biologen und Biomediziner Rückschlüsse auf zelluläre Krankheitsmechanismen ziehen. In diesem Konnektor erlernen Studente Data-Science-Methoden zur Analyse konservierter Sequenzen in DNA und Proteinen. Behandelte Themen erstrecken sich von Alignment-Algorithmen über Sequenzmotive, Substitutionsmatrizen, Markovketten aus Sequenzen, phylogenetischen Modellen, Hidden Markov-Modellen bis hin zu BLAST dem Google der Molekularbiologie.

Der Kurs besteht aus einer Vorlesung und begleitenden praktischen Übungen in Python. Grundkenntnisse in Python und Data 101 werden vorausgesetzt.


Konnektor Personalisierte Medizin

Der medizinischen Diagnostik stehen heute Daten und Methoden zur Verfügung, wie man sie noch vor wenigen Jahren sich nicht vorstellen konnte. Sie reichen tief in die molekularen Prozesse der Zellen eines Patienten hinunter bis hin zur Aktivität einzelner Gene in kleine Populationen krankhaft veränderter Zellen. Die molekulare Auflösung ist hoch, und die entstehenden Daten riesig und komplex strukturiert. In diesem Konnektor lernen Teilnehmer, wie Data Science Verfahren von der Visualisierung über das Biomarker Screening, die Integration heterogener Daten bis hin zum Maschinellen Lernen dazu beitragen aus diesen Daten die für Therapieentscheidungen relevante Information zu destillieren. Behandelte Themen reichen von der Segmentierung genomischer Veränderungen, der Normalisierung von Microarray und Sequenzierungsdaten, der False Discovery Rate im Biomarker Screening, dem Clustering von molekularen Patientenprofilen zur Neudefinition von Krankheitsentitäten auf molekularer Basis, Funktionellen Enrichment Analysen, bis hin zu supervisierten Klassifikatoren für Therapieentscheidungen. 

Der Kurs besteht aus einer Vorlesung und begleitenden praktischen Übungen in R. Kenntnisse in R, wie sie in Data 101 erlernt werden können, und ein einführender Statistikkurs werden vorausgesetzt.


Konnektor Computational Biochemistry

 Wissen über die drei-dimensionale Struktur von chemischen und biologischen Molekülen ist für das Verständnis der Funktion dieser Moleküle unerlässlich. Die Studenten lernen in diesem Modul moderne Data-Science-Methoden zur 3D-Strukturbestimmung kennen. Es werden z.B. statistische und bioinformatische Methoden zur automatischen Auswertung von großen experimentellen Datenmengen (NMR, Röntgenkristallographie und Elektronenmikroskopie) und Methoden zur Strukturberechnung wie Molekulardynamikrechnungen behandelt. Eng in Zusammenhang stehen hiermit Verfahren zur Homologie-Modellierung von 3D-Strukturen. Weitere wichtige Punkte sind Methoden zur Visualisierung und Validierung erhaltener Ergebnisse. Neben einzelnen Molekülstrukturen ist die Kenntnis von intermolekularen Interaktionen, wie z.B. Ligand-Rezeptor-Wechselwirkungen, in vielen Fällen entscheidend. Die Studenten lernen in diesem Zusammenhang verschiedene in silico Docking-Verfahren kennen, mit denen diese Interaktionen berechnet werden können.


Konnektor Ökologie

 Die Popularität von Bayes’sche Verfahren hat in den letzten Jahren in allen Bereichen der Wissenschaft stark zugenommen. Der Kurs gibt eine Einführung in die Theorie der Bayes’schen Statistik, in die technischen Methoden (z.B. Markov-Chain Monte Carlo), und in die praktische Anwendung, inklusive der Schätzung von hierarchischen und räumlichen Statistischen Modellen und kausalen Netzwerken.


Konnektor Epigenome

Der menschliche Organismus besteht aus mehr als 400 Zellarten mit zum Teil völlig unterschiedlichen Funktionen. Diese Vielfalt ist eigentlich erstaunlich, da sich Leber-, Gehirn-, oder spezialisierte Blutzellen aus einer einzigen Eizelle entwickeln und alle dasselbe Erbgut tragen. Den Unterschied macht das Ablesen der Erbinformation – Zellen des Gehirns verwenden andere Gene als Zellen der Immunabwehr, kranke Zellen lesen andere Bereiche des Genoms ab als gesunde Zellen. Rasante Entwicklungen der letzten Jahre im Bereich der Sequenziertechnologien haben maßgeblich dazu beigetragen, zelluläre Prozesse besser zu verstehen. Hochdurchsatzverfahren zu Erfassung des Epigenoms, der Chromatinstruktur und des Transkriptoms gehen weit über die Genetik hinaus und ermöglichen Wissenschaftlern und Medizinern heute hochauflösende Einblicke in zelltypspezifische Funktionen unseres Genoms. Die erzeugten Datenmengen sind enorm und ihre Interpretation stellt eine bioinformatische Herausforderung dar.

In diesem Konnektor lernen die Studenten, wie Hochdurchsatz-Sequenzier-Verfahren funktionieren und zur Generierung von Transkriptom- oder Epigenomdaten eingesetzt werden. Sie werden Data Science-Verfahren vom Mapping der Sequenzdaten, ihrer Visualisierung im Genomkontext über die Identifizierung regulatorischer Features bis hin zu Pathway-Analysen kennenlernen.

Der Kurs besteht aus einer Vorlesung, begleitenden praktischen Übungen. Kenntnisse in R, wie sie in Data 101 erlernt werden können, werden vorausgesetzt.


Der studentische Data Science-Inkubator

Data Science-Kompetenz finden wir in sehr beachtlichem Maße bei unseren Studierenden. Diese Kompetenz entstammt längst nicht immer unserer Lehre, sondern die Studierenden haben sie in Eigeninitiative oder in Nebenjobs bei Unternehmen der Region erworben. Unter dem Motto „Nerds aller Fakultäten, vereinigt euch!“ wollen wir diese studentische Expertise bündeln, besonders fördern, und in die Data Literacy-Ausbildung einbeziehen.

Neben der klassischen Lehre ist daher ein studentischer Data Science-Inkubator Teil unserer Initiative. Der Inkubator ist eine studentische Einrichtung mit eigenem Budget. Ihm können Studierende unterschiedlicher Fakultäten angehören, und ihn mit persönlichem Engagement prägen. Sie bearbeiten in Eigeninitiative Data Science-nahe Projekte und entwickeln aus den Erfahrungen ihrer Use-Cases praktische Übungen, die entweder in existierenden Data Science-Veranstaltungen von Lehrenden genutzt werden, oder als eigenständige ergänzende Veranstaltungen von Studierenden an Studierende in die Lehre einfließen. Diese Arbeit kann sich der Inkubator von den profitierenden Fakultäten und Lehrstühlen in SHK Stundensätzen bezahlen lassen. Alternativ können in einigen Studiengängen Inkubator-Projekte als Praktikumsleistungen anerkannt werden. Auch eine Daten-Analyse für ein Forschungsprojekt kann der Inkubator übernehmen und - wenn erfolgreich - mit dem PI abrechnen. Man kann den Inkubator als inneruniversitäres Data Science-Start-Up sehen. Unternehmerische Skills wie strategische Vernetzung, Werbung, Priorisierung von Projekten, Budgetierung, Buchhal-tung und Berichtswesen werden so „nebenbei“ geübt. Mit dem Inkubator wollen wir die Rolle der Studierenden weiter stärken. Im Vergleich zu klassischen - den Lehrstühlen zugewiesenen - Tuto-ren sehen wir in dem studentischen Inkubator gleich mehrerer Vorteile:

  • Data Science-affine Studierende finden sich zusammen und bilden eine Ge-meinschaft.
  • Es gibt eine fachschaftsähnliche Repräsentation und Vernetzung der Data Science-Studierenden.
  • Es entsteht eine Kultur fakultätsübergreifender Zusammenarbeit von unten.
  • Die Teamfähigkeit, Eigenverantwortlichkeit und Strukturfähigkeit von Studie-renden wird gefördert.

Bedarfsorientierung

Wieder setzen wir auf die Inkubatorstruktur: Schon im Studium können die Studierenden im Inkubator mit Unternehmen in Kontakt treten und deren Bedarfe und Interessen kennenlernen. Dazu werden die Mitglieder im Inkubator regelmäßige Treffen mit Unternehmen im Einzugsbereich der Universität Regensburg organisieren, in denen ein gegenseitiger Informationsaustausch stattfinden wird, der Einfluss auf die Tätigkeiten des Inkubators haben soll: Studierende erfahren, welche methodischen und wissenschaftlichen Kompetenzen die Unternehmen bei ihrem (zukünftigen) Personal suchen, und können ihre Lehreinheiten entsprechend gestalten, eventuell sogar die Unternehmen einbinden. Unsere Brücken zur Arbeitswelt sind die Digitale Gründerinitiative Oberpfalz, eine Organisation der Stadt Regensburg, des Bezirks Oberpfalz und des Freistaats Bayern, die den Auftrag hat, als Katalysator innovative unternehmerische (Start-Up)-Aktivitäten zu fördern, und der Fraunhofer Medical Data Space, eine Initiative, die es sich zur Aufgabe gemacht hat, die Chancen der Digitalisierung in der Medizin wirtschaftlich zu nutzen, und gleichzeitig unserer gesundheitlichen Daten sicher zu halten. Beide Organisationen werden uns unterstützen den Austausch zwischen Unternehmen, Studierende und der Universität zu bündeln und zu koordinieren. Mitarbeiter beider Organisationen sind somit auch Teil unseres Entwicklerteams.

Aktivitäten des Inkubators

Im Inkubator realisieren Studierende Projekte verschiedener Art: Lehr- und Lernprojekte sind Vorhaben, in denen Studierende Kurse und Begleitmaterial zur interdisziplinären und fakultätsübergreifenden Data Science-Ausbildung entwickeln, z. B. einen Kurs über Patentmining für Juristen oder ein Projekt für Grundschüler über die Risiken des Internets. In praktischen Entwicklungsprojekten realisieren sie Lösungen für Data Science-Fragestellungen und -Anwendungen, z. B. selbstfahrende Roboter oder ein Assistenzsystem, das anhand markierter wissenschaftlicher Zeitschriftentitel im Hintergrund andere einschlägige Arbeiten findet. Damit der Inkubator öffentlich bekannt und wirksam werden kann, müssen sich seine Mitglieder um eine Internet-Präsenz kümmern, Veranstaltungen organisieren, dazu Referenten einladen, Hackathons organisieren oder Informationsbroschüren für Schüler herstellen.

Wir finden, dass auf diesem Weg der Inkubator und seine Mitglieder zeigen können, was und wieviel sie können, sowohl bei der Vermittlung ihres Wissens an andere Studierende als auch bei der Lösung fachlicher Aufgaben als auch beim Aufrechterhalten eines Betriebs. 

Damit der Inkubator in der Praxis arbeiten kann, muss jemand entscheiden, wann welche Projekte durchgeführt werden. Dazu wählen Studierende ein Führungsteam, wenn sie sich für die Data Science-Zusatzausbildung eingeschrieben haben. Die Studierenden können auch entscheiden, Hochschullehrer in das Gremium zu wählen und auch hochschulexterne Personen, wie etwa die Projektleitung der Digitalen Gründerinitiative Oberpfalz. Das Führungsteam kann Funktionen und Titel an Mitglieder vergeben und Ansprechpartner nach außen bestimmen. Es trifft sich regelmäßig und beschließt, wofür der Jahresetat ausgegeben wird.

Ein weiteres wesentliches Ziel des Inkubators ist, das Interesse von außen auf den Inkubator zu lenken. Der Lehrstuhl „Führung und Organisation“ aus der Fakultät für Wirtschaftswissenschaften könnte sich für einen Kurs zum Thema „Erkennung von Persönlichkeitsprofilen aus Bewerbungsunterlagen“ interessieren und beim Inkubator fragen, ob dort eine Lösung dafür erarbeitet werden kann. Das Führungsteam soll in solchen Fällen überlegen, wie eine Lösung aussehen kann und dem Lehrstuhl ein Angebot unterbreiten. Falls er es annimmt, können im Inkubator mehr Studierende an mehr Entwicklungs- und Lehrprojekten arbeiten, und lernen die notwendigen Kompromisse zwischen technischer Perfektion und realistischen Kosten zu schließen. So werden wir Eigeninitiative stärken, Kompetenzen vermitteln und Netzwerke bilden.

  1. Fakultät für Sprach-, Literatur- und Kulturwissenschaften
  2. Institut für Information und Medien, Sprache und Kultur (I:IMSK)