Organizational details:

Price Full day: 150 €
Price Half Day: 75 €

Please note that each tutorial allows only a limited number of participants. The booking is possible with the registration here.


Tutorials Biometry - Sunday, 28 August 2016



Adaptive Designs and Multiple Testing

Full day: 10:00 - 17:15 hrs

Frank Bretz (Novartis, University of Hannover)

Tim Friede (University of Göttingen)

This one-day course gives a broad overview of adaptive designs and multiple testing by introducing key methodologies of adaptive designs and multiple testing. Furthermore, the latest trends in these fields will be highlighted and future directions will be discussed. The methods will be motivated and illustrated by real-life examples from clinical research and relevant regulatory guidelines will be discussed.



Longitudinal and Incomplete Data

Full day: 10:00 - 17:15 hrs

Geert Molenberghs (Hasselt University)

Contribution on Longitudinal Data: We begin by presenting linear mixed models for continuous hierarchical data. The focus lies on the modeler’s perspective and on applications. Emphasis will be on model formulation, parameter estimation, and hypothesis testing, as well as on the distinction between the random-effects (hierarchical) model and the implied marginal model.

Then, models for non-Gaussian data will be discussed, with a strong emphasis on generalized estimating equations (GEE) and the generalized linear mixed model (GLMM). To usefully introduce this theme, a brief review of the classical generalized linear modeling framework will be presented. Similarities and differences with the continuous case will be discussed. The differences between marginal models, such as GEE, and random-effects models, such as the GLMM, will be explained in detail.

Contribution on Incomplete Data: When analyzing hierarchical and longitudinal data, one is often confronted with missing observations, i.e., scheduled measurements have not been made, due to a variety of (known or unknown) reasons. It will be shown that, if no appropriate measures are taken, missing data can cause seriously jeopardize results, and interpretation difficulties are bound to occur. Precisely, a framework will be sketched to handle incomplete data. Simple and simplistic methods will be commented on. Methods to properly analyze incomplete data, under flexible assumptions, are presented. These include ignorable likelihood analysis, ignorable Bayesian analysis, weighted estimating equations, and multiple imputation. To conclude, the issue of sensitivity to unverifiable assumption is discussed, and addressed through sensitivity analysies.



An Intuitive Approach to Machine Learning: Boosting, Nearest Neighbors, Random Forests and Support Vector Machines

Full day: 10:00 - 17:15 hrs

Andreas Ziegler (University of Lübeck)

Marvin N. Wright (University of Lübeck)

Machine learning is becoming more appealing for a number of reasons. First, the properties of some learning machines are better understood. Second, traditional statistical approaches often fail with high throughput molecular biology technologies. Third, several machines have been extended to operate beyond the standard classification problem for dichotomous endpoints. Many researchers are, however, not familiar with recently developed machine learning approaches, such as gradient boosting, random forests or support vector machines and their extensions. This 1-day course therefore aims at providing an intuitive introduction to some of the most important machine learning approaches currently used. We show that all problems from generalized linear models and even survival endpoints can be tackled with machine learning. The focus of the theoretical sessions is the non-technical but intuitive explanation of the algorithms (instructor: Andreas Ziegler), and the focus of the hands on laptop sessions is to see the machines operating using R (instructor: Marvin Wright). The combination of simple descriptions in a language familiar to biostatisticians together with the use of standard statistical software should help to demystify machine learning.


Tutorials Medical Informatics - Sunday, 28 August 2016



The OMOP Common Data Model and the OHDSI Analytics Platform for Observational Research across the Globe.

Full day: 10:00 - 17:15 hrs

Karthik Natarajan (Dept. of Biomedical Informatics, Columbia University New York)

Christian Reich (Real World Evidence Solutions, IMS Health)

In this tutorial, we will introduce you to the OHDSI open-source platform for conducting large scale analytics on observational health data. You will learn how the data are organized in a harmonized format and representation (coding) irrespective of their source, and how they are queried. In addition, you will become familiar with the various standardized analyses through the analytics tools available for free.

Observational Health Data Sciences and Informatics (OHDSI) is an open, multi-stakeholder, interdisciplinary collaborative whose goal is to create and apply open-source large-scale data analytic solutions to observational health data. The purpose is to improve health care globally by creating reliable scientific evidence about disease, healthcare delivery, and the effects of medical interventions. OHDSI spans an international network of researchers and health databases worldwide. Currently, with a goal to reach 1 Billion  + patient records, the growing network of collaborators consists of 100+ academic, industrial, and regulatory researchers.

Our focus will be on the use of the OMOP Common Data Model (CDM) and the Observational Health Data Sciences and Informatics (OHDSI) analytics platform. We will guide participants through

1)    how to query data in the standardized OMOP data model, and how to transform them into the standard model;

2)    how to characterize population level data for uses such as clinical benchmarking, research, and data quality; and

3)    conducting epidemiological analyses across a distributed network of data sites.

Target audience:  Clinical researchers, informaticians, statisticians, and software developers interested in developing and utilizing large-scale data analytics.

Background knowledge: The attendees are not expected to have any required skills. Basic understanding of SQL is preferred.



An introduction to HL7 FHIR: What is it? And why should you care?

Half day (morning): 10:00 - 13:15 hrs

Marten Smits (The Furore FHIR team)

FHIR is a next generation standards framework created by HL7. FHIR combines the best features of HL7's v2 , HL7 v3  and CDA  product lines while leveraging the latest web standards and applying a tight focus on implementability. The tutorial offers a hands-on overview of the content of the HL7 FHIR standard. It also offers guidance on how to design, develop and test software that uses the HL7 FHIR interoperability standard.

This workshop is aimed at those with a general interest in new ways of interoperability, and especially for those involved with the design, development, implementation, deployment and support of systems that use (or will use) the HL7 FHIR standard.

  • Goals of the workshop, after attending this workshop, attendees will be able to:
  • Explain the key principles underlying FHIR.
  • Explain the relationship between FHIR and related standards (e.g. HL7 CDA/HL7 v2/IHE).
  • Describe the characteristics and contents of the core FHIR information models.
  • Understand how FHIR aligns with REST, object-oriented and other common software-engineering principles.

Background knowledge: The attendees are assumed to be familiar with

  • XML, Json and web-infrastructure protocols,
  • Although not a requirement, knowledge of HL7 version 2 and/or HL7 version 3 will be helpful in understanding the material,
  • General principles of data modeling.



TranSMART for Beginners: A Practical Hands-On Training

Half day (afternoon): 14:00 - 17:15 hrs

Christian Maier (Chair of Medical Informatics, University of Erlangen-Nuremberg, Germany)

Benjamin Baum (Dept. of Medical Informatics, Univ. Medical Center Göttingen, Germany)

TranSMART is a very successful open source platform, supported by the tranSMART foundation, for integrating various types of clinical patient data with omics analysis data, additionally providing very flexible and comprehensive statistical analyses tools. In this half day hands-on tutorial we will introduce newcomers the background, ETL processes, different analysis scenarios and its RESTful API:

Background: First, we will start with a short theoretical background comprising the evolution of tranSMART from the original Harvard University i2b2 developments to the current version tranSMART 1.2. We will illustrate its capabilities by use cases from two German university medical centers.

ETL: Second, data import is demonstrated since especially ETL is experienced as a fairly challenging step by many in the tranSMART community. Using a demo dataset with clinical and omics data, we will first show how to prepare these data to the necessary formats, how to set up the ETL tooling and how to load the data into tranSMART.

User experience: Third, we will show how users can apply the various tranSMART querying and analysis tools in order to pursue cohort identification, statistics and analysis such as ANOVA boxplots, biomarker identification, survival analysis, heatmaps etc.

RESTful-API: Fourth, not every thinkable analysis can be available within the platform itself. With the development of the REST API for tranSMART it has become possible to programmatically extract data from tranSMART. R is one of the most widely used languages for data science. Within this training, we will finally use the R interface, which is an existing client for R developed on top of the REST API.

Targed audience: early adopters
if you are interested what tranSMART is offering and like to get a feeling about how to get started, for what type of data integration tranSMART fits best and how one can quickly explore a given data set with the tranSMART tools, you will benefit most from this tutorial. By practical examples you will get a hand-on training and go home with a tranSMART implementation and first user experiences. It is however not planned to dig deep into the source code or the tranSMART architecture.


  • technical
    • bring your own device (Windows, Linux, Mac)! Requirements: at least 4GB RAM, 21GB free disk space
    • Install Oracle Virtualbox.
    • Download and import the Virtualbox-file from the URL provided after registration to this tutorial.
    • with regard to content: no special skills required.



Technical and analytical challenges for Learning Health Systems

Half day (morning): 10:00 - 13:15 hrs

Niels Peek (Institute of Population Health, University of Manchester)

Evan Kontopantelis (The Farr Institute for Health Informatics Research University of Manchester)

Learning Health Systems harness the power of data and analytics to learn from every patient and every clinical encounter, feeding knowledge of “what works best” back to clinicians, patients, public health professionals, and other stakeholders using repeated, rapid cycles of improvement. They build on established informatics methods such as real-world data analysis, pragmatic e-trials, computerised decision support, and performance feedback. Ideally, a Learning Health System cuts across sectors of the health system; taking part is voluntarily and gives a direct advantage for those who do (patients, clinicians and provider organisations); and learning is decentralised in the sense that it occurs at all levels of scale.

The implementation of Learning Health Systems builds on established clinical and patient-oriented systems and data flows, but still comes with tremendous challenges. In this tutorial, we provide an introduction to the concept of Learning Health Systems and survey the current state of the art. Subsequently, we focus on the technical and analytical challenges that are associated with creating the Learning Health System infrastructure. In particular, we address
 - statistical analysis of routinely collected data in electronic health records;
 - technical infrastructures for efficient clinical trials using electronic health records;
 - risk stratification methods; and
 - real-time decision support and feedback.

Target audience: Researchers and practitioners that (intend to) work on the implementation of Learning Health Systems or related concepts.
Background knowledge: basic knowledge and skills in electronic health records, statistical modelling, regression analysis, and epidemiology (study design; confounding; missing values).

Tutorial Health Data Management – Tuesday, 30 August 2016


Basiswissen zu Studiendesign und Auswertung in der klinischen Forschung

Half day (afternoon): 14:00 - 17:15 hrs

Anette Blümle (Cochrane Deutschland, Universitätsklinikum Freiburg)

Peggy Sekula (Dept für Med Biometrie und Med Informatik, Universitätsklinikum Freiburg)



Der Workshop „Basiswissen zu Studiendesign und Auswertung in der klinischen Forschung“ vermittelt grundlegendes Wissen zu verschiedenen Designs klinischer Studien und den jeweiligen Auswertungsmethoden. Näher eingegangen wird dabei auf Therapiestudien: Warum historische Vergleiche und Beobachtungsstudien problematisch sind, Bedeutung der Randomisierung und Verblindung, Biasquellen, Intention-to-treat-Analyse, etc. Des Weiteren werden Beobachtungsstudien behandelt wie z.B. Fall-Kontroll-Studien, Querschnittsstudien und Kohortenstudien, und die jeweiligen Zusammenhangsmaße, die in diesen Studien Verwendung finden, erläutert.



Der Workshop umfasst sowohl Präsentationen sowie dazugehörige Übungsaufgaben. Bitte Taschenrechner mitbringen! Die Teilnehmer erhalten eine Broschüre mit Vortragsfolien und Übungsaufgaben.



Medizinische Dokumentare sowie andere interessierte Personen. Statistische Kenntnisse werden nicht vorausgesetzt.



1. Block zum Thema Therapiestudien

2. Block zum Thema Beobachtungsstudien

Tutorials Epidemiology - Tuesday, 30 August 2016



Taking Information Bias Seriously: Understanding the Impact of Misclassification on Study Results and Addressing Misclassification through Quantitative Bias Analysis

Full day: 10:00 - 16:30 hrs 
Half day (morning): 10:00 - 13:15 hrs
Half day (afternoon): 14:00 - 16:30 hrs
(may be booked independently)

morning session: implications of misclassification - theory and practical examples

afternoon session: methods for quantifying the impact of bias - applications in MS Excel or STATA

Matthew Fox (Boston University School of Public Health)

While random error is nearly always quantified in medical and epidemiologic studies, systematic error rarely is. Instead, information bias caused by misclassification of study variables, one common source of bias, is typically noted as a study limitation in discussion sections, most often to note the error was non-differential and therefore results are likely conservative.
In the morning we will thoroughly investigate the implications of misclassification of exposures, outcomes, confounders and modifiers through mathematical formulas and practical examples as well as the many ways the “non-differential misclassification biases towards the null” saying fails.
In the afternoon we will cover quantitative bias analysis, methods for quantifying the impact of bias (in this case information bias) on study results to give a picture of total study error and improve our ability to draw appropriate inferences from study results. We will discuss ways to estimate what the data would have looked like had the misclassification been absent and how to interpret the impact of information bias on the direction, magnitude and uncertainty of measures of association. In the afternoon participants apply Microsoft Excel or STATA software to conduct bias analyses and gain insight into developing code for Monte Carlo simulations for quantitative bias analysis. 



Die SAS-Prozedur GLIMMIX - Eine anwendungsorientierte Einführung für Epidemiologinnen und Epidemiologen

Half day: 10:00 - 13:15 hrs

Oliver Kuß (Deutsches Diabetes-Zentrum (DDZ), Leibniz-Zentrum für Diabetes-Forschung an der Heinrich-Heine-Universität Düsseldorf, Institut für Biometrie und Epidemiologie, Düsseldorf, Deutschland)

Die SAS-Prozedur GLIMMIX ist das leistungsfähigste Tool für die Regressionsanalyse in SAS und kann nahezu ohne Verluste die Prozeduren REG, LOGISTIC, GENMOD oder MIXED ersetzen. Das liegt daran, dass die statistischen Modelle, die den genannten Prozeduren geschätzt werden, nur Submodelle der Klasse der generalisierten linearen gemischten Modelle sind, die GLIMMIX zugrunde liegt. So können z.B. lineare, logistische und Poisson-Modelle in GLIMMIX geschätzt werden, falls benötigt auch unter Hinzufügen von zufälligen Effekten, um Abhängigkeiten in den Daten mit zu modellieren. Weiterhin möglich sind räumliche Modelle, nicht-parametrische Schätzungen (z.B. durch Splines) der Effekte der Kovariablen oder auch die Definition von gänzlich eigenen Modellen (z.B. additive Regressionsmodelle oder Modelle für Überlebenszeiten).

Das Tutorium besteht aus zwei 90-minütigen Teilen. Im ersten Teil wird anhand typischer epidemiologischer Fragestellungen eine Einführung in die Prozedur gegeben. Der zweite Teil besteht aus einer Übung am Computer, in der die Teilnehmer die Prozedur an verschiedenen Datensätzen selber kennenlernen können.

Zielgruppe: Das Tutorium richtet sich an alle Teilnehmer der HEC 2016, die an einem anwendungsorientierten, epidemiologisch geprägten Einblick in die SAS-Prozedur GLIMMIX interessiert sind. Voraussetzungen sind Kenntnisse in SAS und in grundlegenden Methoden der Statistik. Laptops mit lauffähigen Versionen von SAS (Version 9.2 oder höher) müssen von den Teilnehmern selber mitgebracht werden.



Datenschutz in der medizinischen Forschung

Half day: 10:00 - 13:15 hrs

Klaus Pommerening (Universitätsmedizin Mainz)

Johannes Drepper (TMF e.V. Berlin)

In dem Workshop wird eine umfassende Einführung in den Datenschutz in medizinischen Forschungsprojekten gegeben.

Zunächst werden verschiedene Typen von Forschungsprojekten mit ihren unterschiedlichen Anwendungsfällen vorgestellt. Fokussiert werden Projekte aus dem Umfeld der klinischen Forschung, in denen das Recht auf informationelle Selbstbestimmung der Teilnehmer (Patienten oder gesunde Probanden) zu wahren ist. Ausgenommen sind Projekte aus der Grundlagenforschung ohne Einbeziehung von Patienten oder gesunden Vergleichsprobanden.

Anschließend werden die rechtlichen Grundlagen des Datenschutzes in der Forschung in Deutschland erörtert. U.a. werden die folgenden Fragen beantwortet: Warum gibt es Datenschutzgesetze auf Landes-, Bundes- und europäischer Ebene? Welches Datenschutzrecht ist in einem konkreten Projekt zu berücksichtigen? Wann benötige ich eine Einwilligung der Probanden? Wie lange darf ich die Daten aufbewahren? Was darf ich mit den in einem Projekt erhobenen Daten alles machen? Warum gibt es einen Datenschutzbeauftragten in meiner Einrichtung, auf Landes- und auf Bundes-Ebene? Welcher Datenschutzbeauftragte ist für mich zuständig? Muss ich mich im Vorfeld eines Projekts mit einem Datenschutzbeauftragten abstimmen? Wann darf ich Daten aus der Routineversorgung für die Forschung verwenden [1]? Was muss ich in Bezug auf den Datenschutz in klinischen Studien nach AMG oder MPG beachten? Was kommt mit der europäischen Datenschutzgrundverordnung ab 2018 auf die med. Forschung zu?

Die Begriffe der Anonymisierung und Pseudonymisierung werden häufig missverständlich interpretiert und nicht korrekt voneinander unterschieden. Selbst Experten sind sich hinsichtlich der Einordnung von Daten als anonym oder pseudonym nicht in allen Fällen einig. Der Workshop gibt einen Überblick über gängige Definitionen, geht auf die Grenzfälle ein und stellt technische Maßnahmen zur Umsetzung vor. Dabei wird auch der immer häufiger in der Literatur auftauchende Begriff der k-Anonymität erklärt.

Ein zentraler Bestandteil der meisten Datenschutzkonzepte in Forschungsprojekten ist die informierte Einwilligungserklärung. In dem Workshop wird erörtert, wann von einer „informierten“ Einwilligung ausgegangen werden kann und welche Rahmenbedingungen bei der Formulierung einer solchen Erklärung zu berücksichtigen sind. Gerade bei langfristigen Daten- und Probensammlungen (Biobanken) wird immer häufiger die Frage diskutiert, wie spezifisch der Zweck der Erhebung und Verarbeitung personenbezogener Daten in der Einwilligungserklärung formuliert werden muss. Aus der Forscherperspektive wird entsprechend ein „broad consent“ gefordert, der lediglich eine Einschränkung der Datenverwendung für den Bereich der medizinischen Forschung vorschreibt. Entsprechend werden die Hintergründe, die vorgeschlagenen Konzepte und deren Grenzen diskutiert.

Die TMF unterstützt Forscher seit vielen Jahren bei der datenschutzgerechten Umsetzung von Forschungsprojekten in der Medizin. Um auch Verbundforschungsprojekte in mehreren Bundesländern mit ihren je eigenen Datenschutzgesetzen und Aufsichtsbehörden umsetzen zu können, hat die TMF generische Datenschutzkonzepte mit den Datenschutzbeauftragten aller 16 Bundesländer und des Bundes abgestimmt. Diese als Blaupause oder Vorlagen benutzbaren Konzepte fokussieren dabei gerade langfristig und vergleichsweise wenig eingeschränkt nutzbare Datensammlungen und Biobanken [2]. Die Konferenz der Datenschutzbeauftragten des Bundes und der Länder hat in ihrer Sitzung im März 2014 allen medizinischen Forschungseinrichtungen und -verbünden die Nutzung des TMF-Leitfadens als Basis zur konkreten Ausgestaltung eigener Datenschutzkonzepte empfohlen. 

Abschließend werden die aktuell zur Verfügung stehenden Angebote zur Unterstützung von Forschern bei der datenschutzgerechten Umsetzung ihrer Forschungsprojekte aufgeführt. Hierzu gehört vor allem das Beratungsangebot der AG Datenschutz der TMF auf Basis der mit den Datenschützern national abgestimmten generischen Konzepte. Im Tutorial wird das 2015 umfassend überarbeitete und weiter standardisierte Verfahren der AG samt der von der AG zur Verfügung gestellten Berichterstatter ausführlich vorgestellt. Aber auch eine Reihe ergänzender Angebote der TMF rund um das Thema Datenschutz in der Forschung kommen zur Sprache.


1.       Schneider, U.K., Sekundärnutzung klinischer Daten - Rechtliche Rahmenbedingungen. 2015, Medizinisch Wissenschaftliche Verlagsgesellschaft, Berlin.

2.       Pommerening, K., Drepper, J., Helbing, K., Ganslandt, T., Leitfaden zum Datenschutz in medizinischen Forschungsprojekten - Generische Lösungen der TMF 2.0. 2014, Medizinisch Wissenschaftliche Verlagsgesellschaft, Berlin.



Scientific Writing

90 minutes: 14:00 - 15:30 hrs

Andreas Stang (Institut für Medizinische Informatik, Biometrie & Epidemiologie (IMIBE),  Universitätsklinikum Essen)

Die Befähigung, wissenschaftliche Manuskripte zu verfassen und erfolgreich zu publizieren wird häufig als „Soft Skill“ angesehen. Die Erfahrungen zeigen jedoch, dass Wissenschaftler bei ihren ersten Publikationen erhebliche Probleme beim Anwenden dieser Soft Skills aufweisen. Wissenschaftliches Schreiben ist ein erlernbares „Hard Skill“. Für eine erfolgreiche wissenschaftliche Laufbahn müssen die Regeln und Prinzipien des wissenschaftlichen Schreibens erlernt werden. Ziel dieses Workshops ist es, diese Regeln und Prinzipien systematisch zu besprechen. Weiterhin werden Tipps gegen den sogenannten Schreibkrampf sowie im Umgang mit Reviewern und Editoren gegeben. Der Workshop richtet sich an Wissenschaftlerinnen und Wissenschaftler der Fächer Epidemiologie und Public Health mit bisher wenigen oder schlechten Publikationserfahrungen.


Hofmann AH. Scientific writing and communication. Papers, proposals, and presentations. New York, Oxford University Press, 2010

Albert T. Winning the publications game. How to write a scientific paper without neglecting your patients. 3rd edition. Oxford, Radcliffe Publishing, 2009

Voraussetzungen: keine

Prof. Stang leitet seit 2014 das Zentrum für Klinische Epidemiologie am Universitätsklinikum Essen. Er unterrichtet seit einigen Jahren diesen Kurs. Er ist zertifizierter Tim Albert Trainer „Writing a journal article“(Achtung: dieser Workshop ist kein Tim Albert Kurs) und einer der Editoren des European Journal of Epidemiology. Prof. Stang ist weiterhin Adjunct Professor of Epidemiology am Department of Epidemiology, School of Public Health, Boston University.