Datenfusion deutscher Mobilitätserhebungen

  • In Deutschland werden regelmäßig zwei große Haushaltsbefragungen zur Mobilität von Personen durchgeführt. Zum einen ist das das deutsche Mobilitätspanel (MOP). Im MOP wird jährlich eine verhältnismäßig kleine Stichprobe darum gebeten, für eine Woche ein Wegetagebuch auszufüllen. So wird die Alltagsmobilität dieser Personen im Längsschnitt erfasst. Weiterhin ist das MOP so ausgelegt, dass die teilnehmenden Personen in bis zu drei aufeinanderfolgenden Jahren berichten. Zum anderen wird mit der Erhebung Mobilität in Deutschland (MiD) in größeren Abständen eine Querschnittserhebung durchgeführt, d.h. es wird eine große Stichprobe darum gebeten, an einem Stichtag ein Wegetagebuch auszufüllen. Beide Erhebungen haben verschiedene Zielsetzungen, nichtsdestotrotz bilden beide Erhebungen die Alltagsmobilität in Deutschland repräsentativ ab. Bislang werden MOP und MiD mit aggregierten Kennwerten, z.B. Wege pro Person und Tag, miteinander verglichen. Eine interessante Forschungsfrage ist darüber hinaus, inwiefern die beiden Datensätze miteinander fusioniert werden können. Können Personen aus einer Erhebung auch in der anderen Erhebung identifiziert werden? Für eine solche Datenfusion eignen sich Verfahren, die eine statistische Ähnlichkeit von den Antworten einer Person in der einen Erhebung und den Antworten einer Person in der anderen Erhebung feststellen. Ein Vorteil der Datenfusion besteht darin, die Informationen zu einer Person zu erweitern. So enthält beispielsweise die MiD zusätzliche Informationen zu vergangenen Übernachtungsreisen, die im MOP nicht vorliegen. Durch die Datenfusion können damit Informationen angereichert werden, indem Personen aus dem MOP über eine Verschneidung mit der MiD auch Übernachtungsreisen zugeordnet werden.
    Aufgabe der Masterarbeit ist es, die Daten des MOP und der MiD mittels geeigneter Methoden zu fusionieren und die Anwendung zu evaluieren. Aufbauend auf einen Überblick über die vorliegenden Variablen im MOP und in der MiD sind mithilfe von Literatur Konzepte für die Datenfusion zu erarbeiten. Es sollen verschiedene Verfahren der Datenfusion angewendet und miteinander verglichen werden.
    Für die Bearbeitung der Fragestellung sind Kenntnisse in Python  notwendig. Eine vorherige Einarbeitung ist möglich.