… in wunderschönen Diagrammen gut dastehen lässt, ohne auch nur im mindesten zu mogeln.
Kleine Effekte, die niemanden beeindrucken. Schrotschuss-Messergebnisse. Keine erkennbaren Trends, viele Ausreißer. Was tun? Will man nicht die Rohdaten manipulieren (was hin und wieder auch vorkommt), muss man das Vorhandene eben so gut wie möglich darstellen und sich dabei die Eigenheiten der menschlichen Wahrnehmung geschickt zunutze machen. Eine Anleitung dazu finden Sie in diesem Beitrag.
Tipp 1: Excel* macht das schon
Anfänger in der hohen Kunst der Datenbeschönigung können sich zunächst auf Excel (oder auch auf Calc und seine Lookalikes) verlassen, das Bestmögliche aus ihren Daten herauszuholen.
1. Man überlasse der Software die Einteilung der Achsen. Der Voreinstellung gemäß wird das Diagramm die Daten so hoch und breit wie möglich im verfügbaren Raum darstellen. Ob der Schnittpunkt der Achsen im gegebenen Fall korrekterweise bei Null liegen sollte, kümmert insbesondere Excel nicht sonderlich, ist es doch ursprünglich kein Programm für wissenschaftliche Zwecke, sondern, wie Chad Orzel in [5] schreibt, eines für Verkaufsleiter mit Mathematikphobie. Geringste Effekte können so zu beeindruckender Wirkung aufgebauscht werden, siehe dieses Beispiel.
Besonders schön kommt der Effekt der automatischen Skalierung zur Geltung, wenn man mehrere gleichartige, direkt miteinander vergleichbare Diagramme erzeugen will. Sie werden ganz unterschiedlich skalierte Achsen haben (je nach Spreizung der dargestellten Werte), was angesichts der überwältigenden Symmetrie des Gesamtkunstwerkes keinem Betrachter auffällt. Hat man seinen Glückstag, könnte die gleiche Variable in den Diagrammen auch noch unterschiedliche Symbole bekommen.
2. Man erzeuge unbedingt ein Diagramm mit zwei Y-Achsen – die beiden höchsten Werte beider Datenreihen werden sich auf Augenhöhe gegenüberstehen. So wird kein schwächlicher Effekt diskriminiert. In dem fiktiven Beispiel über die Verhältnisse in einem chemischen Versuch wurde die rechte Y-Achse extrem gespreizt.
3. Man lasse die Software den Diagrammtyp wählen – bei den meisten Voreinstellungen werden das entweder „Balken“ oder „Linie“ sein. Der Diagrammtyp „Linie“, der sich so unschuldig als XY-Diagramm tarnt, hat seine Geheimwaffe: Er stellt die X-Werte, unabhängig von ihrem Zahlenwert, in gleichmäßigen Abständen dar. Das ist praktisch, wenn X kein Zahlenwert ist, sondern eine Aufzählung (Montag, Dienstag, Mittwoch, oder Meier, Müller, Schulze), aber wenn die X-Werte Zahlen sind, können damit verblüffende Effekte erzielt werden, siehe dieses Beispiel aus [5].
4. Man verwende die Kurvenglättung, wenn man seine erratischen Messwerte nicht mit einer geknickten, aus Segmenten bestehenden Linie verbunden sehen will. Bei eher banalen Ergebnissen kann die (z. B. auf Splines beruhende) Glättung interessante Schlenker in den Kurvenverlauf bringen, die Stoff für stundenlange wissenschaftliche Diskussionen bieten. Dieses Beispiel stammt aus [1], S. 2.
Tipp 2: Die Software ist willig, aber der Geist ist stärker
Fortgeschrittene können die Möglichkeiten der Software richtig ausnutzen, um das Auge des Betrachters in bester David-Copperfield-Manier zu lenken.
5. Hinzufügen von „retinalen“ Attributen: Diesen merkwürdigen Ausdruck verwenden Senay und Ignatius in [2], um Attribute von Elementen in Diagrammen zu bezeichnen, denen allein das menschliche Auge Bedeutung zumisst. Ein Beispiel ist die Transparenz oder Farbsättigung von Elementen. Der Betrachter wird unwillkürlich den kräftigeren, leuchtenderen Elementen die höhere Bedeutung zusprechen. Ein gutes Mittel, um Elemente, die unangenehme Fragen hervorrufen könnten, ein wenig zu tarnen. Manchmal macht das auch die Software von sich aus, wenn man so viele Elemente eingebaut hat, dass Excel die Grundfarben ausgehen. Das Beispiel zeigt, wie leicht es ist, von den unbefriedigenden Reinheiten bei ansonsten tollen Ausbeuten abzulenken:
6. Verwenden von schlechter unterscheidbaren Elementen: Steven’s Law besagt, dass wir Längen viel besser unterscheiden können als Volumina, Flächen liegen dazwischen. Wer also die Unterschiede zwischen seinen Werten herunterspielen will, hat hier ein unschätzbares Werkzeug an der Hand: Man stelle die Werte nicht als Punkt oder Säule dar, sondern als Blase oder – besser noch – als Volumen eines Würfels, Kegels, oder einer Pyramide. Der Betrachter wird unweigerlich die Höhe oder den Durchmesser des Gebildes als Wert interpretieren, nicht seinen Rauminhalt.
Als Beispiel seien die jährlichen Ausbeuten einer fiktiven Mine in zwei Darstellungsarten gezeigt: Einmal naiv als Balkendiagramm, einmal als Würfel, bei denen der Rauminhalt den Wert angibt. Letzteres sieht längst nicht so furchteinflößend aus wie die gut vergleichbaren Balken.
7. Keine Angst vor Chartjunk: Als Chartjunk – etwa „Diagramm-Müll“ – werden alle Elemente in einem Diagramm bezeichnet, die keine Informationen beinhalten, etwa 3D-Darstellungen von Torten- oder Säulendiagrammen, wilde Füllmuster, Firmenlogos, Cliparts, Hintergrundbilder, Metalliceffekte von Elementen und alles übrige, was ein bisschen optischen Pep hineinbringt.
Wer Chartjunk verwendet, sollte sich des Risikos bewusst sein: Manche Leute hassen ihn und werden ausfällig. Andere wollen bewiesen haben, dass wir die Informationen nach wie vor genauso gut erkennen können.
Auf jeden Fall bietet Chartjunk wunderbare Möglichkeiten: Neben der einfachen Ablenkung durch bunte Farben und Bildchen könnte man z. B. ein 3D-Säulendiagramm, das aussieht wie die City von Hong-Kong, so drehen, dass eine peinliche, kurze Säule hinter einer längeren verschwindet. Oder man dreht einen mickrigen Keil in einem Tortendiagramm nach vorne und verpasst der Torte eine ordentliche Dicke: Gleich sieht das Stück viel größer aus.
8. Fitten, bis der Arzt kommt, oder „Schau mal, das Polynom 6. Ordnung passt prima!“
An schlechten Tagen gilt für Modell und Fit ein reziproker Zusammenhang: Je weniger die Fitfunktion mit dem Modell zu tun hat, desto besser passt sie auf die Messwerte. Wenn man in solchen Fällen der Software freie Bahn lässt statt sie an lästige Randbedingungen zu ketten (etwa die, dass die Kurve durch Null gehen muss), wird sie einen mit einem Fit mit traumhaft gutem Korrelationskoeffizienten beglücken – und manchmal will man gar nicht mehr…
Tipp 3: Für Hardliner – Manipulationen mittels Diagrammtyp
Wenn Sie diese Tricks anwenden, können Sie sich nachher nicht auf Unschuld herausreden – also Vorsicht!
9. Nullpunkt-Tricks: Nullpunkte gibt es in verschiedenen Varianten: Manche sind absolut, es gibt keine negativen Werte, wie etwa die Kelvin-Skala. Manche, wie Geldbeträge, kennen zwar negative Werte, aber doppelte Maßzahlen bedeuten auch doppelte Werte. Manche gar, wie die Nullpunkte der Celsius- oder Fahrenheit-Skala, sind willkürlich, und doppelte Maßzahlen bedeuten eben nicht doppelt so große Werte.
Wer das weiß, kann durch Verwendung solcher Skalen oder durch schnödes Weglassen des Nullpunktes ähnliche Effekte erzielen wie unter Punkt 1. Sieht das Temperaturspeichermaterial Nr. 3 nicht „doppelt so gut“ aus wie Nr. 1?
10. Drehung des Diagramms um 90°: Wir wissen zwar alle, dass die unabhängige Variable auf die X-Achse gehört, aber machmal macht ein Diagramm einfach mehr her, wenn es gedreht wurde. Was in [3], Abb. 3 und 4, oder [6], S. 13 unten, durchaus erlaubt ist – hier wird keine Funktion, sondern ein Kategorienvergleich dargestellt, die Punkte ersetzen Säulen – kann bei echten XY-Diagrammen höchst anrüchig sein, aber optisch recht wirksam. Hier wurden Abszisse und Ordinate vertauscht – und gleich macht der Effekt viel mehr her.
11. Schlanke Fehlerbalken: Kaum jemand gibt sie gerne an. Wenn man sie jedoch unbedingt angeben muss, sollte man wenigstens versuchen, sich um ihre genauere Beschreibung herumzudrücken: Sind das Messungenauigkeiten? Standardabweichung? Oder was? Das geht schließlich keinen was an!
12. Funktionen, wo keine sind: In [1], Abb. 11 (S. 16 unten) ist ein solches Beispiel dargestellt: Zwar sind die Abszissenwerte ganz klar keine numerischen Werte, sondern die Bezeichnung von Genotypen, dennoch hat man die Tatsache, dass diese fortlaufend durchnummeriert sind, geschickt dazu genützt, ein einer Funktion ähnliches Diagramm zu basteln.
Hut ab, kann man da nur sagen! Glauben Sie mir, eine Folie später haben die meisten Zuhörer das schon vergessen, wenn Sie erst einmal tief in die zugrundeliegende Funktion eingestiegen sind…
Wem das noch zu wenig war, der findet bei Christian Behrens (dort ggf. unter „Patterns“) eine unglaubliche Fülle von Diagrammtypen, die er oder sie nach Herzenslust zweckentfremden kann.
Auf dass keiner meiner Leser jemals wieder mit unscheinbaren Daten vor eine kritische Zuhörerschaft treten muss…
Literatur
[1] Abdul-Hadi, Z. (ed.) 2009. Presenting scientific data. International Center for Agricultural Research in the Dry Areas. ICARDA, Aleppo, Syria. iv + 28 pp. ISBN 92-9127-221-3. – Ein gut-schlechtes Beispiel, das Dokument ist selbst eine Kompilation aus ungenannten Datenquellen und enthält, auch wenn es die grundlegenden Prinzipien guter Datendarstellung erläutert, selbst einige verfälschende Diagramme.
[2] Hikmet Senay, Eve Ignatius, „Rules and Principles of Scientific Data Visualization„. Anspruchsvoller Webbeitrag über Datentypen und den Einfluss auf die Darstellung. Die Autoren gehen insbesondere auch auf Visualisierung bei multivarianter Datenanalyse ein, wo nicht ausreichend Dimensionen im Diagramm zur Verfügung stehen, um die gewünschten Zusammenhänge abzubilden.
[3] Marcin Kozak, „Basic principles of graphing data.“ Sci. agric. (Piracicaba, Braz.) Vol. 67 No. 4, Piracicaba Aug. 2010. Dieser Aufsatz aus einem Open-Access-Journal geht hauptsächlich auf die Leserlichkeit und Verständlichkeit von Datendarstellungen ein, mit guten und schlechten Beispielen.
[4] Chad Orzel, „How to present scientific data„. Mehr Blogbeiträge der Kategorie „Data Presentation“ im scienceblogs.com-Blog (was für ein Wort!) „Uncertain Principles“.
[5] Chad Orzel über Excels Lieblings-Diagrammtyp: „Warum der Diagrammtyp Linie niemals eine gute Wahl ist.“
[6] Dave Kelly, Jaap Jasperse and Ian Westbrooke, „Designing science graphs for data analysis and presentation.“ Department of Conservation Technical Series 32, 2005, Science & Technical Publishing, Department of Conservation, PO Box 10420, Wellington, New Zealand, ISBN 0478140428 (eine Regierungsorganisation). Anleitung zum korrekten Erstellen von Diagrammen mit Beispielen frühester Graphen – es gibt, was wir Diagramme und Graphen nennen, tatsächlich erst seit dem späten 18. Jahrhundert in nennenswertem Umfang.
Weil die internen Links im Dokument nicht funktionieren, hier die Verknüpfungen zu Teil 2, Teil 3 und Teil 4 des Dokumentes.
[7] Eine Galerie guter und schlechter Diagrammbeispiele von Michael Friendly, Psychologieprofessor an der York University in Toronto, mit einem besonderen Interesse an Datenvisualisierung .
*Disclaimer: Ich spreche die ganze Zeit von Excel, aber die anderen Tabellenkalkulationen sind auch nicht besser – sie sind ursprünglich keine wissenschaftlichen Programme, obwohl man sie dazu bringen kann, brauchbare Diagramme auszuspucken. Man muss aber dazu an beinahe jeder Voreinstellung drehen.
Schreibe einen Kommentar