Im ersten Teil dieses Beitrags habe ich die Qualität einiger Online-Kataloge und Datenquellen für chemische Informationen getestet. Im zweiten Teil geht es speziell um Aggregatoren, wiederum am Beispiel „Bisphenol A“.
Wolfram Alpha
Das sieht nicht schlecht aus, oder? Wolfram Alpha schafft es, auf Eingabe von „Bisphenol A“ die gewünschte Substanz zu identifizieren, und spuckt ein Suchergebnis aus, welches zumindest auf den ersten Blick recht beeindruckend aussieht. Aber beim genauen Anschauen der Ergebnisse fallen gleich einige Fehler auf:
- In der Tabelle, die über die Eigenschaften der chemischen Bindungen informiert, steht, das Molekül habe 6 C=C-Doppelbindungen – allesamt 1,4 A lang und mit einer Bindungsenthalpie von 602 kJ/mol, sowie 10 C-C-Einfachbindungen ebenfalls von 1,4 A Länge, aber mit einer Bindungsenthalpie von 346 kJ/mol. Das kann einfach nicht stimmen. Selbst wenn man die Werte für die Bindungslängen und -energien nicht kennt, ist es doch so, dass sechs dieser sogenannten C-C-Einfachbindungen eigentlich Bindungen im aromatischen System sind, und die anderen vier sitzen außerhalb. Letztere sind länger als aromatische Bindungen und haben auch eine andere Energie. Andererseits sind die 6 Bindungen innerhalb eines aromatischen Rings zwar nicht völlig identisch – wegen der Substituenten – aber einander sehr ähnlich. Fazit: Ein völliges Durcheinander an dieser Stelle.
- Die 3D-Struktur ist falsch. Die Ringe sind gegeneinander verdreht und bilden keinen einfachen rechten Winkel wie zwei Seitenwände eines Pappkartons.
Will man nun nachsehen, woher die Weisheiten stammen, findet man unter jeder Rubrik ein winziges Buchsymbol, welches der Link zu den Quellen ist. Und dort findet man dann jedes Mal immer die gleichen Zitate. Offenbar wird als „Quelle“ nicht die eigentliche Quelle für die Information gelistet, sondern die komplette Liste aller verwendeten Datenbanken und (Online)-Handbücher. Das ist nutzlos – wie will man ein Faktum, das einen zweifeln lässt, da überprüfen? So eine Quellenangabe ist genauso wie gar keine Quellenangabe.
Den Rest der Daten habe ich mir nicht mehr genauer angeschaut, aber beeindrucken kann mich ihre Darstellung nicht. Der Flammpunkt einer so schwer flüchtigen Substanz wie dieser mag nicht ihre interessanteste Eigenschaft sein, aber trotzdem: Ein Wert, kein Hinweis auf die Messmethode. Ebenso bei den anderen Daten: Ein Wert, als Quelle immer die selbe lange Liste, keinerlei Hinweis auf die Verlässlichkeit.
Und die Moral von der Geschicht‘?
Benutze Wolfram Alpha nicht.
Zumindest nicht für chemische Fragestellungen. Der Aggregator zeigt ganz deutlich, was dabei herauskommt, wenn ein Datenhamster zusammenrafft, was er finden kann, ohne eine Spur von Sachverständnis für das akkumulierte Material . Offenbar leidet man in dieser Firma stark unter dem Dunning-Kruger-Effekt.
ChemSpider
Die Suchmaschine Chemspider der RSC ist da schon eher von Profis gemacht. Die Suchergebnisse für Bisphenol A habe ich über das ChemSpider-AddOn von ChemSketch erhalten. ChemSketch ist ein Strukturformel-Editor, der nicht nur Strukturen, Reaktionsschemata und Laboraufbauten erzeugen, sondern die Strukturen auch zu einigen spezialisierten Suchseiten schicken kann, so dass man sich daselbst die Struktureingabe erspart.
Natürlich kann man auch direkt suchen und wird von einer Fülle hochwertiger Ergebnisse überrollt. Ehe die Begeisterung aber überhand nimmt, hier ein paar caveats:
- Ein guter Teil der Ergebnisse ist, wie in einem Wiki, von den Nutzern erzeugt, nicht alles sind redaktionelle Inhalte. Das ist eher positiv, aber man sollte es wissen – und es ist bei ChemSpider auch alles entsprechend gekennzeichnet.
- Die Stoffdaten stammen zum großen Teil aus Chemikalienkatalogen, das ist am Eintrag erkennbar und auch an der Art der Daten, die öfter eine Spezifikation (etwa Schmelzpunkt von 153 – 158 °C) als ein an einem möglichst reinen Muster gemessener Einzelwert sind. Wiederum hilft die Transparenz der Darstellung bei der Beurteilung der Brauchbarkeit.
- Es gibt eine Menge Literaturverweise zu dem Stoff, diese stammen aber aus einer begrenzten Anzahl von Quellen, nämlich den Publikationen der RSC, PubMed und Google Books. Hier sieht man wirklich nur einen winzigen Ausschnitt der Gesamtliteratur und muss, wenn nötig, noch separat recherchieren.
- Die gleiche Lage herrscht bei den Patenten: Google Patents wird abgefragt, und auch dort nur textbasiert (es geht schließlich nicht anders). Die Ergebnisse sind zwar informativ, aber unvollständig.
- Vermutlich ist das Gleiche zu den verschiedenen Bioassay-Daten [1] zu sagen, nur kenne ich mich damit leider nicht aus. Sicher erhält man aber auch hier nur die Daten aus einer handverlesenen Anzahl von Quellen und somit in unvollständiger Form.
Trotzdem: Was da ist, ist zu seiner Quelle rückverfolgbar und im Zusammenhang präsentiert. Wenn es doch nur alle so machten!
iScienceSearch
Dieser Aggregator war nicht immer frei zugänglich, vor einigen Jahren war die Suche noch ein Bezahldienst. iScienceSearch ist im Grunde ein Metaaggregator, da er (auch) andere Aggregatoren abfragt. Daher kann sich die Suche, wenn man ein verbreitetes Molekül wie Bisphenol A und das Profil „most comprehensive“ anwählt, schon einmal hinziehen.
In diesem Fall schien die Suchmaschine sogar überfordert zu sein: Außer der Abfrage von ChemSpider kam aus der Struktursuche kein anderes Ergebnis heraus, und ChemSpider hatten wir schon.
Ein erneuter Suchlauf mit „Bisphenol A“ als Suchbegriff und einem eingeschränkteren Suchprofil war da schon erfolgreicher, und nun sieht man auch, warum die Suche so lange braucht: iScienceSearch begnügt sich nicht mit der Suche nach dem eingegebenen Begriff, sondern sucht auch nach den Synonymen, der CAS-Nummer und anderen Identifikatoren, die als erste Suchergebnisse aufgetaucht sind.
Das kann sehr praktisch sein: Gebe ich zum Beispiel den Suchbegriff „antabus“ hinein, so identifiziert die Suchmaschine dieses korrekt als „Disulfiram“, erhält ein InChI, eine CAS-Nummer etc. und sucht auch nach diesem. Somit ist die Suche viel vollständiger (mehr dazu in einem Blogbeitrag über das Verwirrspiel der chemischen Namensgebung).
Die Suchergebnisse, zu denen ich nicht direkt verlinken kann, sind nicht explizit zu sehen, sondern nur die abgefragte Quelle und die Anzahl der erhaltenen Ergebnisse. Dafür kann ich diese filtern, oder schon bei der Suche, durch die Auswahl des Suchprofiles, Schwerpunkte setzen. Eine weitere Aufbereitung findet nicht statt; Klick auf einen Ergebniseintrag führt zu den Ergebnisseiten der abgefragten Quellen.
Ich selbst benutze iScienceSearch eigentlich nur dann, wenn über eine Chemikalie verdächtig wenig zu finden ist, so dass ich vermuten muss, ich verwende einen unüblichen Namen. Ansonsten sind die Ergebnisse so wertig wie die unterschiedlichen Quellen sie nun einmal liefern, aber abgesehen von der automatisierten Synonymsuche ist kein eigentlicher Mehrwert dabei.
[1] Bioassay ist die Untersuchung der Wirkung eines Stoffes auf lebendes Gewebe, etwa Fütterungsversuche mit neuen Verbindungen.
Schreibe einen Kommentar