Bildbeschreibung, aber mit Kontext
Author
Matze
Date Published

description.mtc.berlin - ein Tool, das KI nutzt, aber nicht ersetzt, was wichtig ist
Alt-Texte schreiben gehört zu den Dingen, die man so lange aufschiebt, bis man sie dann doch irgendwie schnell runtertippt. Meistens zu kurz, oft zu nichtssagend, und hin und wieder auch komplett daneben. Nicht aus bösem Willen - einfach, weil es nicht leicht ist. Ich kenne das zu gut.
Deshalb (und inspiriert von diesem Artikel von Craig Abbott: Can generative AI write contextual text descriptions?) habe ich description.mtc.berlin gebaut. Nicht als automatischen Generator, der einem das Denken abnimmt, sondern als Werkzeug, das genau an der Stelle ansetzt, wo KI allein regelmäßig versagt: beim Kontext.
Worum geht’s?
Das Tool hilft, Bildbeschreibungen mit KI zu erstellen - aber nicht per Knopfdruck. Stattdessen stellt es ein paar gezielte Fragen (nicht wirklich Fragen, aber so erklärt es sich besser. Stellt Euch Textareas und Selects einfach als Fragen vor). Was ist auf dem Bild zu sehen? Für wen ist die Beschreibung gedacht? Was sollte betont werden, was kann weggelassen werden?
Diese kurzen, einfachen Eingaben verändern das Ergebnis erheblich. Nicht mehr „a blurry photo of a man“ - sondern ein Text, der wirklich etwas transportiert. Weil er auf etwas basiert, das Maschinen nicht erraten können: Bedeutung.
Die KI ist also nicht der "kreative" Kopf, sondern das Schreibwerkzeug. Und genau so soll es sein.
Technisch gesehen
Das Ganze läuft momentan mit GPT-4o-mini, nano wird noch dazu kommen. Und vermutlich Gemini für die Chancengleichheit und irgendwann Mistral.
Es gibt verschiedene vorkonfigurierte Demo-Kontexte – Alt-Text, Reiseblog, historisch etc. – und die Bilder, die du hochlädst, werden erstmal runtergerechnet, dann durch die OpenAI Moderation API geschickt und anschließend direkt verarbeitet.
Danach sind sie wieder weg. Kein Cloud-Speicher, kein Rechenzentrum, das sich heimlich deine Katze merkt.
Account? Optional. Zwei Beschreibungen gibt’s gratis ohne Anmeldung. Wer mehr (30) will, kann sich mit E-Mail anmelden - ohne Passwort, ohne Verifizierung. Die Authentifizierung ist genauso leichtgewichtig wie der Rest des Tools.
Deine bisherigen Eingaben werden lokal gespeichert, in deinem Browser, via IndexedDB. Du kannst sie wiederverwenden, löschen oder einfach ignorieren. Ich speichere nichts davon.
Warum das nicht einfach ein weiteres KI-Ding weil KI ist
Weil es nicht automatisch tut, was du selbst nicht willst.
Weil es dich nicht rausnimmt aus dem Prozess, sondern dir hilft, ihn klarer zu machen.
Weil gute Accessibility nicht mit einem alt=""-Attribut endet.
Weil Du immer noch in der Verantwortung bleibst, die Descriptions gegenzulesen und notfalls manuell zu redigieren.
Und vor allem, weil KI kein Ersatz für Bedeutung ist - sondern ein Werkzeug, das dann am besten funktioniert, wenn man es mit Bedeutung füttert.
Ich wollte ein Tool bauen, das genau das tut: dich daran erinnern, worauf es eigentlich ankommt - und dir dann helfen, es gut umzusetzen.
Und weiter?
Ob das Tool mal Open Source wird oder zur API weiterentwickelt wird, ich weiss es noch nicht. Ziemlich sicher werde ich noch ein paar Stunden reinstecken, um die Ergebnisse noch besser zu machen und Gemini / Mistral zu integrieren.
Give it a go: description.mtc.berlin