Um ChatGPT noch besser zu machen, empfehle ich dir dringend, es mit Kontext und Informationen zu trainieren, die deinen spezifischen Bedürfnissen entsprechen. Wenn du ChatGPT Pro verwendest, kannst du deinen eigenen Chatbot erstellen. Eine der besten Eigenschaften von “My GPT” ist, wie gut es mit hochgeladenen Dokumenten funktioniert. Dadurch kannst du relevante Dokumente verwenden, um ChatGPT zu trainieren und noch genauere und kontextbewusste Antworten zu bekommen. Es ist eine fantastische Funktion, die es dir ermöglicht, das Wissen von ChatGPT mit deinem einzigartigen Fachgebiet oder Interessensgebiet abzustimmen.

Das Bild zeigt die Konfiguration eines persönlichen Chat-Bots mit ChatGPT, den man über PDFs mit Kontext füttern kann.
ChatGPTs personalisierte Chat-Bots lassen sich über PDFs mit Kontext anreichern.

Zum Trainieren von Chat-Bots werden oft PDF-Dateien verwendet. Sie sind einfach zu erstellen und man kann sie schnell hochladen. Leider liefert dann die KI aber nicht immer optimale Ergebnisse. Dies liegt ganz einfach daran, dass z.B. ChatGPT oft keinen nützlichen Inhalt aus einer PDF extrahieren kann und die Struktur des Inhalts verloren geht.

  1. Zugänglichkeit: Offene strukturierte Textdaten wie einfacher Text oder Markup-Sprachen wie XML oder JSON können von KI-Systemen einfach abgerufen und analysiert werden. Im Gegensatz dazu erfordern PDFs oft zusätzliche Verarbeitungsschritte, wie zum Beispiel OCR (Optical Character Recognition), um den Text zu extrahieren und maschinenlesbar zu machen.
  2. Datenintegrität: Strukturierte Textdaten bewahren die Integrität des Originalinhalts, da sie direkt kopiert und eingefügt werden können, ohne dass Verluste oder Änderungen auftreten. PDFs hingegen können Formatierungsprobleme aufweisen oder eingebettete Bilder enthalten, die eine genaue Extraktion der Daten behindern können.
  3. Durchsuchbarkeit: KI-Algorithmen können strukturierte Textdaten effizient durchsuchen und indizieren, was eine schnellere und präzisere Informationssuche ermöglicht. PDFs, insbesondere solche mit gescanntem Text, haben keine inhärente Durchsuchbarkeit und erfordern zusätzliche Schritte, um den Inhalt durchsuchbar zu machen.
  4. Datenanalyse: Strukturierte Textdaten ermöglichen eine nahtlose Datenanalyse und Extraktion aussagekräftiger Erkenntnisse. KI-Modelle können die Textdaten direkt verarbeiten und analysieren, was fortgeschrittene natürliche Sprachverarbeitungstechniken ermöglicht. PDFs erfordern oft komplexe Parsing- und Extraktionsmethoden, was die Datenanalyse erschwert.
  5. Interoperabilität: Offene strukturierte Textdaten können problemlos mit anderen Systemen und Anwendungen integriert werden, was den Datenaustausch und die Interoperabilität erleichtert. PDFs hingegen können Kompatibilitätsprobleme aufweisen und erfordern spezifische Software oder Plugins, um auf den Inhalt effektiv zugreifen und ihn bearbeiten zu können.

Schauen wir uns ein Beispiel an.

Das Lesen dieses Artikels in einem gut gestalteten PDF-Seitenlayout ist perfekt für unsere Augen. Aber nicht so perfekt für die Augen einer Maschine.

Das Bild zeigt einen gestalteten Artikel in einem Magazin-PDF
Der Artikel als gestaltetes PDF aus einem Magazin.

Wenn eine Maschine dieses PDF liest, erhält sie nichts anderes als einfachen Text ohne Struktur. Das Spaltenlayout mit Kopf- und Fußzeilen führt zu einem unterbrochenen Textfluss. Und es gibt keine Metadaten.

Das Bild zeigt einen Artikel als Text, der aus einem PDF extrahiert wurde.
Der Artikel als unstrukturierter Text, aus einem PDF extrahiert.

Wenn die Maschine denselben Text nicht als PDF, sondern als strukturierten Inhalt (in diesem Fall Markdown) erhält, erhält sie mehr Inhalt. Die KI sieht die Überschriften, erkennt Zitate und erhält zusätzliche Informationen über die Autorenschaft des Artikels über Metadaten. Diese Informationen sind einfach nicht in der PDF verfügbar.

Das Bild zeigt den Artikel als Markdown in einem Texteditor
Der Artikel als Markdown.

Durch die Verwendung einfacher Textdaten anstelle von PDFs können KI-Systeme diese Vorteile nutzen, um Effizienz, Genauigkeit und Leistung in verschiedenen KI-Aufgaben zu verbessern.

Markdown ist eine ausgezeichnete Möglichkeit, Text zu strukturieren. Es ist einfach, schnell und bietet Kontrolle über Textstrukturen wie Überschriften, Listen, Zitate und Textstile.

Auf der anderen Seite ist XML das bevorzugte Format für professionelle Verlage. Es bietet alle Möglichkeiten, kann jedoch langsam, komplex und umständlich sein.

Es gibt auch neue Formate wie zum Beispiel bitmark, die darauf abzielen, das Beste aus beiden Welten zu kombinieren.

In jedem Fall lohnt es sich, speziell bei Automatisierungen rund um generative KI auf strukturierte Content First-Formate zu setzen und nicht fertig produzierte PDFs zu verwenden.

Dieser Beitrag wurde zuerst am 2023-12-15T17:00:00 publiziert unter https://publishing.blog/warum-pdfs-und-ki-nicht-wirklich-gut-zusammenarbeiten/.