Barrierefreies Webdesign ein zugängliches und nutzbares Internet gestalten

Lesen, was drinsteht — rausholen, was drinsteckt: Wie blinde Computernutzer sich PDF-Dokumente zugänglich machen geschrieben von Oliver Nadig (2005)

Dieser Beitrag wurde von Oliver Nadig in Oktober 2005 verfasst. Die vorliegende Fassung ist die Version 1.02 vom 25.1.2006.

3. Wann wird welches Programm eingesetzt? — ein Entscheidungsschema

"Nachdem Sie sich so viel Mühe mit dem Installieren und Konfigurieren von Programmen gemacht haben bin ich Ihnen einige Erläuterungen darüber schuldig, wann welche Software zum Einsatz kommen soll."

"Das hängt doch bestimmt davon ab, ob eine PDF-Datei beim Lesen Probleme macht oder nicht."

"Genau. Ich möchte Ihnen eine Art Entscheidungsschema dafür vorschlagen, was Sie mit einer vorliegenden PDF-Datei tun sollten. Dieses Schema besteht aus sechs Schritten und sieht wie folgt aus:

  1. Werden Sie sich zu Allererst darüber klar, ob Sie die vorliegende PDF-Datei lesen oder in ein anderes Dokumentformat umwandeln möchten. Falls Sie sich fürs Lesen entscheiden, öffnen Sie das Dokument zwangsläufig mit dem Adobe Reader (A.R.). Tipps, nützliche Tastenkombinationen und einige Hintergrundinformationen zum Lesen von PDF-Dokumenten mit dem A.R. erhalten Sie in Abschnitt 4.1. Sollten Sie sich für die Umwandlung entscheiden, haben Sie zwei Möglichkeiten:
    1. Falls Sie wissen, dass das Dokument nur wenige Seiten umfasst und/oder mehrspaltig gesetzte Textseiten enthält, sollten Sie zur Konvertierung den A.R. verwenden. Wie Sie dabei vorgehen, schildere ich in Abschnitt 5.1.
    2. Umfangreiche und einspaltig gesetzte Dokumente sollten Sie aus Geschwindigkeitsgründen mit PDFToText umwandeln. Wie Sie dabei vorgehen, schildere ich in Abschnitt 5.2.
  2. Haben Sie sich in Schritt 1 entschieden, das Dokument mit Hilfe des A.R. lesen zu wollen, kann dieser Versuch zu drei verschiedenen Ergebnissen führen:
    1. Der Text lässt sich problemlos lesen. Es gibt keine Schwierigkeiten mit der Anzeige von Inhaltsverzeichnissen, die Lesereihenfolge der Textspalten ist korrekt, Tabellen sind entweder nicht vorhanden oder werden zufriedenstellend vorgelesen. Dann gibt es keine technischen Hürden mehr und Sie können sich dem eigentlichen Inhalt des PDF-Dokumentes zuwenden.
    2. Es wird zwar Text angezeigt, aber es gibt Probleme beim Vorlesen von Inhaltsverzeichnissen, mehrspaltig gesetztem Text oder Tabellen. Dann bleibt Ihnen nichts Anderes übrig, als das Dokument von einem Texterkennungsprogramm (einer OCR -Software) verarbeiten zu lassen und zu hoffen, dass dieses gute Verarbeitungsergebnisse liefert und die einzelnen Textblöcke auf den Seiten sinnvoller anordnet als der A.R. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in Abschnitt 5.4.
    3. Nach dem Versuch, das PDF-Dokument zu öffnen meldet Ihr Screenreader, dass das Dokument leer zu sein scheint. Es handelt sich dann um eine grafische PDF-Datei. Dann bleibt Ihnen nichts Anderes übrig, als das Dokument von einer OCR verarbeiten zu lassen und zu hoffen, dass diese gute Erkennungsergebnisse liefert. Wie Sie PDF-Dokumente von einer OCR erkennen lassen, erfahren Sie in Abschnitt 5.4.
  3. Haben Sie sich in Schritt 1 entschieden, das Dokument mit Hilfe des A.R. in ein anderes Dokumentenformat um zu wandeln, kann dieser Versuch zu vier verschiedenen Ergebnissen führen:
    1. Das unter Verwendung des A.R. entstandene Dokument ist sehr gut lesbar. Es gibt kein Durcheinander bei Inhaltsverzeichnissen, die Textspalten sind korrekt angeordnet und Tabellen sind zufriedenstellend konvertiert worden. Dann gibt es keine technischen Hürden mehr und Sie können sich dem Inhalt der nunmehr in einem zugänglicheren Format vorliegenden Datei zuwenden.
    2. Das unter Verwendung des A.R. entstandene Dokument ist schlecht bis unmöglich lesbar. Bei der Umwandlung von Inhaltsverzeichnissen, Textspalten und Tabellen ist Textmischmasch entstanden. Mit Textumwandlungsversuchen ist dann nichts mehr zu machen, da der A.R. im Vergleich zu allen anderen Umwandlungswerkzeugen die beste Textreihenfolge-Erkennung aufweist. Obwohl es sich bei der ursprünglichen PDF-Datei nicht um Grafik, sondern um Text handelt, sollten Sie diese jetzt von einer OCR verarbeiten lassen. Dabei dürfen Sie hoffen, dass die Texterkennung möglichst fehlerfrei ist und die einzelnen Textblöcke auf den Seiten sinnvoller angeordnet werden als durch die Umwandlung mit Hilfe des A.R. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in Abschnitt 5.4.
    3. Das unter Verwendung des A.R. entstandene Dokument enthält entweder gar keinen Text oder vollkommen unleserlichen Buchstabensalat. Dies ist ein Zeichen dafür, dass es sich bei der Ursprünglichen PDF-Datei um ein rein grafisches Dokument handelt, dessen Inhalt durch eine Textkonvertierung natürlich nicht zugänglich gemacht werden kann. Dann bleibt Ihnen nichts Anderes übrig, als die entstandene Datei zu löschen, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen und zu hoffen, dass dabei gute Erkennungsergebnisse geliefert werden. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in Abschnitt 5.4.
    4. Die Umwandlung mit dem A.R. schlägt fehl, weil die entsprechenden Menüpunkte überhaupt nicht verfügbar sind. Dies ist ein Zeichen dafür, dass der Autor das Drucken und die Entnahme von Dokumentinhalten untersagt hat. Dann bleibt Ihnen nichts Anderes übrig als zu versuchen, das Dokument mit dem Programm GSView zu öffnen und den enthaltenen Text in eine Textdatei zu extrahieren. Der Versuch, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen wird mit an Sicherheit grenzender Wahrscheinlichkeit scheitern, da auch Texterkennungsprogramme den Sicherheitseinstellungen in PDF-Dokumenten Folge leisten. Wie Sie mit Hilfe von GSView den Text einer PDF-Datei extrahieren, erfahren Sie in Abschnitt 5.3.
  4. Haben Sie sich in Schritt 1 entschieden, das Dokument mit Hilfe des Programms PDFToText in Text um zu wandeln, kann dieser Versuch – ähnlich wie die Konvertierung mit dem A.R. zu vier verschiedenen Ergebnissen führen:
    1. Die unter Verwendung von PDFToText entstandene Textdatei Ist sehr gut lesbar. Es gibt kein Durcheinander bei Inhaltsverzeichnissen, die Textspalten sind korrekt angeordnet und Tabellen sind zufriedenstellend in Text konvertiert worden. Dann gibt es keine technischen Hürden mehr und Sie können sich dem Inhalt der nunmehr im Textformat vorliegenden Datei zuwenden.
    2. Die unter Verwendung von PDFToText entstandene Textdatei Ist schlecht bis unmöglich lesbar. Bei der Umwandlung von Inhaltsverzeichnissen, Textspalten und Tabellen ist Textmischmasch entstanden. Dann können Sie die entstandene Datei löschen und haben zwei Möglichkeiten:
      1. Sie versuchen, die ursprüngliche PDF-Datei mit dem A.R. zu lesen oder um zu wandeln. Der A.R. ist beim Anordnen von Textblöcken nämlich sehr viel geschickter als PDFToText. Bringt das ebenfalls keine befriedigenden Ergebnisse, bleibt Ihnen nichts anderes übrig, als das PDF-Dokument von einer OCR verarbeiten zu lassen. Sie dürfen dann hoffen, dass die Texterkennung möglichst fehlerfrei ist und die einzelnen Textblöcke auf den Seiten sinnvoller angeordnet werden als von PDFToText und dem A.R. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in Abschnitt 5.4.
      2. Sie können eine OCR natürlich auch direkt nach dem erfolglosen Umwandlungsversuch mit PDFToText einsetzen. Lassen Sie sich nicht von der Tatsache beirren, dass die ursprüngliche PDF-Datei eigentlich gar keine Grafik ist. Eine OCR kann auch solche Dateien verarbeiten, die bereits in Textform vorliegen!
    3. Die unter Verwendung von PDFToText entstandene Textdatei enthält entweder gar keinen Text oder vollkommen unleserlichen Buchstabensalat. Dies ist ein Zeichen dafür, dass es sich bei der Ursprünglichen PDF-Datei um ein rein grafisches Dokument handelt, dessen Inhalt durch eine Textkonvertierung natürlich nicht zugänglich gemacht werden kann. Dann bleibt Ihnen nichts Anderes übrig, als die entstandene Datei zu löschen, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen und zu hoffen, dass dabei gute Erkennungsergebnisse geliefert werden. Wie Sie PDF-Dokumente von einer OCR verarbeiten, erfahren Sie in Abschnitt 5.4.
    4. Der Versuch der Textkonvertierung wird von PDFToText mit der Fehlermeldung

      Error: Copying of text from this document is not allowed.

      beantwortet und abgebrochen. Diese Meldung besagt, dass der Autor beim vorliegenden Dokument die Entnahme von Text verboten hat. Dann bleibt Ihnen nichts Anderes übrig als zu versuchen, das Dokument mit dem Programm GSView zu öffnen und den enthaltenen Text in eine Textdatei zu extrahieren. Der Versuch, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen wird mit an Sicherheit grenzender Wahrscheinlichkeit fehlschlagen, da auch Texterkennungsprogramme den Sicherheitseinstellungen in PDF-Dokumenten Folge leisten. Wie Sie mit Hilfe von GSView den Text einer PDF-Datei extrahieren, erfahren Sie in Abschnitt 5.3.
  5. Weil Lese- und Textumwandlungsversuche Textmischmasch, unlesbaren Buchstabensalat oder sogar leere Dateien geliefert haben, lassen Sie das PDF-Dokument von einer OCR verarbeiten. Hinweise zum Umgang mit derartigen Programmen erhalten Sie in Abschnitt 5.4.
  6. Weil Zugriffsbeschränkungen dafür sorgen, dass sowohl der A.R., als auch das Programm PDFToText beim Versuch der Umwandlung von PDF in andere Dokumentformate scheitern, nehmen Sie die Software GSView zu Hilfe. In aller Regel kann GSView den Text extrahieren. Hinweise zur Bedienung von GSView erhalten Sie in Abschnitt 5.3."

"Sehr hilfreich, so ein Entscheidungsschema! Trotzdem hätte ich dazu noch drei Fragen – zunächst: Warum empfehlen Sie nicht bereits in den ersten Schritten den Einsatz einer Texterkennungssoftware oder das Öffnen einer PDF-Datei mit GSView?"

"Das sind im Grunde zwei Fragen. Den sofortigen Einsatz eines Texterkennungsprogrammes empfehle ich nicht, weil solch eine OCR-Software beim Verarbeiten eines Dokumentes stets einige Erkennungsfehler macht. Wenn sich der Originaltext also zufriedenstellend lesen oder als Datei abspeichern lässt, sollte man die Qualität nicht durch eine Texterkennung vermindern lassen.

Den sofortigen Einsatz von GSView empfehle ich deshalb nicht, weil dieses Programm beim Konvertieren mehrspaltiger PDF-Dokumente dem A.R. deutlich unterlegen ist. Setzen Sie es nur ein, wenn weder der A.R. noch PDFToText auf den Inhalt einer PDF-Datei zugreifen können."

"Gut. Meine zweite Frage lautet: Kann ich einer PDF-Datei denn nicht schon 'von außen' anmerken, ob sie mehrspaltig gesetzten text enthält, rein grafisch aufgebaut ist oder ob Zugriffsbeschränkungen meinem Screenreader das Lesen des Dokumentinhalts verweigern?"

"Nun, Gewissheit über das Spaltenlayout eines PDF-Dokumentes erhalten Sie nur dann, wenn Sie die Datei zum Lesen öffnen. Als Faustregel können Sie sich aber merken: Handelt es sich bei dem Dokument um Prospektmaterial oder eine Broschüre, können Sie mehrspaltiges Layout fast mit Sicherheit voraussetzen; bei Referatstexten, Bedienungsanleitungen oder Gesetzestexten können Sie Glück haben und einem einfachen Spaltensatz begegnen. Ob die PDF-Datei nur aus Bildern besteht oder nicht, erkennen Sie im Extremfall – aber nur dann – an der Dateigröße. Bei PDF-Dateien, die größer sind als 20 Megabyte, handelt es sich mit 99%iger Wahrscheinlichkeit um reine Grafik, an deren Inhalt Sie nur mittels OCR herankommen. Ob der Zugriff auf den Inhalt eines Dokumentes eingeschränkt ist oder nicht, können Sie nicht herausfinden, ohne das Dokument zu öffnen oder zu analysieren. Die aktuell gültigen Sicherheitseinstellungen einer geöffneten PDF-Datei kann Ihnen der A.R. verraten. Auch im Programmpaket Xpdf ist neben dem bereits mehrfach erwähnten PDFToText ein Programm namens PDFInfo enthalten, das Ihnen ebenfalls über den Sicherheitsstatus eines PDF-Dokumentes Auskunft geben kann. Über das Thema 'Sicherheit in PDF-Dokumenten' sprechen wir in Abschnitt 6.2."

"Alles Klar. Nun meine dritte Frage: Wenn ich eine Umwandlung von PDF in Text sowohl mit dem A.R. als auch mit GSView vornehmen kann und wenn – wie Sie sagen – der A.R. bei mehrspaltigen Dokumenten sowieso die besten Umwandlungsergebnisse liefert – ist dann das Programm PDFToText nicht überflüssig?"

"Nein. PDFToText zeigt seine Stärken bei einspaltigen PDF-Dokumenten. Zunächst einmal verläuft die Textumwandlung sehr viel schneller als bei GSView und beim A.R. Zusätzlich gehen bei der Umwandlung mit PDFToText keine Leerzeilen im Text verloren, und auch Einrückungen und Zentrierungen bleiben erhalten. Wenn Sie also Wert auf einigermaßen ansehnliche Textdateien legen, dann geben Sie bei der Textumwandlung 'pflegeleichter' PDF-Dokumente früher oder später PDFToText den Vorzug."

"Schön! Jetzt hätte ich aber endlich gerne ein paar Tipps für das Lesen von PDF-Dokumenten mit dem A.R."

"Gut, die sollen Sie bekommen."