Adobe OCR erkennt keinen Text; Diese Seite enthält darstellbaren Text

Optische Zeichenerkennung (OCR)Für jeden, der Textseiten in bearbeitbaren Text umwandeln muss, ist es möglicherweise besser als geschnittenes Brot. Vielleicht haben Sie Textseiten, die Sie auf Ihrem PC scannen und die nun in eine bearbeitbare Form umgewandelt werden müssen. Vielleicht ist nicht genug Zeit zum Tippen, oder es ist einfach zu viel zum Tippen. Nun, die optische Zeichenerkennung kann dabei helfen. Sie können die Seiten auf den Computer scannen und mit öffnenAdobe Acrobatund versuchen Sie, die OCR-Funktion zu verwenden, um den Text zu erkennen und Ihnen eine bearbeitbare Version zu liefern. Gerade als Sie den Siegestanz aufführen wollen, erhalten Sie die FehlermeldungAcrobat konnte auf dieser Seite keine Erkennung (OCR) durchführen, da diese Seite darstellbaren Text enthält.

Acrobat Professional verfügt über OCR-Funktionen, mit denen Sie gescannte Dokumente im Rich-Text-Format oder als Microsoft Word-Dokumente (sowohl Doc als auch Docx) speichern können. Es kann vorkommen, dass Sie das Dokument in Adobe Acrobat Professional öffnen und zwar den Text sehen, Acrobat jedoch eine Fehlermeldung ausgibt. Acrobat kann OCR nicht für den Text verwenden. Dafür kann es mehrere Gründe geben.

  1. Renderbarer/bearbeitbarer Text
  2. Verzerrte oder unscharfe Quelle
  3. Original minderwertige Qualität
  4. Grafiken und Formen

Acrobat konnte auf dieser Seite keine Erkennung (OCR) durchführen, da diese Seite darstellbaren Text enthält

1] Darstellbarer/bearbeitbarer Text

Renderbarer Text ist der bearbeitbare Text, der in der Datei vorhanden ist, für die Sie OCR durchführen möchten. Acrobat kann keine OCR für ein Dokument durchführen, das darstellbaren Text enthält. Dies ist der am wenigsten offensichtliche Grund für den OCR-Scanfehler, da wir immer davon ausgehen, dass lesbarer Text auch mit OCR scanbar sein sollte.

Lösung:

Wenn dies der Fall ist, gibt es zwei Möglichkeiten, mit dem Fehler umzugehen.

  1. Versuchen Sie, eine Kopie des Dokuments zu erhalten, die keinen darstellbaren Text enthält.
  2. Konvertieren Sie das PDF in TIFF, dann zurück in PDF und versuchen Sie es erneut mit der OCR.

Um die PDF-Datei in TIFF zu konvertieren, öffnen Sie sie in Acrobat und gehen Sie auf „Datei“ und dann auf „Speichern unter“. Wenn das Dialogfeld „Speichern unter“ angezeigt wird, wählen Sie „TIFF (*.tif, *.tiff)“ unter „Speichern unter“ aus. Geben Sie einen Speicherort an, an dem die Datei gespeichert werden soll, und klicken Sie dann auf Speichern. Acrobat speichert jede Seite des PDF-Dokuments als separate, fortlaufend nummerierte TIFF-Datei. Anschließend öffnen Sie jede TIFF-Datei und verwenden Acrobat, um OCR darauf auszuführen.

Wenn Sie die Dokumente zu einem zusammenfassen möchten, gehen Sie wie folgt vor:

  1. Öffnen Sie Acrobat und wählen SieDateiDannPDF erstellenDannAus mehreren Dateien.
  2. WählenDurchsuchenum jede PDF-Datei auszuwählen und hinzuzufügen. Ordnen Sie die Dateien so an, wie sie im neuen PDF angezeigt werden sollen.
  3. WählenOK.

2] Verzerrte oder unscharfe Quelle

Verschwommenes Dokument

Ein weiterer Grund dafür, dass Acrobat keine OCR für das Dokument durchführen kann, liegt darin, dass es eine niedrige Auflösung hat. Dokumente mit niedriger Auflösung werden möglicherweise verschwommen und Acrobat kann keine OCR für sie durchführen.

Lösung:

Holen Sie sich eine hochauflösende Quelle des Dokuments. Wenn Sie ein Papierdokument scannen, stellen Sie die Auflösung des Scanners so ein, dass ein Scan mit höherer Auflösung möglich ist.

Verzerrtes Dokument

Acrobat ist möglicherweise nicht in der Lage, OCR für ein Dokument durchzuführen, das nicht richtig ausgerichtet ist. Das Dokument wurde möglicherweise nicht direkt gescannt, sodass Acrobat keine OCR darauf durchführen kann.

Lösung:

Stellen Sie sicher, dass das Papier, von dem Sie scannen, gerade ist, bevor Sie mit dem Scannen beginnen. Sie können das verzerrte Dokument auch in Photoshop öffnen und begradigen. Hier ist ein Beitrag, der Ihnen zeigt, wie Sie das Begradigungswerkzeug in Photoshop verwenden. Dieses Tool kann Ihnen helfen, das gescannte Dokument zu begradigen, bevor Sie OCR in Acrobat durchführen.

3] Original von geringer Qualität

Wenn das Quellmaterial von geringer Qualität ist, beispielsweise ein Fax, kann Acrobat möglicherweise keine ordnungsgemäße OCR-Funktion ausführen. Sie müssen dann versuchen, eine bessere Qualität zu erzielen, sonst riskieren Sie, die Ausgabe korrigieren zu müssen.

Lösung:

Besorgen Sie sich eine Quelle mit besserer Qualität für die Durchführung von OCR. Wenn Sie nur das Dokument von geringer Qualität haben, müssen Sie möglicherweise die OCR ausführen und hoffen, dass zumindest einige Teile erkannt werden, und dann die fehlenden Teile eingeben.

4] Grafiken und Formen

Dokumente, in denen Grafiken und Formulare gemischt sind, werden von OCR in Acrobat nicht verarbeitet. In Dokumente, die von Acrobat für OCR verwendet werden sollen, dürfen keine Grafiken oder Formulare eingemischt sein, da sonst ein Fehler oder eine falsche Ausgabe auftreten kann.

Lösung:

Suchen Sie eine Nur-Text-Version des Dokuments, an dem Sie OCR durchführen möchten. Möglicherweise müssen Sie auch OCR für das Dokument mit den Grafiken und Formularen durchführen. Wenn dies funktioniert, müssen Sie möglicherweise Korrekturen an der Ausgabe vornehmen.

Was ist OCR in Adobe Acrobat?

OCR ist der Prozess, mit dem Acrobat einen pixelbasierten Text oder ein Bild untersucht. Jedes Zeichen wird erkannt und in Text umgewandelt. Acrobat vergleicht beim OCR-Vorgang die Bildform und die Linienstärke mit den bereits auf Ihrem PC installierten Schriftarten. Nachfolgend sind die Gründe für den OCR-Scanfehler aufgeführt.

Welches Dateiformat ist nicht das beste für OCR?

Das JPEG-Dateiformat ist nicht das beste zum Speichern für OCR, da JPEG dazu neigt, bei jedem Speichern an Qualität zu verlieren. Selbst wenn Sie das JPEG in ein PDF konvertieren, ist die Qualität möglicherweise immer noch gering. Am besten speichern Sie die Dokumente als PDF oder TIFF, wenn Sie OCR darauf anwenden möchten.

Related Posts