So aktiviert man DVB- und Bilduntertitel-Extraktion

MCEBuddy kann bildbasierte Untertitel (z. B. DVB oder eingebrannte Untertitel) automatisch mithilfe von OCR (Optical Character Recognition) in Textuntertitel (SRT) umwandeln. Diese Funktion erfordert das Herunterladen zusätzlicher Dateien, da die OCR-Verarbeitung sehr große Datendateien (~1 GB) benötigt, die nicht im MCEBuddy-Setup enthalten sein können.


MCEBuddy Version 2.7.1 und neuer

Die OCR-Dateien werden automatisch heruntergeladen und installiert, wenn nach Abschluss der MCEBuddy-Installation eine Internetverbindung verfügbar ist.


MCEBuddy Version 2.6.2 bis 2.6.6

Während der Installation ist die Option, die erforderlichen OCR-Add-on-Dateien automatisch herunterzuladen und zu installieren, standardmäßig aktiviert. Sie können sie deaktivieren, wenn Sie nicht möchten, dass die OCR-Add-on-Dateien automatisch heruntergeladen und installiert werden.

Falls das Herunterladen aufgrund fehlender Internetverbindung fehlgeschlagen ist oder Sie die automatische Installation während des Setups nicht ausgewählt haben, können Sie jederzeit eine erneute automatische Installation der OCR-Add-on-Dateien auslösen, indem Sie auf der Konvertierungsaufgabe-Seite auf den Link OCR-Add-on installieren klicken, wie unten gezeigt:

OCR-Add-on installieren in grau bedeutet, dass die Add-on-Dateien installiert sind. Klicken Sie auf den Text, um sie erneut herunterzuladen und zu installieren (~500 MB Download)
OCR-Add-on installieren in rot bedeutet, dass die Add-on-Dateien noch nicht installiert sind. Klicken Sie auf den Text, um sie herunterzuladen und zu installieren (~500 MB Download)

Stellen Sie sicher, dass die Optionen Untertitel speichern oder Untertitel einbetten in den Erweiterten Einstellungen der Konvertierungsaufgabe aktiviert sind, um Untertitel mithilfe von OCR zu extrahieren und zu verarbeiten.


MCEBuddy Versionen 2.4.7 bis 2.6.1

Sie müssen die OCR-Dateien manuell herunterladen und installieren, wie unten beschrieben.

Folgen Sie dem untenstehenden Verfahren, um OCR und die Konvertierung von Bild- in Textuntertitel zu aktivieren, um DVB- und andere bildbasierte Untertitel aus Aufnahmen zu extrahieren.

  1. Laden Sie die OCR-Dateien von https://github.com/tesseract-ocr/tessdata/archive/3.04.00.zip herunter
  2. Entpacken Sie den Inhalt der ZIP-Datei (tessdata-3.04.00.zip). Es sollte ein Ordner namens tessdata-3.04.00 erstellt werden, in dem sich 100+ traineddata-Dateien befinden. Stellen Sie sicher, dass keine Unterordner vorhanden sind. Es sollte wie folgt aussehen: tessdata-3.04.00\\<100+ traineddata-Dateien>
  3. Verschieben Sie den Ordner tessdata-3.04.00 in das ccextractor-Verzeichnis, in dem MCEBuddy installiert ist: _\ccextractor_
    z. B. Verschieben Sie tessdata-3.04.00 nach C:\Program Files\MCEBuddy2x\ccextractor\
  4. Benennen Sie das Verzeichnis tessdata-3.04.00 in tessdata um. Wichtig: Verpassen Sie diesen Schritt nicht, sonst funktioniert OCR nicht

Ihr endgültiges Setup sollte also wie folgt aussehen: \ccextractor\tessdata<100+ traineddata-Dateien>
z. B. C:\Program Files\MCEBuddy2x\ccextractor\tessdata\<100+ traineddata-Dateien>

Stellen Sie sicher, dass die Option Untertitel und Untertitel für Hörgeschädigte extrahieren in den erweiterten Einstellungen Ihrer Konvertierungsaufgabe aktiviert ist, und schon kann es losgehen! Es extrahiert und konvertiert bildbasierte Untertitel in eine Text-SRT-Datei. Viel Spaß!


Versionen älter als 2.4.7 unterstützen kein OCR

Wird Tessdata 4.x oder 5.x (Alpha) von MCEBuddy unterstützt und kann es auf dieselbe Weise/Am selben Ort installiert werden?

In beiden Versionen 4 und 5 der Updates befinden sich zusätzliche Unterordner.

Tessdata wird von ccExtractor verwendet und unterstützt derzeit 4.x oder 5.x noch nicht

Gut zu wissen, danke. Das hat mir viel Zeit gespart. :slight_smile:

Ich habe die ZIP-Datei heruntergeladen und sie ist leer. Ich versuche es noch einmal.

musste 7-zip holen. Windows konnte es nicht entpacken

Update, ab Version 2.7.1 unterstützt MCEBuddy tessdata für Tesseract 4.x und 5.x. Die standardmäßig heruntergeladenen tessdata-Dateien sind weiterhin für 3.04, da wir bei unseren Tests festgestellt haben, dass diese am besten für OCR in eingebrannten Video- und Bildunterschriften geeignet sind. Sie können jedoch mit Ihren eigenen trainierten tessdata-Dateien experimentieren, falls Sie daran interessiert sind.

Zu beachtende Punkte:

  • Die Standardeinstellung ist immer der PSM-Modus 3, aber der OEM-Modus wechselt auf LTSM, wenn tessdata für 4.x und 5.x verwendet wird, und auf LEGACY, wenn tessdata für 3.x verwendet wird.
  • Die Verzeichnisstruktur bleibt für alle Versionen gleich. Alle trainierten Datendateien sollten in einem Ordner namens tessdata abgelegt werden, wie in den obigen Anweisungen beschrieben.

Wenn Sie feststellen, dass die Verwendung eines anderen PSM- oder OEM-Modus besser funktioniert, teilen Sie uns die Details zusammen mit Beispielen mit, und wir werden prüfen, ob wir den Benutzern die Möglichkeit geben können, die Modi anzupassen.

Hier sind einige Links zu den verschiedenen trainierten tessdata-Dateien, die mit Tesseract 4.x und 5.x kompatibel sind und mit MCEBuddy getestet wurden: