如何启用DVB和图像字幕提取

MCEBuddy 可以使用 OCR(光學字元辨識)自動將基於影像的字幕(例如 DVB 或內嵌字幕)轉換為文字字幕 (SRT)。此功能需要下載額外的檔案,因為 OCR 處理需要非常大的資料檔案(約 1 GB),無法包含在 MCEBuddy 安裝檔案中。


MCEBuddy 2.7.1 及更新版本

如果 MCEBuddy 安裝完成後有可用的網際網路連線,OCR 檔案將會自動下載並安裝。

MCEBuddy 2.6.2 至 2.6.6 版本:安裝期間,自動下載並安裝所需的 OCR 附加元件檔案的選項預設為啟用。如果您不希望自動下載和安裝 OCR 附加元件檔案,可以將其停用。

如果由於缺乏網際網路連線導致下載失敗,或者您在安裝過程中未選擇自動安裝,您可以隨時在「轉換任務」頁面中點擊 Install OCR add-on 連結來觸發 OCR 附加元件檔案的自動重新安裝,如下所示:

InstallOCR add-on 顯示為 灰色 表示附加元件檔案已安裝。點擊文字可重新下載並重新安裝它們(約 500MB 下載)
Install OCR add-on 顯示為 紅色 表示附加元件檔案尚未安裝。點擊文字以下載並安裝它們(約 500MB 下載)

請確保在「轉換任務 - > 進階設定」中啟用了 儲存字幕內嵌字幕 選項,以便使用 OCR 擷取和處理字幕。


MCEBuddy 2.4.7 至 2.6.1 版本

您需要按照以下說明手動下載並安裝 OCR 檔案。

請遵循以下程序來啟用 OCR 和影像轉文字字幕轉換,以從錄影中擷取 DVB 和其他基於影像的字幕。

  1. https://github.com/tesseract-ocr/tessdata/archive/3.04.00.zip 下載 OCR 檔案
  2. 解壓縮 zip 檔案 (tessdata-3.04.00.zip) 的內容。它應該會建立一個名為 tessdata-3.04.00 的資料夾,其中包含 100 多個 traineddata 檔案。請確保沒有子資料夾。它應該看起來像 tessdata-3.04.00\\<100+ traineddata 檔案>
  3. tessdata-3.04.00 資料夾移動到 MCEBuddy 安裝目錄下的 ccextractor 目錄內:<MCEBuddy 安裝目錄>\ccextractor\
  4. 例如:將 tessdata-3.04.00 移動到 C:\Program Files\MCEBuddy2x\ccextractor\
  5. tessdata-3.04.00 目錄重新命名為 tessdata重要提示不要遺漏此步驟,否則 OCR 將無法運作

因此,您的最終設定應如下所示:<MCEBuddy 安裝目錄>\ccextractor\tessdata\<100+ traineddata 檔案>
例如:C:\Program Files\MCEBuddy2x\ccextractor\tessdata\<100+ traineddata 檔案>

請確保您已在轉換任務進階設定中啟用擷取字幕和隱藏式字幕 選項,這樣您就可以開始使用了!它將擷取並轉換基於影像的字幕為文字 SRT 檔案。盡情享受吧!


2.4.7 之前的版本不支援 OCR

1 个赞

Tessdata 4.x 或 5.x(alpha)是否受 MCEBuddy 支援?能否以相同方式/位置安裝?

在 4 與 5 版本的更新中,都含有額外的子資料夾。

Tessdata 由 ccExtractor 使用,目前尚不支持 4.x 或 5.x

很高興知道,謝謝你。這幫我省了很多時間。:slight_smile:

我下载了压缩文件,但它是空的。我会再试一次。

得裝 7-Zip,Windows 解壓不了。

1 个赞

更新,从 2.7.1 版本开始,MCEBuddy 将支持 Tesseract 4.x 和 5.x 的 tessdata。默认下载的 tessdata 文件仍将是 3.04 的,因为在我们的测试中,我们发现这些文件最适合用于烧录在视频和图像字幕中的 OCR,但如果您有兴趣,可以尝试使用您自己的 tessdata 训练文件。

注意事项:

  • 默认始终是 PSM 模式 3,但在使用 4.x 和 5.x 的 tessdata 时,OEM 模式将切换到 LTSM,在使用 3.x 的 tessdata 时切换到 LEGACY
  • 所有版本的目录结构保持不变,所有训练数据文件应放置在如上所述的名为 tessdata 的文件夹中

如果您发现使用不同的 PSM 或 OEM 模式效果更好,请告知我们详细信息和样本,我们将研究允许用户自定义这些模式。

以下是一些与 Tesseract 4.x 和 5.x 兼容的 tessdata 训练文件的链接,这些文件已与 MCEBuddy 进行了测试: