OCR

Как запустить tesseract для файла GIF в Linux

Как запустить tesseract для файла GIF в Linux
Tesseract - это система оптического распознавания символов (OCR), одна из лучших. Программное обеспечение OCR способно понимать текст с изображений и отсканированных документов (включая почерк, если вы его обучите). Система OCR может быть полезна для множества задач, таких как подсчет слов в отсканированных документах, автоматическая транскрипция, преобразование символов из изображения в текст и т. Д.

LinuxHint уже опубликовал руководство, объясняющее, как установить и понять обучение Tesseract.

В этом руководстве показан процесс установки Tesseract в системах Debian / Ubuntu, но не будут расширены функции обучения, если вы не знакомы с этим программным обеспечением, чтение упомянутой статьи может быть хорошим введением.  Затем мы покажем вам, как обработать изображение GIF с помощью Tesseract, чтобы получить из него текст.

Установка Tesseract:

Запустить:

подходящая установка tesseract-ocr

Теперь вам нужно установить imagemagick, который является конвертером изображений.

После установки мы уже можем протестировать Tesseract, чтобы проверить его, я нашел гифку, лицензированную для повторного использования.

Теперь посмотрим, что происходит, когда мы запускаем tesseract на изображении в формате gif:

тессеракт 2002NY40.gif 1результат

Теперь сделайте «меньше» на 1 результат.текст

меньше 1результат.текст

Вот изображение с текстом:

В этом Tesseract настройки по умолчанию довольно точны, обычно для получения такой точности требуется обучение. Давайте попробуем другое бесплатное изображение, которое я нашел на Wiki Commons, после его загрузки запустите:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2результат

Теперь проверьте содержимое файла.

меньше 2результат.текст


Это был результат, в то время как исходное содержимое изображения было:

Чтобы улучшить распознавание символов, у нас есть много вариантов и шагов, которые нужно выполнить, которые были подробно описаны в нашем предыдущем руководстве: удаление границ, удаление шума, оптимизация размера и поворот страницы среди других функций, таких как обрезка.

Для этого урока мы будем использовать textcleaner, скрипт, разработанный Fred's ImageMagick Scripts.

Скачайте скрипт и запустите:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.гиф тест.гифка

Примечание: перед запуском скрипта дайте ему разрешение на выполнение, запустив «chmod + x очиститель текста”Как корень или с судо приставка.

Где:

очиститель текста: вызывает программу

-грамм: Преобразовать изображение в оттенки серого

: enache

: filterize

-s: sharpamt, степень резкости пикселей, которая будет применена к результату.

Для получения информации и примеров использования с Textcleaner посетите http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Как вы видите, Textcleaner изменил цвет фона, увеличив контраст между шрифтом и фоном.

Если мы запустим tesseract, возможно, результат будет другим:

тест тессеракта.gif testoutput

меньше тестовых выходов

Как видите, результат действительно улучшился, даже если он не совсем точен.

Команда перерабатывать Предоставляемый imagemagick, позволяет нам извлекать кадры из изображений в формате GIF для последующей обработки в Tesseract, это полезно, если в разных кадрах изображения в формате GIF есть дополнительный контент.

Синтаксис прост:

перерабатывать

Результат будет сгенерирован как количество файлов как кадров в gif, в приведенном примере результаты будут такими: выход-0.jpg, выход-1.jpg, выход-2.jpg, так далее.

Затем вы можете обработать их с помощью tesseract, указав ему обрабатывать все файлы с помощью подстановочного знака, сохраняя результат в одном файле, запустив:

для i в output- *; do tesseract $ i outputresult; Выполнено;

Imagemagick имеет огромное количество опций для оптимизации изображений, и нет общего режима, для каждого типа сценария вы должны прочитать страницу руководства по командам convert.

Надеюсь, вы нашли этот урок по Tesseract полезным.

Учебник OpenTTD
OpenTTD - одна из самых популярных бизнес-симуляторов. В этой игре вам нужно создать замечательный транспортный бизнес. Тем не менее, вы начнете в нач...
SuperTuxKart для Linux
SuperTuxKart - отличная игра, созданная для того, чтобы бесплатно познакомить вас с Mario Kart в вашей системе Linux. Играть в нее довольно сложно и в...
Учебник Battle for Wesnoth
Битва за Веснот - одна из самых популярных стратегических игр с открытым исходным кодом, в которую вы можете играть сейчас. Эта игра не только очень д...