LinuxHint уже опубликовал руководство, объясняющее, как установить и понять обучение Tesseract.
В этом руководстве показан процесс установки Tesseract в системах Debian / Ubuntu, но не будут расширены функции обучения, если вы не знакомы с этим программным обеспечением, чтение упомянутой статьи может быть хорошим введением. Затем мы покажем вам, как обработать изображение GIF с помощью Tesseract, чтобы получить из него текст.
Установка Tesseract:
Запустить:
подходящая установка tesseract-ocr
Теперь вам нужно установить imagemagick, который является конвертером изображений.
После установки мы уже можем протестировать Tesseract, чтобы проверить его, я нашел гифку, лицензированную для повторного использования.
Теперь посмотрим, что происходит, когда мы запускаем tesseract на изображении в формате gif:
тессеракт 2002NY40.gif 1результат
Теперь сделайте «меньше» на 1 результат.текст
меньше 1результат.текст
Вот изображение с текстом:
В этом Tesseract настройки по умолчанию довольно точны, обычно для получения такой точности требуется обучение. Давайте попробуем другое бесплатное изображение, которое я нашел на Wiki Commons, после его загрузки запустите:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2результат
Теперь проверьте содержимое файла.
меньше 2результат.текст
Это был результат, в то время как исходное содержимое изображения было:
Чтобы улучшить распознавание символов, у нас есть много вариантов и шагов, которые нужно выполнить, которые были подробно описаны в нашем предыдущем руководстве: удаление границ, удаление шума, оптимизация размера и поворот страницы среди других функций, таких как обрезка.
Для этого урока мы будем использовать textcleaner, скрипт, разработанный Fred's ImageMagick Scripts.
Скачайте скрипт и запустите:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.гиф тест.гифка
Примечание: перед запуском скрипта дайте ему разрешение на выполнение, запустив «chmod + x очиститель текста”Как корень или с судо приставка.
Где:
очиститель текста: вызывает программу
-грамм: Преобразовать изображение в оттенки серого
-е: enache
-ж: filterize
-s: sharpamt, степень резкости пикселей, которая будет применена к результату.
Для получения информации и примеров использования с Textcleaner посетите http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Как вы видите, Textcleaner изменил цвет фона, увеличив контраст между шрифтом и фоном.
Если мы запустим tesseract, возможно, результат будет другим:
тест тессеракта.gif testoutputменьше тестовых выходов
Как видите, результат действительно улучшился, даже если он не совсем точен.
Команда перерабатывать Предоставляемый imagemagick, позволяет нам извлекать кадры из изображений в формате GIF для последующей обработки в Tesseract, это полезно, если в разных кадрах изображения в формате GIF есть дополнительный контент.
Синтаксис прост:
перерабатыватьРезультат будет сгенерирован как количество файлов как кадров в gif, в приведенном примере результаты будут такими: выход-0.jpg, выход-1.jpg, выход-2.jpg, так далее.
Затем вы можете обработать их с помощью tesseract, указав ему обрабатывать все файлы с помощью подстановочного знака, сохраняя результат в одном файле, запустив:
для i в output- *; do tesseract $ i outputresult; Выполнено;Imagemagick имеет огромное количество опций для оптимизации изображений, и нет общего режима, для каждого типа сценария вы должны прочитать страницу руководства по командам convert.
Надеюсь, вы нашли этот урок по Tesseract полезным.