YAGF — графическая оболочка для Tesseract в Linux


Для оптического распознавания текста в Linux есть практически всё, в избытке. Уж точно не меньше десятка программ, предназначенных для этого. Основная масса из них функционируют из консоли, причем, очень хорошо. Среди лидеров оптического распознавания можно выделить Cuneiform и Tesseract, последний из которых и рассмотрим в данной статье, точнее его графическую оболочку YAGF. Предпочтений особых нет, просто нужно было с чего-то начинать.

Установка Tesseract

Для deb-дистрибутивов, при наличии Tesseract в репозитории, подойдет команда:

sudo apt-get install tesseract-ocr libtesseract3 tesseract-ocr-osd
tesseract-ocr-rus tesseract-ocr-eng tesseract-ocr-equ

Она устанавливает сам Tesseract, а также русский и английский языки распознавания. Кроме того, установится парочка дополнительных пакетов, которые, как мне показалось, лишними не будут. Если вам нужна поддержка других языков, то она есть — подключается установкой из репозитория.

Для rpm-дистрибутивов будет справедлива команда:

sudo yum install tesseract

Fedora 19 автоматически подхватывает поддержку русского языка.

Можно было бы рассказать о том, как распознавать тексты прямо из консоли, но, к счастью, команда

tesseract

выводит лаконичную, но понятную справку.

Установка YAGF

Перейдем лучше к самому интересному — графической оболочке. Мне больше всего понравилась программа YAGF, прекрасно понимающая как Tesseract, так и Cuneiform.

Кстати о последнем. При установке YAGF в Fedora командой

sudo yum install yagf

установщик как бы заодно ставит Cuneiform. Что ж, делать это было необязательно, но пригодится. Хотя вообще предпочитаю не ставить однотипные сущности, особенно если они примерно равны по качеству.

В deb-дистрибутивах команда вполне понятная:

sudo apt-get install yagf

Внешний вид YAGF и органы управления

Главное окно состоит из меню, панели инструментов, списка страниц и двух колонок — для исходного документа и конечного результата. Панель инструментов практически полностью дублирует меню.

Добавить документ для распознавания можно тремя способами:

  • открыть графический файл;
  • сканировать;
  • импортировать из PDF-файла.

После того, как исходник отобразится в левой колонке, можно нажать на «Распознать» или воспользоваться клавиатурной комбинацией Ctrl+R. Не забудьте предварительно выбрать язык распознавания — здесь же, на панели инструментов.

Существенный недостаток программы заключается в том, что распознанный текст выводится с ошибками разного рода, и это при идеальном исходнике. Для примера распознал обычный pdf-документ.

Но как бы там ни было, результат работы Tesseract можно использовать в профессиональной деятельности. Несмотря на недостатки, он всё равно экономит массу времени.

Чтобы выводимый текст был хотя бы с минимальным форматированием, нажмите на панели инструментов кнопку «Выбрать HTML в качестве формата вывода распознанного текста».

Кнопка «Проверить орфографию» активирует соответствующую возможность, которая применима только к конечному результату. Вот тут-то вам и понадобятся дополнительные пакеты, которые при желании можно доустановить отдельно, аналогично установке основного пакета.

Настройки программы YAGF скромны, в конце концов, она всего лишь является простой оболочкой. Можно выбрать утилиту для распознавания — Cuneiform или Tesseract, а в случае с последним еще и указать расположение директории tessdata. Я указал /usr/share/tesseract/ и, кажись, всё работает.

А чем вы распознаёте тексты в Linux?

Понравилась запись? Поделитесь :)
Социальные комментарии Cackle