OCR automation

Есть такой программный пакет для распознания текста, как Cuneiform. Существует как под Windows, так и под Linux.

Графические интерфейсы под linux немного тупые)= Поэтому, как ни странно, удобнее пользоваться CLI интерфейсом (сохраняет с картинками, может даже с таблицами в некоторых форматах, но я не уверен).

Еще и работать с многостраничными tiff он не умеет, поэтому пришлось разбить его с помощь tiffsplit, а потом обрабатывать пакетно. Для обработки можно воспользоваться таким скриптом на python:

from sys import argv
from subprocess import Popen

processes = []
maxP = 2

for in_file in argv[1:]:
    out_file = ".".join(in_file.split(".")[:-1])+".html"
    task = "cuneiform -l ruseng -f html -o {1} {0}".format(in_file, out_file)
    task = task.split()
    if len(processes)>=maxP:
        for proc in processes:
            proc.wait()
        processes = []
    print("Processing "+in_file)
    processes.append(Popen(task))
print("All Done")
Приведу пример распознания:
Результат распознания (картинки в нем были, просто не вставил их в блоге):
SSPA213_files/0.bmp
SSPA213_files/1.bmp
SSPA213_files/2.bmp
SSPA213_files/3.bmp
Раздел 11

Радиусы r ь r, г„+1 ... образуют подобную прогрессию с тем же показателем т. Относительная ширина щели определяется соотношением о = r„/R„.

Нетрудно заметить, что бесконечные конструкции такого рода обладают следующим свойством: при возбуждении а~нтенны в центре ее поле излучения будет повторяться на всех

.Z-ллпскость в'-плоскость

ф и г. 1. Угловые структуры. а — симметричная бисекторная конфигурапия; б — логарифмическая, или

равноугольная, спираль. других частотах (исключая изменение масштаба), определенных выражением f~", где и — любое целое число. При изображении на логарифмической шкале эти частоты ловторяются через одинаковые интервалы, равные 1п z, что и определило название всего класса таких антенн.

Исследование распределения поля вдоль логопериодических антенн показало, что ~поле очень быстро убывает после прохождения резонансной неоднородности (резонансной неоднородностью для антенны на фиг. 2,а является щель, примерно равная Х/2, а для антенны на фиг. 2, б — зубец, равный -Х/4). Это затухание поля определяет очень малое влияние конечности 'размера (практическое отсутствие его) у всех испытывав-

шихся моделей логопер~иодичеоких антенн.

Недостатки:
  • не сохраняет позиции изображений (в windows версии вроде бы сохраняет);
  • проблемы с формулами;
  • не сохраняет таблицы;
  • некоторые переносы строк, которые должны быть удалены, остаются;
  • родной формат (?с нормальными таблицами и рисунками?) нечем открыть в linux
Несмотря на недостатки, для быстрого распознавания, результаты приемлемые. 207 страниц этой же книги может быть распознано на моём компе (core2duo E7300 2GB RAM) за 190секунд.

P.S. djvu можно сохранить в многостраничный tiff:
ddjvu file.djvu other_file.tiff