OCR automation
Есть такой программный пакет для распознания текста, как Cuneiform. Существует как под Windows, так и под Linux.
Графические интерфейсы под linux немного тупые)= Поэтому, как ни странно, удобнее пользоваться CLI интерфейсом (сохраняет с картинками, может даже с таблицами в некоторых форматах, но я не уверен).
Еще и работать с многостраничными tiff он не умеет, поэтому пришлось разбить его с помощь tiffsplit, а потом обрабатывать пакетно. Для обработки можно воспользоваться таким скриптом на python:
Результат распознания (картинки в нем были, просто не вставил их в блоге):
Недостатки:
P.S. djvu можно сохранить в многостраничный tiff:
Графические интерфейсы под linux немного тупые)= Поэтому, как ни странно, удобнее пользоваться CLI интерфейсом (сохраняет с картинками, может даже с таблицами в некоторых форматах, но я не уверен).
Еще и работать с многостраничными tiff он не умеет, поэтому пришлось разбить его с помощь tiffsplit, а потом обрабатывать пакетно. Для обработки можно воспользоваться таким скриптом на python:
from sys import argv
from subprocess import Popen
processes = []
maxP = 2
for in_file in argv[1:]:
out_file = ".".join(in_file.split(".")[:-1])+".html"
task = "cuneiform -l ruseng -f html -o {1} {0}".format(in_file, out_file)
task = task.split()
if len(processes)>=maxP:
for proc in processes:
proc.wait()
processes = []
print("Processing "+in_file)
processes.append(Popen(task))
print("All Done")
Приведу пример распознания:Результат распознания (картинки в нем были, просто не вставил их в блоге):
Раздел 11
Радиусы r ь r, г„+1 ... образуют подобную
прогрессию с тем же показателем т. Относительная ширина щели определяется
соотношением о = r„/R„.
Нетрудно заметить, что
бесконечные конструкции такого рода обладают следующим свойством: при
возбуждении а~нтенны в центре ее поле излучения будет повторяться на всех
.Z-ллпскость в'-плоскость
ф и
г. 1. Угловые структуры. а — симметричная бисекторная
конфигурапия; б — логарифмическая, или
равноугольная, спираль. других частотах (исключая изменение
масштаба), определенных выражением f~", где и — любое целое число.
При изображении на логарифмической шкале эти частоты ловторяются через
одинаковые интервалы, равные 1п z, что и определило название всего класса таких
антенн.
Исследование распределения поля вдоль
логопериодических антенн показало, что ~поле очень быстро убывает после
прохождения резонансной неоднородности (резонансной неоднородностью для антенны
на фиг. 2,а является щель, примерно равная Х/2, а для антенны на фиг. 2,
б — зубец, равный -Х/4). Это затухание поля определяет очень малое
влияние конечности 'размера (практическое отсутствие его) у всех
испытывав-
шихся моделей логопер~иодичеоких
антенн.
|
- не сохраняет позиции изображений (в windows версии вроде бы сохраняет);
- проблемы с формулами;
- не сохраняет таблицы;
- некоторые переносы строк, которые должны быть удалены, остаются;
- родной формат (?с нормальными таблицами и рисунками?) нечем открыть в linux
P.S. djvu можно сохранить в многостраничный tiff:
ddjvu file.djvu other_file.tiff