На главную страницу На главную страницу Помоги больным детям! Их можно спасти!
 
Справочные материалы ←

Как распознать текст отсканированного документа?

В Ульяновск.BSD для распознавания текстов можно использовать tesseract. Это движок оптического распознавания символов (OCR) с открытым исходным кодом, который является одной из самых популярных и качественных OCR-библиотек. Его установка достаточно проста:

pkg install -r latest tesseract

Tesseract – это консольное приложение. Поэтому для удобства работы с ним лучше использовать какой-либо GUI-интерфейс. Одним из таких интерфейсов является приложение VietOCR. С помощью VietOCR можно не только распознавать текст на единичных страницах или в выбранных блоках изображения, но и производить пакетное распознавание текста во множестве изображений, находящихся в одном каталоге. Актуальную версию приложения в виде zip-файла можно скачать со страницы VietOCR на SourceForge. На момент создания данного документа это был файл VietOCR-5.6.1.zip. Для установки приложения достаточно просто распаковать скачанный zip-архив в каталог /usr/local:

unzip -d /usr/local VietOCR-5.6.1.zip

VietOCR – это Java-приложение. Поэтому для его запуска необходимо установить Java-машину:

pkg install -r latest openjdk8-jre

После этого можно запускать VietOCR из командной строки в Терминале:

env _JAVA_OPTIONS='-Dawt.useSystemAAFontSettings=on' java -jar /usr/local/VietOCR3/VietOCR.jar

Или скачайте файл VietOCR.desktop и сохраните его на рабочем столе и в каталоге /usr/local/share/applications/. В результате этого на рабочем столе и в меню появится ярлык для запуска VietOCR.

Примечание 1:

Для возможности проверки орфографии необходимо скачать языковой пакет. Сделать это можно через меню «Настройки» → «Загрузить языковые данные...».

Примечание 2:

Функция сканирования в VietOCR в настоящее время не работает. Поэтому сканирование и подготовку изображений для распознавания необходимо производить с помощью других приложений. Например, skanlite или xsane.

 

Последнее изменение: 13.07.2020 19:28:22
Комментарии
Добавляя комментарий, убедитесь, что он соответствует теме. Подумайте, будет ли он интересен другим. Спам, умышленная реклама и личная переписка не допускаются. Соблюдайте правила русского языка. Комментарии публикуются после проверки модератором и могут быть удалены без объяснения причин. Ответы на заданные в комментариях вопросы могут исходить от любого пользователя и являются неофициальными.
Импортозамещение
«Конкуренция всегда нужна, и я уверен – конкуренция будет», – заявил президент России Владимир Путин во время прямой линии в ответ на вопрос техноблогера «Было ли создание Мax необходимостью и будет ли сохраняться конкуренция между мессенджерами». По словам президента, проблема иностранных мессенджеров – лишь в соблюдении российских законов. Но правительства стран этих мессенджеров не давали […] Сообщение Президент России заявил о невозможности монополии Max на рынке мессенджеров появились сначала на Digita... 
Депутаты парламента Челябинской области приняли закон, освобождающий организации от уплаты налога на имущество, входящее в состав центров обработки данных (ЦОД), сообщает региональное министерство информационных технологий, связи и цифрового развития в пятницу. Освобождаться от налога на имущество будут владельцы включённых в реестр дата-центров, который, согласно закону о ЦОД, будет вести Минцифры, пояснили D-Russia.ru в региональном министерстве. […] Сообщение Льготу для владельцев ЦОД ввели в Челябинской... 
Для общественного обсуждения опубликован проект приказа Минцифры «Об утверждении порядка заключения, реализации и оценки результатов реализации соглашений об оказании российскими организациями, осуществляющими деятельность в области информационных технологий, содействия в реализации образовательных программ и внеурочной деятельности». Напомним, согласно постановлению правительства от 28.11.2025 № 1949 крупные аккредитованные IT-компании обязаны отчислять не менее 3% от средств, сэкономленных благодаря […] С... 
Публикация РБК в понедельник с упоминанием «национальной» ERP-системы замечательна, есть повод вернуться к теме. Неназванный чиновник из Минцифры, если верить публикации, растолковал нам разницу между «отечественной» ERP-системой и ERP-системой «национальной» (не спрашивайте, бюрократическая ерунда) и обнадёжил – одну на всех ERP-систему «на замену SAP» в России не введут. Хотя такую идею всерьёз рассматривают серьёзные люди, […] Сообщение SAPизация 2.0 появились сначала на Digital Russia. 
В 2025 году IT-компании в России стали банкротиться чаще, чем годом ранее: в январе – ноябре процедуру банкротства начали 630 IT-компаний, на 28% больше, чем за аналогичный период 2024 года, когда таких предприятий было 491, пишут «Известия» со ссылкой на отчёт сервиса проверки контрагентов Rusprofile. При подсчёте учитывались компании и индивидуальные предприниматели, у которых при […] Сообщение В РФ происходят массовые банкротства IT-компаний – СМИ появились сначала на Digital Russia. 
В середине декабря 2015 года Банк России и АО «НСПК» объявили о начале эмиссии первых карт национальной платёжной системы «Мир». Задачей НСПК тогда было обеспечение бесперебойности операций по картам международных платёжных систем на территории России, построение и развитие российской системы платёжных карт. Система заработала через год и девять месяцев после присоединения Крыма, жителей которого отказались […] Сообщение Платёжной системе «Мир» исполнилось 10 лет появились сначала на Digital Russia. 
Председатель правительства Михаил Мишустин дал поручения по итогам форума «Цифровые решения», проходившего в Москве с 12 по 15 ноября. Так, Минцифры, Минэкономразвития, Минпромторгу, ФАС, ФСБ, АНО «Цифровая экономика» совместно с заинтересованными федеральными органами власти и организациями поручено подготовить предложения по актуализации стратегии развития отрасли связи на период до 2035 года с учётом изменения внешних и […] Сообщение О поручениях правительства по итогам форума «Цифровые решения» появилис... 
Компания «Аскон» выпустила нативную версию системы трехмерного проектирования «Компас-3D» v24 для российских операционных систем на ядре Linux, сообщает компания в четверг. Ранее совместимость с ОС на Linux обеспечивалась через приложение WINE@Etersoft компании «Этерсофт». Теперь «Компас-3D» работает непосредственно в операционной системе, что даёт более высокую производительность, стабильность и безопасность за счёт использования всех ресурсов и встроенных […] Сообщение «Аскон» выпустил «Компас-3D» для оте... 
Приказом Минцифры утверждено новое положение о ведомственном знаке отличия министерства цифрового развития, связи и массовых коммуникаций РФ – звании «Мастер связи», дающем право на присвоение звания «Ветеран труда»; приказ об этом звании от 2016 года признан утратившим силу. В новом положении изменён ряд пунктов. Так, установлено, что знак отличия вручается за заслуги в труде (службе) […] Сообщение Минцифры актуализировало положение о звании «Мастер связи» появились сначала на Digital Russia. 
Группа компаний «Астра» представила линейку программно-аппаратных комплексов (ПАК) представителям РЖД и Минпромторга, сообщила компания РЖД. ПАКи Astra XPlatform ориентированы на реализацию типовых корпоративных сценариев: от создания частного облака и централизованного резервного копирования до доставки приложений, развертывания ИИ-решений и работы с высоконагруженными базами данных. Часть решений построена на базе отечественных процессоров Baikal-S. В испытаниях ПАКов примут […] Сообщение ГК «Астра» презе... 
    Наверх       На главную страницу       Адрес электропочты Рейтинг@Mail.ru
Данный интернет-сайт носит исключительно информационный характер, и ни при каких условиях информационные
материалы и цены, размещенные на сайте, не являются публичной офертой, определяемой положениями Статьи 437 ГК РФ.

Сергей Волков – эксперт в области информационных технологий © 2011−2025
Работает система управления сайтом «Публикатор 1.9» © 2004−2025