На главную страницу На главную страницу Помоги больным детям! Их можно спасти!
 
Справочные материалы ←

Как распознать текст отсканированного документа?

В Ульяновск.BSD для распознавания текстов можно использовать tesseract. Это движок оптического распознавания символов (OCR) с открытым исходным кодом, который является одной из самых популярных и качественных OCR-библиотек. Его установка достаточно проста:

pkg install -r latest tesseract

Tesseract – это консольное приложение. Поэтому для удобства работы с ним лучше использовать какой-либо GUI-интерфейс. Одним из таких интерфейсов является приложение VietOCR. С помощью VietOCR можно не только распознавать текст на единичных страницах или в выбранных блоках изображения, но и производить пакетное распознавание текста во множестве изображений, находящихся в одном каталоге. Актуальную версию приложения в виде zip-файла можно скачать со страницы VietOCR на SourceForge. На момент создания данного документа это был файл VietOCR-5.6.1.zip. Для установки приложения достаточно просто распаковать скачанный zip-архив в каталог /usr/local:

unzip -d /usr/local VietOCR-5.6.1.zip

VietOCR – это Java-приложение. Поэтому для его запуска необходимо установить Java-машину:

pkg install -r latest openjdk8-jre

После этого можно запускать VietOCR из командной строки в Терминале:

env _JAVA_OPTIONS='-Dawt.useSystemAAFontSettings=on' java -jar /usr/local/VietOCR3/VietOCR.jar

Или скачайте файл VietOCR.desktop и сохраните его на рабочем столе и в каталоге /usr/local/share/applications/. В результате этого на рабочем столе и в меню появится ярлык для запуска VietOCR.

Примечание 1:

Для возможности проверки орфографии необходимо скачать языковой пакет. Сделать это можно через меню «Настройки» → «Загрузить языковые данные...».

Примечание 2:

Функция сканирования в VietOCR в настоящее время не работает. Поэтому сканирование и подготовку изображений для распознавания необходимо производить с помощью других приложений. Например, skanlite или xsane.

 

Последнее изменение: 13.07.2020 19:28:22
Комментарии
Добавляя комментарий, убедитесь, что он соответствует теме. Подумайте, будет ли он интересен другим. Спам, умышленная реклама и личная переписка не допускаются. Соблюдайте правила русского языка. Комментарии публикуются после проверки модератором и могут быть удалены без объяснения причин. Ответы на заданные в комментариях вопросы могут исходить от любого пользователя и являются неофициальными.
Импортозамещение
Для общественного обсуждения опубликован проект приказа Минцифры «Об утверждении Правил формирования и ведения перечня значимых разработчиков российского программного обеспечения». Напомним, согласно закону от 31.07.2025 № 325-ФЗ «значимый разработчик российского ПО» — это российский разработчик ПО, заключивший с правительством РФ соглашение о разработке и (или) модернизации за счёт собственных средств ПО в целях импортозамещения для реализации […] Сообщение Минцифры разработало правила ведения перечня знач... 
Национальный мессенджер Мах и российская мобильная операционная система «Аврора» подтвердили совместимость, сообщает VK в пятницу. Скачать Мах на устройство под управлением «Авроры» можно в RuStore. В числе крупнейших пользователей устройств на базе операционной системы — компании РЖД, «Аэрофлот», «Интер РАО», «Ростелеком» и «Почта России», говорится в сообщении. Аудитория Mах в ноябре превысила 55 миллионов пользователей. […] Сообщение Мессенджер Мах стал доступен пользователям ОС «Аврора» появились сначал... 
На сегодняшний день «Россети» выдают предприятиям около 1 ГВт мощности для центров обработки данных (ЦОД), заявки от ЦОДов ещё на 1,5 ГВт мощности находятся в работе, сообщил генеральный директор, председатель правления ПАО «Россети» Андрей Рюмин на встрече с премьером Михаилом Мишустиным. Всего в 2024 году отпуск электроэнергии из сети составил рекордные 920 ГВт/ч. В 2025 […] Сообщение Дата-центрам требуется 0,3% поставляемой «Россетями» электроэнергии — глава организации появились сначала на Digital Russi... 
ПАО «Ростелеком» представило стандарт сотрудничества с высшими учебными заведениями в подготовке IT-специалистов, позволяющий проводить обучение на IT-продуктах компании, сообщает оператор в среду. При таком подходе вузы получают единую модель обучения с готовыми материалами, практическими кейсами и специальной платформой с развёрнутыми стендами; объединяется работа университетов, студентов и бизнеса, говорится в сообщении. «Ростелеком» предоставляет вузам доступ к […] Сообщение «Ростелеком» представил отра... 
На форуме «Цифровые решения» «Бюро 1440» представило прототип терминала спутниковой связи, спроектированного для железнодорожных составов, сообщает «Бюро» в понедельник. Напомним, о том, что компания ведёт разработку терминала, стало известно в сентябре. Как говорится в сообщении, терминал может работать в климатических условиях с перепадами температур от -50 °C до +50 °C. Устройство устойчиво к вибрациям, работает […] Сообщение «Бюро 1440» продемонстрировало терминал цифровой спутниковой связи для поездов ... 
На уходящей неделе состоялось пленарное заседание («Достижения. Вызовы. Приоритеты») форума «Цифровые решения». Форум объявлен важнейшим IT-событием года – важнее, следовательно, даже чем ЦИПР. У нас очень много публичных IT-мероприятий, большинство которых использует самоназвание «форум». Уследить за всеми форумами трудно, трудно даже отличить один от другого, если ориентироваться на содержание выступлений. Видеозапись пленарного заседания опубликована, так […] Сообщение Цифровые впечатления появились снач... 
По итогам заявочной кампании XI сезона Национальной технологической олимпиады (НТО) впервые самым популярным направлением среди старшеклассников стала «Разработка компьютерных игр»: на него зарегистрировались более восьми тысяч человек, сообщает сайт правительства. На втором месте находится «Искусственный интеллект», который выбрали свыше семи тысяч участников. На третьем – «Автоматизация бизнес-процессов», пять тысяч заявок. В этом году НТО для […] Сообщение «Разработка компьютерных игр» стала самым популя... 
В ходе открытия IT-форума «Цифровые решения» состоялась торжественная церемония награждения лауреатов национальной премии в области информационных технологий, сообщает Минцифры. На соискание премии поступило 1277 заявок от 857 компаний. К экспертной оценке допустили 706 проектов. Экспертный совет, в состав которого вошли представители Минцифры, администрации президента, профильных комитетов и руководители ведущих IT-компаний, сформировал шорт-лист из 160 проектов, […] Сообщение Названы лауреаты национальной... 
В среду 12 ноября в Москве в Национальном центре «Россия» стартовал посвящённый цифровой трансформации форум «Цифровые решения»; мероприятие продлится до 15 ноября включительно. Пленарная сессия форума на тему «Достижения. Вызовы. Приоритеты» открылась выступлением председателя правительства России Михаила Мишустина. Премьер рассказал о ситуации в IT-отрасли и достигнутых успехах. Основные тезисы Отечественная IT-индустрия занимает сегодня лидирующие позиции […] Сообщение Форум информационных технологий «Ци... 
XII Международный форум «ИТ-Диалог 2025», проходивший в Санкт-Петербурге 5-8 ноября, собрал на своих площадках более двух тысяч участников, сообщают организаторы мероприятия. Помимо искусственного интеллекта в этот раз на полях «ИТ-Диалога» обсудили киберустойчивость страны, цифровые финансовые активы, международное сотрудничество для обеспечения технологического суверенитета стран мира, цифровое завтра креативной экономики, защиту критической инфраструктуры, цифровое госуправление, бережливые технологии […... 
    Наверх       На главную страницу       Адрес электропочты Рейтинг@Mail.ru
Данный интернет-сайт носит исключительно информационный характер, и ни при каких условиях информационные
материалы и цены, размещенные на сайте, не являются публичной офертой, определяемой положениями Статьи 437 ГК РФ.

Сергей Волков – эксперт в области информационных технологий © 2011−2025
Работает система управления сайтом «Публикатор 1.9» © 2004−2025