На главную страницу На главную страницу Помоги больным детям! Их можно спасти!
 
Справочные материалы ←

Как распознать текст отсканированного документа?

В Ульяновск.BSD для распознавания текстов можно использовать tesseract. Это движок оптического распознавания символов (OCR) с открытым исходным кодом, который является одной из самых популярных и качественных OCR-библиотек. Его установка достаточно проста:

pkg install -r latest tesseract

Tesseract – это консольное приложение. Поэтому для удобства работы с ним лучше использовать какой-либо GUI-интерфейс. Одним из таких интерфейсов является приложение VietOCR. С помощью VietOCR можно не только распознавать текст на единичных страницах или в выбранных блоках изображения, но и производить пакетное распознавание текста во множестве изображений, находящихся в одном каталоге. Актуальную версию приложения в виде zip-файла можно скачать со страницы VietOCR на SourceForge. На момент создания данного документа это был файл VietOCR-5.6.1.zip. Для установки приложения достаточно просто распаковать скачанный zip-архив в каталог /usr/local:

unzip -d /usr/local VietOCR-5.6.1.zip

VietOCR – это Java-приложение. Поэтому для его запуска необходимо установить Java-машину:

pkg install -r latest openjdk8-jre

После этого можно запускать VietOCR из командной строки в Терминале:

env _JAVA_OPTIONS='-Dawt.useSystemAAFontSettings=on' java -jar /usr/local/VietOCR3/VietOCR.jar

Или скачайте файл VietOCR.desktop и сохраните его на рабочем столе и в каталоге /usr/local/share/applications/. В результате этого на рабочем столе и в меню появится ярлык для запуска VietOCR.

Примечание 1:

Для возможности проверки орфографии необходимо скачать языковой пакет. Сделать это можно через меню «Настройки» → «Загрузить языковые данные...».

Примечание 2:

Функция сканирования в VietOCR в настоящее время не работает. Поэтому сканирование и подготовку изображений для распознавания необходимо производить с помощью других приложений. Например, skanlite или xsane.

 

Последнее изменение: 13.07.2020 19:28:22
Комментарии
Добавляя комментарий, убедитесь, что он соответствует теме. Подумайте, будет ли он интересен другим. Спам, умышленная реклама и личная переписка не допускаются. Соблюдайте правила русского языка. Комментарии публикуются после проверки модератором и могут быть удалены без объяснения причин. Ответы на заданные в комментариях вопросы могут исходить от любого пользователя и являются неофициальными.
Импортозамещение
Об авторе: Михаил Степанов, министр цифрового развития, информационной политики и массовых коммуникаций Чувашской Республики Цифровая трансформация – одна из семи национальных целей Российской Федерации на период до 2030 года и на перспективу до 2036 года, определённая указом президента Российской Федерации от 7 мая 2024 г. № 309 «О национальных целях развития Российской Федерации на период […] Сообщение Минцифры Чувашской Республики – итоги 2025 года и планы на 2026 год появились сначала на Digital Russia. 
Распоряжением правительства Минфину поручено в 2026 году выделить Минпромторгу 300 миллионов рублей на предоставление субсидии на государственную поддержку проектов создания, развития и (или) модернизации объектов инфраструктуры промышленных технопарков в сфере электронной промышленности. Промышленные парки и технопарки предназначены для быстрого запуска производства, тестирования новых технологий и выведения товаров на рынок. В августе 2023 года вышло постановление […] Сообщение Дополнительные 300 млн руб ... 
Отправлять сообщения и совершать звонки в мессенджере Мax теперь смогут пользователи из стран Азии, Африки, Ближнего Востока и Латинской Америки, сообщила компания-разработчик в четверг. Для регистрации в мессенджере необходимо скачать приложение, выбрать страну, ввести номер телефона и проверочный код из SMS. Зарегистрироваться в Мax можно с SIM-картой операторов в том числе Вьетнама, Индонезии, ОАЭ, Таиланда, […] Сообщение Зарегистрироваться в Max теперь можно с SIM-картами 40 дружественных стран появилис... 
Минэкономразвития и Роспатент разрабатывают механизм, позволяющий передавать в управление интеллектуальную собственность зарубежных компаний, которые покинули наш рынок по политическим мотивам, но при этом продолжают поддерживать защиту своих прав, сообщил на коллегии Роспатента вице-премьер Александр Новак, пишет «Интерфакс». По словам вице-премьера, речь об иностранных производителях из недружественных стран. Механизм предполагает временное управление интеллектуальными правами таких компаний. […] Сообщени... 
Четвёртого марта, во Всемирный день инженерии, вход в Музей криптографии в Москве будет бесплатным для инженеров, их родных и друзей, сообщает «ИКС Холдинг» во вторник. Как работают шифры, которые скрывают переписку в мессенджерах? Кто и когда придумал защищать данные? Как скрывали содержание дипломатических переписок и военных приказов до появления электроники? Уникальная коллекция шифровальной техники и […] Сообщение Во Всемирный день инженерии Музей криптографии сделал вход для инженеров бесплатным появи... 
Разработчик пакета офисного ПО «МойОфис» объявил во вторник о запуске бесплатного тарифа для частных пользователей. В рамках бесплатного тарифа пользователям без ограничения по времени доступны как настольные, так и мобильные версии редакторов «МойОфис». Приложение «МойОфис Текст» позволяет создавать и редактировать текстовые файлы. В бесплатной версии решения предусмотрена возможность настройки заголовков по ГОСТ, что особенно актуально […] Сообщение У «МойОфис» появился бесплатный тариф для частных пользо... 
Об авторе: Пётр Шиловских, министр информационного развития и связи Пермского края Два поручения президента выполнили досрочно — это наши главные итоги 2025 года. В приоритете находится создание единого цифрового пространства и обеспечение доступности услуг для населения Прикамья. Так, сотовая связь сегодня есть во всех населённых пунктах с числом жителей 100+. Доступ к ней обеспечен для […] Сообщение Министерство информационного развития и связи Пермского края – итоги 2025 года появились сначала на Digital... 
Опубликовано распоряжение правительства РФ от 26.02.2026 № 360-р об утверждении перечня отраслевых объектов критической информационной инфраструктуры (КИИ) Российской Федерации. Перечень содержит 397 позиций на 175 страницах. Такие перечни используются в качестве исходных данных при категорировании объектов КИИ, что позволяет решить проблему полноты категорирования информационных и автоматизированных систем субъектов КИИ. Напомним, согласно закону о КИИ, объектам […] Сообщение Правительство утвердило перече... 
В мире нарастает дефицит оптоволокна из-за бума искусственного интеллекта, а также из-за начала активного использования FPV-дронов, управляемых по оптоволокну длиной до 50 км, пишут «Ведомости» со ссылкой на производителей оптических кабелей и операторов связи. Свыше 60% мирового производства оптического волокна приходится на Китай. В начале 2025 года волокно G.652D, которое применяют в волоконно-оптических кабелях для […] Сообщение Цена оптоволокна радикально выросла – СМИ появились сначала на Digital Russ... 
По итогам анализа цен на типовое программное обеспечение (ПО), приобретённое государственными органами и их подведомственными учреждениями в 2022-2025 годах, Счётная палата пришла к мнению, что процедура закупки ПО для государственных и муниципальных нужд требует совершенствования – и направила правительству ряд предложений, сообщает СП в четверг. Счётная палата проанализировала закупки госорганов по пяти видам ПО: антивирусные […] Сообщение Счётная палата обнаружила различающиеся в разы цены при госзакупка... 
    Наверх       На главную страницу       Адрес электропочты Рейтинг@Mail.ru
Данный интернет-сайт носит исключительно информационный характер, и ни при каких условиях информационные
материалы и цены, размещенные на сайте, не являются публичной офертой, определяемой положениями Статьи 437 ГК РФ.

Сергей Волков – эксперт в области информационных технологий © 2011−2026
Работает система управления сайтом «Публикатор 1.9» © 2004−2026