На главную страницу На главную страницу Помоги больным детям! Их можно спасти!
 
Справочные материалы ←

Как распознать текст отсканированного документа?

В Ульяновск.BSD для распознавания текстов можно использовать tesseract. Это движок оптического распознавания символов (OCR) с открытым исходным кодом, который является одной из самых популярных и качественных OCR-библиотек. Его установка достаточно проста:

pkg install -r latest tesseract

Tesseract – это консольное приложение. Поэтому для удобства работы с ним лучше использовать какой-либо GUI-интерфейс. Одним из таких интерфейсов является приложение VietOCR. С помощью VietOCR можно не только распознавать текст на единичных страницах или в выбранных блоках изображения, но и производить пакетное распознавание текста во множестве изображений, находящихся в одном каталоге. Актуальную версию приложения в виде zip-файла можно скачать со страницы VietOCR на SourceForge. На момент создания данного документа это был файл VietOCR-5.6.1.zip. Для установки приложения достаточно просто распаковать скачанный zip-архив в каталог /usr/local:

unzip -d /usr/local VietOCR-5.6.1.zip

VietOCR – это Java-приложение. Поэтому для его запуска необходимо установить Java-машину:

pkg install -r latest openjdk8-jre

После этого можно запускать VietOCR из командной строки в Терминале:

env _JAVA_OPTIONS='-Dawt.useSystemAAFontSettings=on' java -jar /usr/local/VietOCR3/VietOCR.jar

Или скачайте файл VietOCR.desktop и сохраните его на рабочем столе и в каталоге /usr/local/share/applications/. В результате этого на рабочем столе и в меню появится ярлык для запуска VietOCR.

Примечание 1:

Для возможности проверки орфографии необходимо скачать языковой пакет. Сделать это можно через меню «Настройки» → «Загрузить языковые данные...».

Примечание 2:

Функция сканирования в VietOCR в настоящее время не работает. Поэтому сканирование и подготовку изображений для распознавания необходимо производить с помощью других приложений. Например, skanlite или xsane.

 

Последнее изменение: 13.07.2020 19:28:22
Комментарии
Добавляя комментарий, убедитесь, что он соответствует теме. Подумайте, будет ли он интересен другим. Спам, умышленная реклама и личная переписка не допускаются. Соблюдайте правила русского языка. Комментарии публикуются после проверки модератором и могут быть удалены без объяснения причин. Ответы на заданные в комментариях вопросы могут исходить от любого пользователя и являются неофициальными.
Импортозамещение
ГК InfoWatch получила российский патент Федеральной службы по интеллектуальной собственности на разработку, которая прогнозирует возможные увольнения, сообщает компания во вторник. Изобретение «Способ автоматизации детектирования аномалий в поведении сотрудников» применяется в составе программно-аппаратного комплекса и служит для выявления потенциальных угроз информационной безопасности (ИБ), в том числе для прогнозирования увольнений. Разработанная технология позволила существенно повысить точность и […] С... 
Positive Technologies представила комплексное решение по кибербезопасности для открытой платформы промышленной автоматизации (открытой АСУ ТП), над которой в течение трех лет работали ключевые игроки отраслей нефтегаза, химии, металлургии и энергетики, сообщает компания. Презентация прототипа открытой АСУ ТП прошла во время конференции «Цифровая индустрия промышленной России» (ЦИПР). После 2022 года предприятия отечественной промышленности, активно внедряющие современные […] Сообщение Positive Technologies ... 
Председатель правительства Михаил Мишустин провёл в понедельник совещание о высокопроизводительных вычислениях (High Performance Computing, HPC) для развития искусственного интеллекта и обработки больших данных, сообщает government.ru. Совещание прошло на площадке Всероссийского научно-исследовательского института экспериментальной физики в Сарове. В основном речь шла о микроэлектронике. Так, Мишустин отметил, что в России реализуется комплексная программа развития электронного машиностроения, охватывающая ... 
Премьер-министр Михаил Мишустин принял участие в пленарной сессии на X конференции «Цифровая индустрия промышленной России» в Нижнем Новгороде — предложив, в частности, новые меры для стимулирования спроса на отечественные цифровые технологии. У нас в стране 80% решений, которые сегодня применяются предприятиями для управления финансами, – российские. Каждая вторая установленная программа для цифрового проектирования уже тоже […] Сообщение Глава правительства предложил новые меры для перехода предприятий на... 
В рамках политики импортозамещения ВТБ приобрел у различных российских производителей свыше 50 тыс. ноутбуков, планшетных компьютеров, стационарных телефонов и смартфонов, рассказал на конференции Цифровая индустрия промышленной России Сергей Безбогов, старший вице-президент, заместитель руководителя технологического блока банка. По некоторым классам устройств доля российской техники в банке уже достигает 20-30%, сообщила организация во вторник. Ключевыми поставщиками офисной […] Сообщение ВТБ переходит на ... 
ПАО «Группа Астра» объявила неаудированные финансовые результаты по МСФО за первый квартал 2025 года. Ключевые операционные и финансовые показатели за период Бизнес «Группы Астра» традиционно характеризуется выраженной сезонностью, где более 70% отгрузок может приходиться на второе полугодие, в то время как структура расходов остается равномерной в течение года. Отгрузки в I квартале выросли на 3% […] Сообщение «Астра» отчиталась за I квартал 2025: выручка превысила 3 млрд руб появились сначала на Digital R... 
Минцифры в ходе ЦИПР 2025 представило платформу «Национальная система подтверждения IT-компетенций», сообщает министерство. Напомним, в России с 14 февраля 2025 года по 31 декабря 2026 проводится эксперимент по внедрению системы добровольного подтверждения компетенций для разработчиков программного обеспечения. Как говорится в сообщении, навыки в сфере информационных технологий могут подтвердить все желающие, независимо от уровня образования. Для […] Сообщение Представлена «Национальная система подтверждени... 
Разработчик инфраструктурного ПО «Базис», «Технопарк в сфере высоких технологий “ИТ-парк”» и Центр информационных технологий Республики Татарстан объявили о начале масштабного партнерства по созданию защищенной облачной ИТ-инфраструктуры и пилотированию отечественных систем виртуализации в контуре ключевых государственных сервисов и крупного бизнеса республики, сообщила компания «Базис». Соглашение о долгосрочном сотрудничестве подписано на конференции «Цифровая индустрия промышленной России» генеральным […... 
Российский оператор мобильной связи T2 представил на ЦИПР-2025 прототип биотерминала для идентификации клиентов при продаже SIM-карт, сообщает компания в понедельник. Решение позволяет выполнить требования нового регулирования, сохранить возможность подключения иностранных граждан, провести качественную сверку биометрии с единой биометрической системой (ЕБС), сформировать новый клиентский опыт в соответствии с законодательством, говорится в сообщении. Согласно требованиям законодательства, при […] Сообщение... 
АНО «Национальный центр компетенций по информационным системам управления холдингом» (НЦК ИСУ), которую возглавляет начальник департамента информатизации РЖД Кирилл Семион, заключила меморандум о страховании рисков импортозамещения ERP со Страховым домом ВСК и Ассоциацией предприятий компьютерных и информационных технологий (АПКИТ), сообщила в понедельник компания РЖД. Партнеры займутся разработкой страхового полиса для перехода на российские СУР (системы управления […] Сообщение Стало известно о внедрении ... 
    Наверх       На главную страницу       Адрес электропочты Рейтинг@Mail.ru
Данный интернет-сайт носит исключительно информационный характер, и ни при каких условиях информационные
материалы и цены, размещенные на сайте, не являются публичной офертой, определяемой положениями Статьи 437 ГК РФ.

Сергей Волков – эксперт в области информационных технологий © 2011−2025
Работает система управления сайтом «Публикатор 1.9» © 2004−2025