На главную страницу На главную страницу Помоги больным детям! Их можно спасти!
 
Справочные материалы ←

Как распознать текст отсканированного документа?

В Ульяновск.BSD для распознавания текстов можно использовать tesseract. Это движок оптического распознавания символов (OCR) с открытым исходным кодом, который является одной из самых популярных и качественных OCR-библиотек. Его установка достаточно проста:

pkg install -r latest tesseract

Tesseract – это консольное приложение. Поэтому для удобства работы с ним лучше использовать какой-либо GUI-интерфейс. Одним из таких интерфейсов является приложение VietOCR. С помощью VietOCR можно не только распознавать текст на единичных страницах или в выбранных блоках изображения, но и производить пакетное распознавание текста во множестве изображений, находящихся в одном каталоге. Актуальную версию приложения в виде zip-файла можно скачать со страницы VietOCR на SourceForge. На момент создания данного документа это был файл VietOCR-5.6.1.zip. Для установки приложения достаточно просто распаковать скачанный zip-архив в каталог /usr/local:

unzip -d /usr/local VietOCR-5.6.1.zip

VietOCR – это Java-приложение. Поэтому для его запуска необходимо установить Java-машину:

pkg install -r latest openjdk8-jre

После этого можно запускать VietOCR из командной строки в Терминале:

env _JAVA_OPTIONS='-Dawt.useSystemAAFontSettings=on' java -jar /usr/local/VietOCR3/VietOCR.jar

Или скачайте файл VietOCR.desktop и сохраните его на рабочем столе и в каталоге /usr/local/share/applications/. В результате этого на рабочем столе и в меню появится ярлык для запуска VietOCR.

Примечание 1:

Для возможности проверки орфографии необходимо скачать языковой пакет. Сделать это можно через меню «Настройки» → «Загрузить языковые данные...».

Примечание 2:

Функция сканирования в VietOCR в настоящее время не работает. Поэтому сканирование и подготовку изображений для распознавания необходимо производить с помощью других приложений. Например, skanlite или xsane.

 

Последнее изменение: 13.07.2020 19:28:22
Комментарии
Добавляя комментарий, убедитесь, что он соответствует теме. Подумайте, будет ли он интересен другим. Спам, умышленная реклама и личная переписка не допускаются. Соблюдайте правила русского языка. Комментарии публикуются после проверки модератором и могут быть удалены без объяснения причин. Ответы на заданные в комментариях вопросы могут исходить от любого пользователя и являются неофициальными.
Импортозамещение
Красноярский краевой фонд науки начал приём заявок на конкурс прикладных научно-технических проектов по направлениям технологического лидерства, выполняемых детьми и молодёжью, сообщает региональное министерство цифрового развития в понедельник. Конкурс направлен на финансовую поддержку и развитие научной и научно-технической деятельности среди подрастающего поколения. Заявки принимаются до 10 марта в следующих номинациях: «Биоэкономика», «Сбережение здоровья граждан», «Продовольственная безопасность», […] ... 
Нижегородская область и АО «ЭР-Телеком Холдинг» подписали соглашение о создании в Нижнем Новгороде IT-технопарка в области высоких технологий, сообщает региональное министерство цифрового развития и связи в пятницу. Объект площадью 170 тысяч кв. м планируется построить в два этапа: корпус по ул. Малой Ямской, 1 — в 2026 году, корпус по ул. Малой Ямской, 4 — […] Сообщение Подписано соглашение о создании IT-технопарка в Нижнем Новгороде появились сначала на Digital Russia. 
Об авторе: Денис Земнухов, министр цифрового развития и связи Амурской области В 2024 году мы прикладывали немало усилий для решения амбициозных задач по развитию цифровых технологий. «Цифра» должна стать помощником для каждого из нас, для бизнеса и для государства, и в любом процессе. Развитие инфраструктуры связи Развитие услуг связи является одним из приоритетов в нашей […] Сообщение Итоги работы министерства цифрового развития и связи Амурской области в 2024 году появились сначала на Digital Russia. 
Китайский производитель полупроводниковой продукции ChangXin Memory Technologies (CXMT) сократил отставание от конкурентов, американской Micron и южнокорейских Samsung Electronics с SK Hynix, начав выпуск DRAM-чипов памяти по технологии 16 нм, пишет в четверг South China Morning Post. Чип разработан при помощи передового оборудования, несмотря на усилия США по ограничению поставок в КНР аппаратуры для выпуска микросхем. […] Сообщение КНР сократила отставание от США и Южной Кореи с началом выпуска DRAM-чипов... 
Координационный центр доменов .RU/.РФ и Академия инновационного образования и развития запустили для школьников и их наставников из детских домов, интернатов, малокомплектных и сельских школ новую образовательную программу «Секреты кода», сообщает КЦ в четверг. Обучение включает практические занятия по программированию на языке Python, лекции о цифровой грамотности, архитектуре Интернета и устройстве доменной отрасли, а также профориентационные […] Сообщение Представлена образовательная программа для интерн... 
Об авторе: Анатолий Шалыто, профессор, д.т.н., Университет ИТМО Двадцать четвёртого января 2025 года в Сети появился пост: «The game is on. Наступил момент, когда можно переизобрести то, как мы пишем код. Нами создан Сoding Аgent от JetBrains под названием Junie, который за несколько минут и десятки центов решает задачи, на которые разработчикам требуется не менее […] Сообщение А вдруг Андрей сможет меня удивить… появились сначала на Digital Russia. 
Российский системный интегратор «T1 Интеграция» открывает демонстрационную лабораторию на базе оборудования компании YADRO; новая площадка позволит заказчикам проводить тестирование отечественных решений и моделировать работу комплексных IT-инфраструктур в реальных условиях, сообщает компания в среду. Лаборатория оснащена двумя системами хранения данных (СХД) YADRO TATLIN, в ней располагается свыше 30 серверов YADRO VEGMAN, связанных высокоскоростными сетевыми соединениями (100 […] Сообщение «Т1 Интеграция»... 
ГК InfoWatch выпустила новое решение в системе защиты данных — InfoWatch Device Control; решение автоматически контролирует подключение внешних устройств и попытки их неправомерного использования, сообщает компания во вторник. Один из наиболее опасных видов утечки информации — использование внешних устройств для передачи данных. Внешние накопители могут использоваться для намеренного и непреднамеренного вывода большого объема конфиденциальной информации […] Сообщение Представлено решение для контроля за вне... 
Postgres Professional, сообщает компания, чьи офисы уже расположены в Москве, Новосибирске и Барнауле, в понедельник. Новое пространство находится в бизнес-центре «Сенатор» на улице Миллионной, д. 6. На площади 450 м2 сразу разместятся порядка 40 сотрудников из Санкт-Петербурга, а также новички — в ближайших планах кратно увеличить локальный штат, говорится в сообщении. Иван Панченко, сооснователь и […] Сообщение Postgres Professional сообщила об открытии офиса в Санкт-Петербурге появились сначала на Digita... 
Приложение AI Assistant китайского стартапа DeepSeek в понедельник вышло в лидеры бесплатных программ, доступных в магазине App Store в США, обойдя ChatGPT, сообщает Reuters. AI Assistant был запущен 10 января и быстро набрал популярность среди американской аудитории. Приложение работает на основе языковой модели DeepSeek-V3, которая, по словам её создателей, «является топовой среди моделей с открытым […] Сообщение Китайская ИИ-система продемонстрировала выдающуюся конкурентоспособность в условиях американс... 
    Наверх       На главную страницу       Адрес электропочты Рейтинг@Mail.ru
Данный интернет-сайт носит исключительно информационный характер, и ни при каких условиях информационные
материалы и цены, размещенные на сайте, не являются публичной офертой, определяемой положениями Статьи 437 ГК РФ.

Сергей Волков – эксперт в области информационных технологий © 2011−2025
Работает система управления сайтом «Публикатор 1.9» © 2004−2025