На главную страницу На главную страницу Помоги больным детям! Их можно спасти!
 
Справочные материалы ←

Как распознать текст отсканированного документа?

В Ульяновск.BSD для распознавания текстов можно использовать tesseract. Это движок оптического распознавания символов (OCR) с открытым исходным кодом, который является одной из самых популярных и качественных OCR-библиотек. Его установка достаточно проста:

pkg install -r latest tesseract

Tesseract – это консольное приложение. Поэтому для удобства работы с ним лучше использовать какой-либо GUI-интерфейс. Одним из таких интерфейсов является приложение VietOCR. С помощью VietOCR можно не только распознавать текст на единичных страницах или в выбранных блоках изображения, но и производить пакетное распознавание текста во множестве изображений, находящихся в одном каталоге. Актуальную версию приложения в виде zip-файла можно скачать со страницы VietOCR на SourceForge. На момент создания данного документа это был файл VietOCR-5.6.1.zip. Для установки приложения достаточно просто распаковать скачанный zip-архив в каталог /usr/local:

unzip -d /usr/local VietOCR-5.6.1.zip

VietOCR – это Java-приложение. Поэтому для его запуска необходимо установить Java-машину:

pkg install -r latest openjdk8-jre

После этого можно запускать VietOCR из командной строки в Терминале:

env _JAVA_OPTIONS='-Dawt.useSystemAAFontSettings=on' java -jar /usr/local/VietOCR3/VietOCR.jar

Или скачайте файл VietOCR.desktop и сохраните его на рабочем столе и в каталоге /usr/local/share/applications/. В результате этого на рабочем столе и в меню появится ярлык для запуска VietOCR.

Примечание 1:

Для возможности проверки орфографии необходимо скачать языковой пакет. Сделать это можно через меню «Настройки» → «Загрузить языковые данные...».

Примечание 2:

Функция сканирования в VietOCR в настоящее время не работает. Поэтому сканирование и подготовку изображений для распознавания необходимо производить с помощью других приложений. Например, skanlite или xsane.

 

Последнее изменение: 13.07.2020 19:28:22
Импортозамещение
Фонд «Сколково» в рамках государственной поддержки перспективных российских разработок начинает конкурсный отбор среди компаний, внедряющих инновационные IT-решения, сообщает Минцифры в четверг; подать заявку на грант можно на сайте «Сколково». Размер гранта – от 20 до 120 миллионов рублей. Претендовать на грант могут российские компании, внедряющие или планирующие внедрение российских IT-решений для преобразования технологических и бизнес-процессов. […] Сообщение Минцифры объявило о выдаче компаниям гранто... 
В начале осени 2021 года эксперты ИВК отметили резкий рост интереса заказчиков к технологиям и инфраструктуре, которые обеспечивают жизненный цикл российских программных продуктов, — теперь заказчиков не удовлетворяет факт присутствия программного продукта в Едином реестре российского ПО, говорится в распространённом в четверг сообщении ИВК. Заказчики настойчиво выясняют, на каком репозитории развивается программный продукт, дотошно сравнивают […] Сообщение Интерес заказчиков к технологиям и инфраструктуре,... 
Всё, что делает Microsoft, делается не для людей, а для айтишников. Если вы видели Access или Share Point, то знаете, о чём речь. Word совсем недавно научился не терять текст, над которым 10 человек работали три дня. Даже Excel, лучший в мире табличный процессор, сначала вдоволь над вами поиздевается, и только потом позволит найти нужную […] Сообщение Windows 11, или Нет у нас методов против Билла Гейтса появились сначала на Digital Russia. 
В ходе перевода инфраструктуры Новосибирской области на отечественное программное обеспечение ГК «Галэкс» сформировала программно-аппаратный комплекс «Патриот», в состав которого вошли решения российских компаний «Базальт СПО», «Р7-Офис», «Лаборатория МБК», сообщает компания во вторник. Комплекс рассчитан на 50 тысяч пользователей. По сравнению с иностранными аналогами стоимость комплекта программ для одного рабочего места на 40% ниже, говорится в […] Сообщение ПАК «Патриот» на российском ПО разработан в Но... 
Мониторинг отраслевых финансовых потоков указывает на продолжение роста экономической активности в конце третьего квартала, сообщил Центробанк, отдельно отметив рост в отрасли программного обеспечения. «В отраслях, ориентированных на промежуточный (для перепродажи – ред.) спрос, в сентябре снова был зафиксирован уверенный рост финансовых потоков (+10,0%) относительно среднего уровня II квартала. Основной вклад внесли добыча сырой нефти и […] Сообщение ЦБ опубликовал данные об отраслевых финансовых потоках —... 
Sitronics Group открыла в пятницу на новосибирском заводе «Лампирис» новую производственную линию по выпуску серверов, сообщает министерство цифрового развития и связи Новосибирской области. Мощности и оборудование завода позволяют компании осуществлять производство полного цикла, включая расстановку компонентов на платы, пайку, поверхностный монтаж, производство металлических корпусов, проектирование и загрузку BIOS. Последнее важно для обеспечения информационной безопасности. Предприятие […] Сообщение В Н... 
Минцифры разработало и разместило для общественного обсуждения проект постановления правительства, которым пересматривается ряд полномочий Центра компетенций по импортозамещению в сфере информационно-коммуникационных технологий (ИКТ). Напомним, постановление правительства № 2117 о Центре компетенций, определяющее его полномочия, было подписано в декабре 2020 года. Функции ЦК на добровольной основе осуществляет автономная некоммерческая организация «Центр компетенций по импортозамещению в сфере […] Сообщение... 
Совместное предприятие, созданное «Яндексом», группой компаний «ЛАНИТ», производителем компьютерной техники Gigabyte и банком ВТБ, приступило к строительству завода по производству серверного оборудования, сообщает «Яндекс» в среду. Производственный комплекс будет находиться неподалёку от Рязани, на территории индустриального парка «Рязанский». Завод будет выпускать оборудование под торговым знаком «Openyard»: серверы, системы хранения данных, шлюзы и компоненты умных устройств. […] Сообщение Под Рязанью на... 
Искусственный интеллект (ИИ) всё чаще применяют в органах власти. Один из самых успешных примеров – пилотный проект внедрения умной системы для обработки обращений граждан в Удмуртии. При разработке новой программы использовали интеллектуальные сервисы Directum Ario, которые обещают миллионы рублей экономии в год. Официальной точкой отсчёта истории ИИ в российском госсекторе можно считать 10 октября 2019 […] Сообщение Есть ли польза от ИИ в госсекторе? Опыт правительства Удмуртской Республики появились снач... 
Заголовок новости обновлён в 16.30 мск — уточняется, что приобретена не компания «Диасофт», а одна из компаний ГК «Диасофт». Госкорпорация Ростех и группа компаний «Диасофт» объявили во вторник о создании совместного предприятия — «РТ-Диасофт». Совместная компания, в частности, займется разработкой российской ERP-системы, призванной заменить западные аналоги, и созданием цифровой кросс-индустриальной платформы для госсектора. Деятельность «РТ-Диасофт» […] Сообщение Ростех купил компанию из ГК «Диасофт» для ... 
    Наверх       На главную страницу       Адрес электропочты Рейтинг@Mail.ru
Данный интернет-сайт носит исключительно информационный характер, и ни при каких условиях информационные
материалы и цены, размещенные на сайте, не являются публичной офертой, определяемой положениями Статьи 437 ГК РФ.

Сергей Волков – эксперт в области информационных технологий © 2011−2021
Работает система управления сайтом «Публикатор 1.9» © 2004−2021