Выпуск Tesseract 5.3.4.
Это система оптического распознавания текста, поддерживающая распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Исходные тексты проекта распространяются под лицензией Apache 2.0.
Основные изменения:
- Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
- В сервере ScrollView в качестве приоритетного протокола задействован TCP.
- При использовании команды "combine_tessdata -d" обеспечен вывод в поток stdout вместо stderr.
- Устранены проблемы со сборкой при использовании autoconf и clang.
Выпуск Tesseract 5 ⇐ Программное обеспечение
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение