Страница 1 из 1

OCR - системы распознавания текста.

Добавлено: Ср окт 28, 2009 11:49 am
kalia
[align=justify]OCR (Optical Char Recognition - оптическое распознавание символов) в Линуксе всегда был проблемой - никаких ФайнРидеров под него нет, а существующие системы типа GOCR работают только с командной строки и только с латиницей, да и то не особо успешно...

Ветераны компьютерного фронта :)-(: наверное помнят, что первой популярной системой был не ФайнРидер, а Куниформ (Cuneiform, "клинопись" в переводе). Потом эта "клинопись" пропала с горизонта, и довольно долго про неё ничего не было слышно. И вот, кажется в прошлом году, появилось сообщение что разработчики системы Cuneiform открыли её исходные тексты и выложили в публичный доступ под открытой лицензией.

На сегодняшний день есть уже программа cuneiform в Линуксе, у которой есть простенькая графическая оболочка и которая вполне пристойно распознает тексты, причем даже на русском языке (там еще целый список языков). Я недавно ей воспользовался (кстати, распознанный текст после минимальной коррекции был опубликован здесь, на этом форуме ::yaz-yk: ). Вполне нармально работает.

Значит, еще один пробел в софте под Линукс ликвидирован, и это не может не радовать!
[/align]

Re: OCR - системы распознавания текста.

Добавлено: Ср окт 28, 2009 12:37 pm
razor
а файлы djvu этот Куниформ распознает?

Re: OCR - системы распознавания текста.

Добавлено: Ср окт 28, 2009 4:29 pm
kalia
razor писал(а):а файлы djvu этот Куниформ распознает?
png jpg jpeg tif tiff

Re: OCR - системы распознавания текста.

Добавлено: Ср окт 28, 2009 6:06 pm
razor
в общем, djvu - не проблема...:)
Mожно надергать нужных страниц djvu в те же png jpeg tiff bmp gif при помощи WinDjView... и делай с ними что хош...:)

Re: OCR - системы распознавания текста.

Добавлено: Ср окт 28, 2009 6:22 pm
kalia
razor писал(а):в общем, djvu - не проблема...:)
Mожно надергать нужных страниц djvu в те же png jpeg tiff bmp gif при помощи WinDjView... и делай с ними что хош...:)
И-мен-но! "и делай с ними что хош..." ...лап-тапа-тида-ту-дай...

[BBvideo 425,350]http://www.youtube.com/watch?v=nkVbfulgyuA[/BBvideo]

Re: OCR - системы распознавания текста.

Добавлено: Пн дек 21, 2009 11:37 pm
frigolem
Спасибо большое за эту инфу! Действительно, очень важная штучка, нужно будет под линухом попробовать. :-):