Как сделать OCR в PDF-документе?

Возможный дубликат:
Как извлечь текст с помощью OCR из PDF в Linux?

У меня есть несколько документов на английском и иврите, которые я просмотрел и преобразовал в формат PDF.

Есть ли бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF-файл и делать OCR, по крайней мере на английском языке, желательно также на иврите?

Благодаря!

3 Solutions collect form web for “Как сделать OCR в PDF-документе?”

Я нашел список бесплатных программ OCR для Windows.

  1. FreeOCR
  2. Тессеракт
  3. Веб-интерфейс WeOcr Tesseract
  4. GOCR
  5. Windows GUI для GOCR
  6. OCR Desktop
  7. Простой OCR
  8. TopOCR

Тем не менее, эти программы нуждаются в вводе изображения, а не в формате PDF. Для этого попробуйте конвертер PDF-to-JPG .

Я нашел интересную идею, которая позволяет Google выполнять всю работу OCR'ing файлов PDF для вас.

Лично я бы использовал Ghostview, чтобы преобразовать их в образ, а затем Tesseract, чтобы преобразовать их в текст. Это совершенно бесплатное, с открытым исходным кодом, кросс-платформенное решение, с которым у меня были очень хорошие результаты при попытке конвертировать обычный текст. Я не использую его для сложных документов со столами и т. Д., Но для простого текста вы не можете победить цену.

  • Эквивалент ластика Microsoft Paint в Adobe Acrobat Pro
  • Остановить Microsoft Word 2010 от сглаживания скриншотов?
  • Как разбить PDF-файл в Windows?
  • Редактируйте pdf, встроенный в браузер, и сохраните pdf прямо на сервере
  • Извлечение текста из сканированной книги .PDF
  • Можно ли удалить рекламу в Foxit Reader 6.0?
  • Создание PDF-документов
  • Как распечатать документы в формате pdf
  • Как я могу установить собственные закладки в PDF-файле?
  • Как исправить недостающие уравнения в Word 2007 при печати / преобразовании в PDF?
  • Сохранить заполненную форму в pdf-файле в ubuntu
  • Interesting Posts

    java.lang.ClassCastException

    Обнаружение Polygon Touch Google Map API V2

    Как подсчитать разные значения / символы в столбце ячеек?

    Определить версию .NET Framework для dll

    Пропустите Blob через ajax, чтобы сгенерировать файл

    Сделать регистр с регулярным выражением нечувствительным в ASP.NET RegularExpressionValidator

    Является ли температура холостого хода 66 ° C для нормального процессора A10-6800K?

    Понижающий Linux

    Как настроить `eth0` для повторного запуска` dhclient` при отключении и повторной загрузке?

    Почему мой USB-накопитель теперь доступен только для чтения?

    Как установить его так, чтобы мой компьютер не перешел в режим авто-ожидания / спящего режима, когда Opera загружается?

    В чем разница между «длинным», «длинным длинным», «длинным int» и «long long int» в C ++?

    Обнаруживать, работает ли программа с полными правами администратора

    В чем разница между $ {var}, “$ var” и “$ {var}” в оболочке Bash?

    Spring MVC @PathVariable с точкой (.) Получает усеченный

    Давайте будем гением компьютера.