Как сделать OCR в PDF-документе?

Возможный дубликат:
Как извлечь текст с помощью OCR из PDF в Linux?

У меня есть несколько документов на английском и иврите, которые я просмотрел и преобразовал в формат PDF.

Есть ли бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF-файл и делать OCR, по крайней мере на английском языке, желательно также на иврите?

Благодаря!

3 Solutions collect form web for “Как сделать OCR в PDF-документе?”

Я нашел список бесплатных программ OCR для Windows.

  1. FreeOCR
  2. Тессеракт
  3. Веб-интерфейс WeOcr Tesseract
  4. GOCR
  5. Windows GUI для GOCR
  6. OCR Desktop
  7. Простой OCR
  8. TopOCR

Тем не менее, эти программы нуждаются в вводе изображения, а не в формате PDF. Для этого попробуйте конвертер PDF-to-JPG .

Я нашел интересную идею, которая позволяет Google выполнять всю работу OCR'ing файлов PDF для вас.

Лично я бы использовал Ghostview, чтобы преобразовать их в образ, а затем Tesseract, чтобы преобразовать их в текст. Это совершенно бесплатное, с открытым исходным кодом, кросс-платформенное решение, с которым у меня были очень хорошие результаты при попытке конвертировать обычный текст. Я не использую его для сложных документов со столами и т. Д., Но для простого текста вы не можете победить цену.

  • Извлечение нескольких разделов страниц из pdf
  • Как я могу автоматически создавать PDF-файлы и файлы PDF, сделанные из отсканированных страниц *?
  • Как преобразовать файл djvu в pdf или другой более распространенный формат файла?
  • Создайте PDF-файл из PowerPoint с анимацией
  • Чтение содержимого PDF с помощью itextsharp dll в VB.NET или C #
  • Как извлечь выделенный текст только из файлов PDF в Adobe Acrobat Pro версии 9?
  • Как я могу извлечь шрифты из PDF-файла?
  • Как я могу конвертировать SVG-файлы, содержащие текст в файлы PDF (в частности, CentOS 5.3 x86_64)?
  • Остановить Chrome от открытия PDF-файлов в Google Docs Viewer
  • Объединение / объединение PDF-файлов в Windows?
  • Есть ли эффективный способ копирования текста из PDF без разрывов строк?
  • Interesting Posts

    VBA Runtime Error 1004 «Определенная пользователем или объектная ошибка» при выборе диапазона

    Возможно ли подключить MacBook к двум мониторам?

    Windows 10 «Некоторые настройки управляются вашей организацией» (gpedit.msc не работает)

    Какую версию MS-DOS использует Rufus для создания загрузочных USB-накопителей?

    Как преобразовать Word (doc) в PDF в linux?

    Как заставить мой ViewPager загружать только одну страницу за раз, т.е. setOffscreenPageLimit (0);

    Как запретить пользователям sudo запускать определенные команды?

    ошибка LNK2038: обнаружено несоответствие для «_MSC_VER»: значение «1600» не соответствует значению «1700» в CppFile1.obj

    Строка Java для SHA1

    Как получить первые N элементов списка в C #?

    Ноутбук работает спонтанно

    Разница между getAttribute () и getParameter ()

    Как исправить NoSuchMethodError?

    Что заставляет пул приложений в IIS перерабатывать?

    ASUS UX31A – отсутствует требуемый драйвер устройства привода CD / DVD

    Давайте будем гением компьютера.