Извлечение текста из сканированной книги .PDF

У меня есть отсканированная книга в формате PDF, но качество довольно плохое:

Введите описание изображения здесь

(Язык румынский, и это книга медицинской физиологии, на случай, если вам интересно)

Я хочу извлечь текст из книги (1500 страниц), но сохранить изображения так, как они есть. Я действительно не думаю, что у меня есть шанс найти решение, поэтому я обязательно куплю книгу.

Напротив, есть ли какое-нибудь мощное программное обеспечение, которое может делать то, что я ищу? Он также должен признать румынский.

7 Solutions collect form web for “Извлечение текста из сканированной книги .PDF”

Ранее я опубликовал ответ, в котором подробно описывается, как использовать Cuneiform (программное обеспечение с открытым исходным кодом), чтобы делать OCR в файлах PDF и как создать PDF-файл с распознанным текстом в скрытом текстовом слое «позади» исходного изображения. Насколько я знаю, клинопись действительно поддерживает румынскую.

Хотя конкретное решение было для Linux, Cuneiform доступен также для Windows.

Adobe Acrobat Professional может это сделать. Я не уверен, есть ли румынская версия …

ABBYY Fine Reader – очень мощное программное обеспечение OCR. Он касается очень сложных макетов и поддерживает множество форматов (включая pdf). Румынский язык поддерживается словарем, т.е. программное обеспечение использует словарь для определения приоритетов при распознавании. ( Здесь ).

В любом случае, научная литература OCR-ing, имеющая плохое качество сканирования, является сложной задачей. Будьте готовы потратить много времени, чтобы помочь программному обеспечению с проверкой результатов и исправлениями. На вашем сканировании я вижу очень плохой текст 🙁 Я не думаю, что какое-либо программное обеспечение OCR могло бы нормально работать с ним.

Recognita OmniPage – лучшая программа OCR, которую я когда-либо использовал. Я уверен, что он узнает румынский текст; У него не было проблем с моим родным венгром. Вы можете загрузить пробную версию из этой ссылки и использовать ее для конвертирования вашей книги. Полная версия, к сожалению, довольно дорогая (499,99 $) …

Я купил книгу!

Ну, для распознавания текста обычно ищет программы OCR (оптического распознавания символов). Их много, поэтому простой поиск в Google сделает больше, чем я здесь.

Я не понял последнюю часть «признаю румынскую» – вы имеете в виду, что она должна распознавать румынский язык или быть локализована (переведена) на румын? В случае первого, я считаю, что проблем не будет; Если второй случай, то я не уверен.

Кроме того, если это не книга ваших местных соотечественников, то есть шанс, что она уже переведена на английский язык … так что если у вас она есть в pdf на румынском языке, попробуйте найти английскую версию … тогда только проблема Это вы знаете … незаконный (иногда у кого-то нет выбора).

Попробуйте PDFCubed.com . Это онлайн-служба OCR, которая упрощает создание PDF с возможностью поиска. Отсканированные документы могут быть отправлены через Интернет, электронную почту или Dropbox.

  • Word 2007 - Сохранить как Pdf дает ошибку
  • Создание файлов PDF во время выполнения в c #
  • Пример кода для реализации PDF-ридера
  • Acrobat Reader и сохранение последней страницы, которую я прочитал?
  • Преобразование PDF в PNG
  • Как конвертировать файлы Word в PDF программно?
  • Как подсчитывать страницы в нескольких файлах PDF?
  • Как я могу распечатать пиксели подстановки PDF для синих пикселей?
  • Правильный тип носителя MIME для файлов PDF
  • Невозможно скопировать текст из файла pdf
  • Как вставить PDPage в другой PDPage с помощью pdfbox
  • Interesting Posts

    Интерпретация количества головок, возвращаемых fdisk

    Как изменить разрешение на Vista, когда он продолжает загружаться до неподдерживаемого разрешения?

    Как создать сегмент, который можно вызвать с помощью кнопки, созданной программно?

    Как мой компьютер был скомпрометирован?

    Как написать KeyListener для JavaFX

    Устранить причину сбоя – если укоренилось на хосте

    Loop в R для чтения многих файлов

    У вас есть надстройка для Firefox, например NoScript, но для файлов cookie (что позволяет сделать белый список во время просмотра в Интернете)?

    Преобразование серии JFreeChart TimeSeries с данными дня в данные недели или месяца?

    MVC5 – Как установить «selectedValue» в DropDownListFor Html helper

    Могу ли я использовать символ (@) внутри URL?

    Как быстро делать скриншоты в Java?

    Постоянное удаление файлов в Mac OS

    Android Вещи: подключение к последовательной консоли отладки

    Android TextView Обоснование текста

    Давайте будем гением компьютера.