Извлечение текста из сканированной книги .PDF

У меня есть отсканированная книга в формате PDF, но качество довольно плохое:

Введите описание изображения здесь

(Язык румынский, и это книга медицинской физиологии, на случай, если вам интересно)

Я хочу извлечь текст из книги (1500 страниц), но сохранить изображения так, как они есть. Я действительно не думаю, что у меня есть шанс найти решение, поэтому я обязательно куплю книгу.

Напротив, есть ли какое-нибудь мощное программное обеспечение, которое может делать то, что я ищу? Он также должен признать румынский.

7 Solutions collect form web for “Извлечение текста из сканированной книги .PDF”

Ранее я опубликовал ответ, в котором подробно описывается, как использовать Cuneiform (программное обеспечение с открытым исходным кодом), чтобы делать OCR в файлах PDF и как создать PDF-файл с распознанным текстом в скрытом текстовом слое «позади» исходного изображения. Насколько я знаю, клинопись действительно поддерживает румынскую.

Хотя конкретное решение было для Linux, Cuneiform доступен также для Windows.

Adobe Acrobat Professional может это сделать. Я не уверен, есть ли румынская версия …

ABBYY Fine Reader – очень мощное программное обеспечение OCR. Он касается очень сложных макетов и поддерживает множество форматов (включая pdf). Румынский язык поддерживается словарем, т.е. программное обеспечение использует словарь для определения приоритетов при распознавании. ( Здесь ).

В любом случае, научная литература OCR-ing, имеющая плохое качество сканирования, является сложной задачей. Будьте готовы потратить много времени, чтобы помочь программному обеспечению с проверкой результатов и исправлениями. На вашем сканировании я вижу очень плохой текст 🙁 Я не думаю, что какое-либо программное обеспечение OCR могло бы нормально работать с ним.

Recognita OmniPage – лучшая программа OCR, которую я когда-либо использовал. Я уверен, что он узнает румынский текст; У него не было проблем с моим родным венгром. Вы можете загрузить пробную версию из этой ссылки и использовать ее для конвертирования вашей книги. Полная версия, к сожалению, довольно дорогая (499,99 $) …

Я купил книгу!

Ну, для распознавания текста обычно ищет программы OCR (оптического распознавания символов). Их много, поэтому простой поиск в Google сделает больше, чем я здесь.

Я не понял последнюю часть «признаю румынскую» – вы имеете в виду, что она должна распознавать румынский язык или быть локализована (переведена) на румын? В случае первого, я считаю, что проблем не будет; Если второй случай, то я не уверен.

Кроме того, если это не книга ваших местных соотечественников, то есть шанс, что она уже переведена на английский язык … так что если у вас она есть в pdf на румынском языке, попробуйте найти английскую версию … тогда только проблема Это вы знаете … незаконный (иногда у кого-то нет выбора).

Попробуйте PDFCubed.com . Это онлайн-служба OCR, которая упрощает создание PDF с возможностью поиска. Отсканированные документы могут быть отправлены через Интернет, электронную почту или Dropbox.

  • Бесплатный PDF / A принтер для Windows
  • Как преобразовать Word (doc) в PDF в linux?
  • Как преобразовать многостраничный файл PDF в PNG-файлы с одним PNG-файлом на страницу документа PDF?
  • Присоединение двух PDF-файлов с немного отличающимся размером страницы с помощью pdfjoin
  • Word 2010 генерировать PDF когда-нибудь имеет ошибки?
  • Как я могу конвертировать документ OpenOffice в PDF из командной строки Linux?
  • Отключить «Этот тип файла может нанести вред вашему компьютеру» nag in chrome
  • Как избавиться от пустых страниц в PDF, экспортированных из SSRS
  • Как использовать GhostScript для Windows для восстановления поврежденных файлов PDF
  • Разделение PDF в PDF-файлы различных размеров
  • Преобразование цветного PDF в белый / черный
  • Interesting Posts

    Поиск содержимого в большом количестве файлов Excel

    NoAutoRebootWithLoggedOnUsers все еще поддерживается / эффективен в Windows 10?

    Как мне перейти с Windows 7 RC на Windows 7 RTM?

    Мой компьютер перезагружается, когда я говорю об отключении

    Sudo chmod -R 777 /

    Создайте временную таблицу в инструкции SELECT без отдельной таблицы CREATE TABLE

    Рекомендации по попытке получить данные с жесткого диска, помещая их в морозильник

    Как сделать чистую установку Windows 8 без предварительной установки Windows или ключа?

    Необходимо исправить Windows MBR без использования компакт-диска

    Как удалить символическую ссылку?

    Использование X-Macros в реальном мире

    Как преобразовать изображение PIL в массив numpy?

    Зачем мне нужно «b» для кодирования строки Python с помощью Base64?

    Как использовать существующий MongoDB в проекте Meteor?

    C # версия синхронизированного ключевого слова java?

    Давайте будем гением компьютера.