Извлечение текста из сканированной книги .PDF

У меня есть отсканированная книга в формате PDF, но качество довольно плохое:

Введите описание изображения здесь

(Язык румынский, и это книга медицинской физиологии, на случай, если вам интересно)

Я хочу извлечь текст из книги (1500 страниц), но сохранить изображения так, как они есть. Я действительно не думаю, что у меня есть шанс найти решение, поэтому я обязательно куплю книгу.

Напротив, есть ли какое-нибудь мощное программное обеспечение, которое может делать то, что я ищу? Он также должен признать румынский.

Ранее я опубликовал ответ, в котором подробно описывается, как использовать Cuneiform (программное обеспечение с открытым исходным кодом), чтобы делать OCR в файлах PDF и как создать PDF-файл с распознанным текстом в скрытом текстовом слое «позади» исходного изображения. Насколько я знаю, клинопись действительно поддерживает румынскую.

Хотя конкретное решение было для Linux, Cuneiform доступен также для Windows.

Adobe Acrobat Professional может это сделать. Я не уверен, есть ли румынская версия …

ABBYY Fine Reader – очень мощное программное обеспечение OCR. Он касается очень сложных макетов и поддерживает множество форматов (включая pdf). Румынский язык поддерживается словарем, т.е. программное обеспечение использует словарь для определения приоритетов при распознавании. ( Здесь ).

В любом случае, научная литература OCR-ing, имеющая плохое качество сканирования, является сложной задачей. Будьте готовы потратить много времени, чтобы помочь программному обеспечению с проверкой результатов и исправлениями. На вашем сканировании я вижу очень плохой текст 🙁 Я не думаю, что какое-либо программное обеспечение OCR могло бы нормально работать с ним.

Recognita OmniPage – лучшая программа OCR, которую я когда-либо использовал. Я уверен, что он узнает румынский текст; У него не было проблем с моим родным венгром. Вы можете загрузить пробную версию из этой ссылки и использовать ее для конвертирования вашей книги. Полная версия, к сожалению, довольно дорогая (499,99 $) …

Я купил книгу!

Ну, для распознавания текста обычно ищет программы OCR (оптического распознавания символов). Их много, поэтому простой поиск в Google сделает больше, чем я здесь.

Я не понял последнюю часть «признаю румынскую» – вы имеете в виду, что она должна распознавать румынский язык или быть локализована (переведена) на румын? В случае первого, я считаю, что проблем не будет; Если второй случай, то я не уверен.

Кроме того, если это не книга ваших местных соотечественников, то есть шанс, что она уже переведена на английский язык … так что если у вас она есть в pdf на румынском языке, попробуйте найти английскую версию … тогда только проблема Это вы знаете … незаконный (иногда у кого-то нет выбора).

Попробуйте PDFCubed.com . Это онлайн-служба OCR, которая упрощает создание PDF с возможностью поиска. Отсканированные документы могут быть отправлены через Интернет, электронную почту или Dropbox.

  • Есть ли PDF для конвертера Mobi?
  • PDF TEXT Extraction
  • Уменьшение размера файла PDF
  • Слияние двух файлов PDF, содержащих четные и нечетные страницы книги
  • Чтение PDF-контента с использованием iTextSharp в C #
  • Word 2007 - Сохранить как Pdf дает ошибку
  • Насколько хороша защита паролей PDF?
  • Как извлечь текст из PDF?
  • Бесплатные PDF-принтеры создают уродливые изображения?
  • Создайте PDF-файл из PowerPoint с анимацией
  • Rstudio rmarkdown: как портретный, так и альбомный макет в одном PDF-файле
  • Interesting Posts

    Слушать кнопки регулировки громкости в фоновом режиме?

    Windows 7 Explorer: как показать общий размер всех файлов в текущей папке?

    Windows 7 – Высокая загрузка процессора во время простоя

    Есть ли инструмент Diff для Dropbox для Mac?

    Как открыть командную строку в текущей папке с помощью сочетания клавиш?

    Лучший способ показать индикатор загрузки / прогресса?

    Android – Как динамически менять текст пункта меню вне onOptionsItemsSelected или onCreateOptionsMenu

    Использование битовой маски в C #

    Получить имя пользователя Windows с помощью JAVA или JSP

    Найти похожие сообщения в Outlook 2010 с новым / всплывающим окном, как в 2007 году

    Что такое «подписанные» куки в connect / expressjs?

    В чем разница между командами find и findstr в Windows?

    Почему System.nanoTime () медленнее (по производительности), чем System.currentTimeMillis ()?

    Отправлять данные по маршрутным маршрутам в Угловом

    IncompatibleClassChangeError после обновления до Android Build Tools 25.1.6 GCM / FCM

    Давайте будем гением компьютера.