Практическое решение для распознавания текста для преобразования большой книги в цифровой формат?

В прошлый уик-энд я был у моего дедушки и бабушки. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу ее семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я являюсь, я думал, что было бы пятно иметь всю информацию, хранящуюся в базе данных и доступную из Интернета. Я могу обрабатывать все веб-программирование и регулярные выражения, а что нет, но то, что я не знаю, – лучший способ получить текст из книги на компьютер.

Я знаю, что какое-то OCR будет необходимо, из небольшого исследования, которое я сделал, кажется, что мои варианты:

  1. Сделайте снимок каждой страницы с помощью камеры, затем обработайте изображения с помощью программного обеспечения OCR
  2. Использовать сканер для сканирования каждой страницы, затем обработать с помощью программного обеспечения OCR
  3. Используйте какое-то ручное устройство, вроде этого .

Есть ли у кого-нибудь идеи о наилучшем способе решения этой проблемы? Я не хочу уничтожать книгу, потому что, насколько я знаю, ее нельзя заменить. Вероятно, это единственный раз, когда я когда-либо собираюсь отсканировать большую книгу, поэтому я не думаю, что хочу потратить более 250 долларов на любое устройство. Я не возражаю против ручного труда здесь (я понимаю, что это, скорее всего, займет месяцы), но я бы хотел найти наиболее эффективный метод.

Заметка о книге: ей всего около 20 лет, так что она в очень хорошей форме. Он монохромный, и страницы не стали желтыми. Так как он такой большой, я беспокоюсь о возможных тенях, когда текст приближается к привязке.

Я натолкнулся на это на Lifehacker довольно давно, и с тех пор он был одним из моих лучших проектов DIY.

Введите описание изображения здесь

Замените iPhone на любую камеру или изображение, и вы получите стек хороших высококачественных jpeg, готовых для вас к OCR с любым программным обеспечением, даже (urks!) MS Office …;)

Дешевые. Эффективное. DIY. Вы не можете победить такую ​​идею.

EDIT: комментарии подняли некоторые моменты о тенях, скручивания страниц и т. Д. Довольно легко разрешено для тех, у кого есть буквально скопированные библиотеки.

Добавьте несколько источников света, чтобы осветить книгу и устраните тени.

Наклоните книгу под углом 90 градусов к страницам, не скручивайтесь по отношению к связям посередине. Он также сохраняет привязку.

Я посмотрю, смогу ли я привести пример и установить его сам.

EDIT 2: загруженный образец того, как вы должны держать книгу, а также обратите внимание на источник света слева.

Введите описание изображения здесь

Из того, что я знаю, ABBYY делает лучшее программное обеспечение OCR, но оно не является бесплатным. Вы должны попробовать использовать пробную версию ABBYY FineReader , возможно, это поможет вам.

Вам нужно будет каким-то образом захватить изображение. Для вас существуют различные услуги. Вам также понадобится кто-то, кто знаком с содержанием текста, до исправления, поскольку OCR еще не совершенен. Особенно с чем-либо рукописным.

Другие обсуждают ваш вопрос здесь: http://ask.metafilter.com/92506/scan-my-books

Некоторые компании сделают это для вас: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Некоторые бесплатные программы: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

Для большого и важного для вас и вашего семейного проекта, как это сделать, может быть сделана книга DIY Book Scanner, некоторые дизайнеры даже для техников, занимающихся спортом, – http://www.diybookscanner.org/. Это не поддерживает OCR , Но снимает 600 страниц в час, и вы можете запустить его через OCR после факта http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

Возможно, вам захочется узнать, есть ли в университете рядом с вами целый книжный сканер, а затем попросить / подкупить ученика, чтобы положить через него свою книгу.

Я бы рекомендовал планшетный сканер, сфальсифицированный для сканирования книг или всего сканера книг, как упоминал Крис.

Если вы можете, то ваши изображения будут скомпилированы в формат TIFF, поскольку это стандарт для промышленности, когда дело доходит до систем управления документами.

Для выполнения OCR я бы рекомендовал Tesseract OCR, поскольку это ракурс Google, излагаемый для их проектов с книгами.

В то время как звучит соблазнительно автоматизировать процесс, вы можете захотеть инвестировать больше времени и работы, поскольку эта конкретная книга является личным делом. OCR сделает объем, но вам придется проверять страницу за страницей и сравнивать с оригиналом. Имейте в виду, ошибки автора являются частью сделки, не корректируйте их (создайте сноски, если вы так наклонены). Не спешите, не ставьте себя под давлением, сканирование книг – это работа осла, но тщательность оплачивается, и вы получите прекрасную цифровую копию хронической семьи. Удачи в ваших усилиях 🙂

На работе мы используем сканер Plustek Optibook 3600, который составляет около 250 долларов США .
Это стандартный стандартный сканер с плоской кроватью, но со стеклянной пластиной, идущей прямо к краю сканера, чтобы страница книги могла быть размещена на пластине. Это устраняет тень позвоночника и позволяет избежать разрушительных книг.

Введите описание изображения здесь

  • Предельные символы tesseract ищет
  • Android OCR Library
  • обработка изображений для повышения точности Tesseract OCR
  • Реализация Java OCR
  • Преобразование YUV-> RGB (Обработка изображений) -> YUV во время onPreviewFrame в android?
  • Как распознать лицензию / номерной знак транспортного средства (ANPR) на изображении?
  • Давайте будем гением компьютера.