Извлечение текста pdf в Objective C

До этого момента я не нашел решения, которые бы хорошо работали, чтобы извлечь текст из файла PDF в Objective C для использования на iPhone. Я нашел некоторый стандартный код C и модифицировал его для работы, и подумал, что я его предоставил здесь, так как до этого момента я использовал stackoverflow совсем немного, но не возвращался. Вы можете получить его здесь: https://bitbucket.org/zachron/pdfiphone/overview

Он принимает в качестве входного пути файл pdf и возвращает nsstring текста в pdf. Я не писал большую часть этого, но я его модифицировал, чтобы он работал с iPhone и Objective C. Вам нужно включить библиотеку Zlib в свой проект (libz.dylib на iPhone), если кто-то это сделает и делает это более удивительно, это хорошие времена.

Имейте в виду, что это будет работать только для извлечения текста, который хранится как таковой в PDF. Это не будет OCR отсканированные PDF-файлы. Если вы хотите это сделать, есть возможность использовать Tesseract , надежный и надежный движок Google OSS. Он компилируется на iPhone : см. Nessan Brown’s Tesseract-iPhone-Demo для рабочего примера. Библиотека изображений ImageMagic также компилируется на iPhone , и она позволит вам конвертировать PDF в TIFF, который Tesseract принимает в качестве входных данных.

  • Можно ли объявить dispatch_once_t предикат как переменную-член вместо статического?
  • Разделить NSString для доступа к одной конкретной части
  • Переполнение кнопки навигации iOS7
  • Как создать хеш-файл MD5 в Cocoa?
  • GCD для выполнения задачи в основной теме
  • Декодирование символов UTF8 в Objective C
  • Как получить столбец datetime в SQLite с Objective C
  • Поиск через NSString с использованием регулярного выражения
  • POST multipart / form-data с Objective-C
  • Вызов метода экземпляра из метода classа
  • iOS 7 sizeWithAttributes: замена для sizeWithFont: constrainedToSize
  • Давайте будем гением компьютера.