Извлечение текста pdf в Objective C

До этого момента я не нашел решения, которые бы хорошо работали, чтобы извлечь текст из файла PDF в Objective C для использования на iPhone. Я нашел некоторый стандартный код C и модифицировал его для работы, и подумал, что я его предоставил здесь, так как до этого момента я использовал stackoverflow совсем немного, но не возвращался. Вы можете получить его здесь: https://bitbucket.org/zachron/pdfiphone/overview

Он принимает в качестве входного пути файл pdf и возвращает nsstring текста в pdf. Я не писал большую часть этого, но я его модифицировал, чтобы он работал с iPhone и Objective C. Вам нужно включить библиотеку Zlib в свой проект (libz.dylib на iPhone), если кто-то это сделает и делает это более удивительно, это хорошие времена.

Имейте в виду, что это будет работать только для извлечения текста, который хранится как таковой в PDF. Это не будет OCR отсканированные PDF-файлы. Если вы хотите это сделать, есть возможность использовать Tesseract , надежный и надежный движок Google OSS. Он компилируется на iPhone : см. Nessan Brown’s Tesseract-iPhone-Demo для рабочего примера. Библиотека изображений ImageMagic также компилируется на iPhone , и она позволит вам конвертировать PDF в TIFF, который Tesseract принимает в качестве входных данных.

  • Как получить ширину NSString?
  • Как создать хеш-файл MD5 в Cocoa?
  • Убедитесь, что адрес электронной почты действителен для iOS
  • Как использовать тот же код на C ++ для Android и iOS?
  • Как разбить строковый литерал на несколько строк в C / Objective-C?
  • TouchJSON, работающий с NSNull
  • Насколько хорошо поддерживается Objective-C ++?
  • Можно ли использовать Swift's Enum в Obj-C?
  • Можно ли объявить dispatch_once_t предикат как переменную-член вместо статического?
  • Использование alloc init вместо нового
  • Напишите UIImage вместе с метаданными (EXIF, GPS, TIFF) в библиотеке фотографий iPhone
  • Давайте будем гением компьютера.