Использование LocationTextExtractionStrategy в itextSharp для текстовой координаты

Моя цель – извлечь данные из PDF, которые могут быть в структуре таблицы в файл excel.

используя LocationTextExtractionStrategy с iTextSharp, мы можем получить строковые данные в текстовом виде со страничным содержимым слева направо.

Как я могу двигаться вперед так, чтобы во время

PdfTextExtractor.GetTextFromPage (читатель, i, новый LocationTextExtractionStrategy ())

Я мог бы заставить текст сохранить свою координату в результирующей строке.

Например, если первая строка в pdf имеет текст, выровненный по правому краю, то результирующая строка должна содержать конечное пространство или пробелы, сохраняя выравнивание содержимого вправо.

Пожалуйста, дайте несколько советов, как я могу продолжать добиваться того же.

Очень важно понять, что PDF-файлы не поддерживают таблицы . Все, что выглядит как таблица, – это всего лишь куча текста, размещенного в определенных местах на фоне строк. Это очень важно, и вы должны помнить об этом, когда работаете над этим.

Тем не менее, вам нужно подclassифицировать TextExtractionStrategy и передать это в GetTextFromPage() . См. Это сообщение для простого примера. Затем посмотрите этот пост для более сложного примера подclassа. Последнее не полностью соответствует вашей цели, но оно показывает некоторые более сложные вещи, которые вы можете сделать.

  • Вырезание и вставка вьетнамских персонажей из PDF
  • Как конвертировать MS doc в pdf
  • Сохранить pdf в jpeg с помощью c #
  • Создание файлов PDF во время выполнения в c #
  • Как увеличить размер страницы PDF для добавления водяного знака?
  • Преобразование PDF в PNG
  • Как импортировать, экспортировать и редактировать закладки PDF-файла?
  • Извлечение текста pdf в Objective C
  • Как извлечь содержимое Flash из файла PDF?
  • Использование PDFBox для записи кодированных строк UTF-8 в PDF-файл
  • Преобразование PDF в миниатюру в Java
  • Давайте будем гением компьютера.