Как скопировать эту цитату из PDF?

Возможный дубликат:
PDF имеет искаженный текст при копировании

Я читаю PDF-копию документа Джерома Х. Фридмана «Data Mining and Statistics: What is the Connection?». Используя Google Chrome.

Он содержит забавную цитату, которую я хочу скопировать и вставить в свой блог.

Я использовал мышь, чтобы выбрать текст цитаты и нажал CTRL + C, чтобы скопировать текст. Документ выглядит следующим образом:

Выделенная цитата из статьи Джерома.

Когда я вставляю текст в «Блокнот», «Переполнение стека» или где-либо еще, продукт представляет собой таинственный талисман:

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥ ▼ ❽❾❸✘➎✳❸❾②|➊➥❸❊❸❊⑥❦⑨|②③✇ ▲ ➆ ②❥⑤⑩⑨|②❥⑤⑩❽❾⑤⑩✇➄⑥ ▼ ⑨❏✇➄⑥ ▼ ❺➌❽❾❻➀➍ ♣ ➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨|②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇ ▼ ✇ ▲ ②➟➊❚➇⑦❸❊⑥✆✇ P⑨|②③✇ ▲ ②❥⑤⑩⑨|②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇ ▼ ✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇ ♣ ➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂ ▼ ✇➄➂✳❸❊➁✶Þ⑦ ✇ ♣ ❽❾❻➀➍ ♣ ➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨|②↔⑨|②③✇➄➁❹②③⑨❚✇ ♣ ❽❾❻➀➍ ♣ ➂ ▼ ✇➄⑥☛➧➀➏

Текст должен выглядеть следующим образом:

Разница между статистиками и компьютерными учеными в этой области, по-видимому, заключается в том, что когда статистик имеет представление, он или она пишет статью; Компьютерный ученый начинает компанию.

Мне пришлось напечатать этот текст вручную. Это возможно для такой небольшой цитаты, но как я могу копировать то, что вижу?

Это что-то необычное в отношении PDF, браузера, плагина или некоторого объединения трех?

Самый надежный способ сделать это – использовать OCR.

Но в качестве грязного и быстрого решения вы можете использовать Google Quick View из результатов поиска для своей ссылки, в опции быстрого просмотра « Вид»> «Обычный HTML» .

Он по-прежнему содержит некоторый искаженный текст и довольно нечитабелен, но большой объем текста правильный и способный к копированию . Поиск работает здесь, поэтому вы можете использовать его для поиска целевого текста и его копирования без искажения текста.


Подробный пример:
Результаты поиска Google для URL включают ссылку Quick View.


Затем используйте параметр «Вид» « Обычный HTML» .


В Quick View есть опции для просмотра документа в формате HTML.


В версии HTML Google вы можете искать и выбирать эквивалентный текст следующим образом:


Найдите в HTML-версии, чтобы найти и выбрать соответствующую цитату.


Вставка в блокнот производит этот вывод:

Разница между статистами и компьютерными учеными в этой области, по-видимому, заключается в том, что когда статистик имеет идею, он или она пишет статью; Компьютерный ученый начинает компанию.

Не точно, как показано, но достаточно близко, чтобы вы могли с ним работать.

Вам придется отбросить поврежденный текст, который уже связан с PDF, прежде чем вы сможете повторно открыть его. Самый простой способ сделать это – сохранить его в формате TIFF, затем открыть его с помощью Acrobat и повторно открыть его. Когда я это сделал, это сработало для меня.

Похож на PDF с неправильной кодировкой. См. Следующие темы:

  • Скопируйте текст из PDF в слово. Просто получите символы

  • PDF имеет искаженный текст при копировании

  • Поиск PDF-файлов с нестандартными кодировками символов

Попробуйте распечатать PDF с помощью CutePDF , а затем посмотрите, не улучшился ли полученный PDF-файл.

  • Как программно печатать в PDF-файл без запроса имени файла в C # с помощью принтера Microsoft Print To PDF, который поставляется с Windows 10
  • как выделить текст или слово в pdf-файле с помощью iTextsharp?
  • Откройте файл PDF внутри веб-представления.
  • Экспорт PowerPoint в PDF с каждой анимацией на отдельном слайде
  • Как извлечь изображение из файла PDF
  • Есть ли эффективный способ копирования текста из PDF без разрывов строк?
  • Сжать файл в формате pdf?
  • Можно ли печатать в PDF с терминала Mac?
  • Как удалить пробел при слиянии
  • Удаление водяного знака из PDF iTextSharp
  • Извлечение текстовых данных из файлов PDF
  • Давайте будем гением компьютера.