Как убрать пробелы при копировании из пдф
Перейти к содержимому

Как убрать пробелы при копировании из пдф

  • автор:

Копирование содержимого из документов PDF

Можно с легкостью скопировать содержимое файла PDF, если автор документа не применил настройки защиты, запрещающие возможность копирования. Если требуется скопировать большое количество информации из файла PDF, можно легко экспортировать документ PDF в формат Word, Excel или PowerPoint.

Копирование текста и изображений из документов PDF

Убедитесь, что копирование содержимого разрешено

Нажмите правой кнопкой мыши на документ и выберите Свойства документа.
Нажмите вкладку Защита и просмотрите пункт Сводка по ограничениям документа.

Копирование определенного содержимого из документа PDF

Правой кнопкой мыши нажмите на документ и выберите Выбрать инструмент из всплывающего меню.
Перетащите для выделения текста или нажмите для выделения изображения.
Правой кнопкой мыши нажмите на выделенный элемент и нажмите Копировать.

Копирование документа PDF полностью (только для приложения Windows® Acrobat Reader, недоступно для браузера)

Вытащить текст из PDF с невидимыми лишними пробелами

Имеется PDF, при копировании/извлечении текста он получается с многочисленными лишними пробелами в словах. Есть что-нибудь готовое для решения задачи? Логика вроде бы проста: если координата whitespace-символа совпадает с координатой другого символа, также попавшего в selection, символ следует выкинуть.

shatsky ★★
10.07.17 01:25:05 MSK
cnupm ★
( 10.07.17 01:27:24 MSK )

На крайний случай есть OCR.

Sadler ★★★
( 10.07.17 09:00:30 MSK )
Ответ на: комментарий от cnupm 10.07.17 01:27:24 MSK

echo «м а м а м ы л а р а м у» | sed . .

что именно там надо написать?

Rastafarra ★★★★
( 10.07.17 10:14:32 MSK )

странно, как именно ты копируешь/извлекаешь текст?

Rastafarra ★★★★
( 10.07.17 10:15:18 MSK )
Ответ на: комментарий от Rastafarra 10.07.17 10:15:18 MSK

Siado ★★★★★
( 10.07.17 11:08:16 MSK )

С этим говном нормально справляться только через OCR, увы.

hungry_ewok
( 10.07.17 12:32:40 MSK )
Ответ на: комментарий от cnupm 10.07.17 01:27:24 MSK

Внезапно, pdftotext извлекает все правильно, даже переносы слов убирает. Спасибо

shatsky ★★
( 10.07.17 12:50:19 MSK ) автор топика
Ответ на: комментарий от Rastafarra 10.07.17 10:15:18 MSK

Ctrl+C, например. Проблема в том, что в тексте действительно есть эти пробелы. Не знаю, как посмотреть внутренности PDF, там PostScript-подобный язык, но если конвертировать в SVG — в содержимом tspan’ов эти лишние пробелы есть, а их координаты совпадают с координатами символов перед ними.

shatsky ★★
( 10.07.17 12:59:08 MSK ) автор топика

poppler-utils is a collection of tools builds on poppler library API, to manage PDF and extract contents. pdfdetach extract embedded documents from a PDF pdffonts lists the fonts used in a PDF pdfimages extract all embedded images at native resolution from a PDF pdfinfo list all infos of a PDF pdfseparate extract single pages from a PDF pdftocairo convert single pages from a PDF to vector or bitmap formats using cairo pdftohtml convert PDF to HTML format retaining formatting pdftoppm convert a PDF page to a bitmap pdftops convert PDF to printable PS format pdftotext extract all text from PDF pdfunite merges several PDF

pacify ★★★★★
( 10.07.17 13:20:00 MSK )
Ответ на: комментарий от shatsky 10.07.17 12:59:08 MSK

Кстати, можно же конвертировать в SVG, почистить tspan’ы и конвертировать обратно в PDF.

Как убрать пробелы при копировании из пдф

Электронные книги вошли в нашу повседневную жизнь и продолжают укреплять свою позицию. PDF – один из самых популярных форматов, который можно встретить на интернет просторах, посещая сайты и магазины. Но бывают досадные ситуации, когда текст, который мы хотим скопировать, просто превращается в непонятные символы. Кто-то на них говорит иероглифы, другие – кракозябры . Как же исправить такую ситуацию?

Я не уверен, что следующие советы помогут для всех решить проблему, но частичное решение ее все же возможно.

Давайте сразу отбросим отсканированые и нераспознанные PDF документы, из которых просто невозможно скопировать текст. Это равносильно попытке копирования текста из обычной фотографии, сделанной на ваш смартфон. В таком случае текст нужно распознать специальной программой, вроде ABBYY FineReader.

Наша книга (тестовая) полностью поддерживает копирование текста и изображений. Но при попытке перенести такой текст в Microsoft Office Word, можно видеть такие нечитабельные символы как на скриншоте сверху статьи.

Способ 1 (длинный).

Вся проблема в шрифтах и системе кодирования. PDF документ, с которого производится копирование имеет встроенные шрифты. И если такие шрифты отсутствуют в вашей операционной системе, то вы увидите такие кракозябры .

Чтобы можно было видеть нормальные буквы, при переносе текста нужно устанавливать соответствующие шрифты .

Чтобы узнать какие именно нужно инсталлировать на компьютер шрифты, нужно открыть наш PDF документ поддерживаемой программой (на примере PDF-XChange Viewer ). Далее идем в «Файл» → «Свойства документа» (можно нажать сочетание клавиш Ctrl + D).

кракозябры

Далее нажимаем на параметр «Шрифты» и видим список шрифтов, установленных в документе. Их и нужно найти в интернете и установить на компьютер. Для этого на загруженном шрифте два раза нажимаем левой клавишей мыши (то есть, открываем его), а потом нажимаем на кнопку «Установить» .

кракозябры

кракозябры

Далее копируем и вставляем текст из PDF документа, выделяем его в Microsoft Office Word (или в другом офисном редакторе, который у вас установлен) и выбираем из списка недавно установленный шрифт. Все должно быть нормально. Снизу на скриншоте видно, что я намеренно применил нужный шрифт только на одно предложение, другую часть текста прочитать невозможно.

кракозябры

Способ 2 (быстро и удобно).

кракозябры

Другой, более правильный и простой вариант – это использование программы (или плагина к редактору Notepad ++ ), которая называется Shtirlitz. Программа старая, давно не обновлялась, однако работает отлично. Прямо на лету выполняется вставка нормального текста. Никаких шрифтов не требуется. После копирования текста с данной программы и дальнейшей вставкой его в редактор Microsoft Office Word, все буквы и символы будут читаться и с использованием любого шрифта. Первый вариант не позволяет изменить шрифт. То есть, всегда, и на каждом компьютере нужно будет инсталлировать нужные шрифты для чтения только определенного документа. А если таких документов несколько сотен? Поэтому желательно воспользоваться этой программой для декодирования.

Способ 3 (онлайн).

Кто не хочет использовать программу Shtirlitz или она не работает, может использовать следующие онлайн сервисы для перекодирования (отдельные сервисы имеют ограничения по объему текста).

кракозябры

Обратите внимание, что кодирование нашей тестовой книги windows-1252. Для нас нужна кодировка windows-1251. Поэтому переходим на сервис online-decoder.com.

Там можно видеть окно, где написано «Скопируйте сюда текст». Вставляем наш непонятный текст и нажимаем на кнопку «Подбор». Такой способ будет правильно использовать если вам неизвестна система кодирования. Декодер попытается подобрать ее автоматически. Если вы знаете исходное кодирование своей кракозябры, то можете смело нажимать кнопку «Точно», указав перед этим кодирование, напротив текста «Я знаю нужные кодировки».

кракозябры

Второй сервис «artlebedev.ru». Есть два способа для декодирования: «Просто» и «Сложно». Первый вариант работает на автомате. Второй – дает возможность, при необходимости, указать исходное и конечное кодирование.

кракозябры

Третий онлайн сервис для декодирования текста «2cyr.com» имеет отличие от предыдущих в том, что позволяет выбирать язык. Кроме русского, доступен также и украинский язык интерфейса (и надеюсь, что кодирования также, просто не было возможности проверить).

Есть также два режима: автоматический и режим эксперта. Во втором можно указывать исходное и конечное кодирование. Рекомендуется автоматический режим. После того как вставили текст, напротив слов «Выберите кодировку : » , нужно выбрать «Автоматически (рекомендуется)» и нажать на кнопку «Ок».

Все три сервиса отлично работали на моей тестовой книге в формате PDF с кракозябрами.

Способ 4 (с помощью макросов для Microsoft Office Word ).

Еще один вариант для программы Microsoft Office Word. Никаких шрифтов ставить не нужно. Создаем макрос со следующим кодом:

Код 1: «Перекодирование 1252 в 1251»

Sub Corr1252_1251()
Dim s$, i&, j&
s = Selection
For i = 1 To Len(s)
j = AscW(Mid$(s, i, 1))
If j < 256 Then
Mid$(s, i, 1) = Chr(j)
‘ Debug.Print i & vbTab & Mid$(s, i, 1) & vbTab & j & vbTab & Chr(j)
End If
Next
Selection.Text = s
End Sub

Код 2: «Перекодирование 1252 в 1251 (с учетом русской буквы Ё)»

Sub changeToRus()

‘ Замена кракозябр на кириллические буквы
‘ CP1252 -> CP1251

For i = 192 To 255
a1 = i
a = Trim(«^u») & Trim(Str(a1))
‘ Формирование запроса для поля Найти
sRus = Array(«А», «Б», «В», «Г», «Д», «Е», «Ж», «З», «И», «Й», «К», «Л», «М», «Н», «О», _
«П», «Р», «С», «Т», «У», «Ф», «Х», «Ц», «Ч», «Ш», «Щ», «Ъ», «Ы», «Ь», «Э», «Ю», «Я», _
«а», «б», «в», «г», «д», «е», «ж», «з», «и», «й», «к», «л», «м», «н», «о», _
«п», «р», «с», «т», «у», «ф», «х», «ц», «ч», «ш», «щ», «ъ», «ы», «ь», «э», «ю», «я»)
‘ Формирование массива кириллических букв для поля Заменить
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = a
.Replacement.Text = sRus(i — 192)
.Forward = True
.Wrap = wdFindContinue
.MatchCase = True
End With
Selection.Find.Execute Replace:=wdReplaceAll
‘ Выполнение замены по тексту
Next i

‘ Замена Ё и ё
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ChrW(168)
.Replacement.Text = «Ё»
.Forward = True
.Wrap = wdFindContinue
End With
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ChrW(184)
.Replacement.Text = «ё»
.Forward = True
.Wrap = wdFindContinue
End With
Selection.Find.Execute Replace:=wdReplaceAll
End Sub

Выделяем вставленный текст с иероглифами. Тогда запускаем макрос на выполнение и получаем нормальный текст, который можно спокойно редактировать, изменять шрифты и т.д.

Для добавления готового макроса в Word делаем следующее:

Открываем редактор и переходим в «Вид».

кракозябры

Там находим кнопку «Макросы» и нажимаем на нее.

кракозябры

кракозябры

Даем для макроса имя (любое, оно будет автоматически изменено при полном копировании кода выше).

кракозябры

Откроется окно в котором можно заметить название нашего макроса. При желании можете оставить свое имя. Но лучше, чтобы не было ошибок, полностью заменить весь код на готовый (код смотрите сверху).

кракозябры

Как видно, макрос начинается так:

Sub названиемакроса()
дальше идет код макроса
End Sub

Название макроса может любым, но не цифры и не должно быть пробелов. Может быть так: декодирование_кракозябр_с_ё. Но не может быть так: декодирование кракозябр с ё.

То есть, для нас нужно заменить для нашего созданного пустого макроса весь текст с кодом, который показан выше.

После того как заменили, нужно закрыть окно редактирования макросов (можно нажать на иконку сохранения, хотя изменения сохраняются автоматически). Далее выделяем наш иероглифический текст, открываем макросы, выбираем из списка (если их у вас несколько) нужный и нажимаем на кнопку «Выполнить».

кракозябры

Ваш текст должен стать читабельным.

кракозябры

Источник макросов для Microsoft Office Word: http://wordexpert.ru

Как ни крути, но это не полное решение ситуации. Поиск после данных действий в самом PDF документе работать не будет. Проблема остается. Кто может подсказать ее решение, просьба писать в комментариях.

Редактирование текста в PDF документах

Формат PDF поддерживает два типа текстовых объектов: простые текстовые объекты и форматированный текст. Последний рассматривается в этом разделе.

Вставка текста в PDF документ

Чтобы вставить текстовый объект на страницу, щелкните кнопку Вставить текст на панели инструментов или используйте меню Вставка > Текст или нажмите Ctrl+T, затем щелкните то место на странице, где хотите вставить этот текстовый объект, и введите текст. Щелкните за пределами зоны ввода текста или нажмите Esc, чтобы завершить редактирование.

Редактирование текста

Чтобы отредактировать текст в PDF документе, выберите текстовый объект с помощью инструмента Редактировать документ или Редактировать текст . Затем дважды щелкните текстовый объект, который хотите отредактировать.

Изменение стилей текста

Вы можете изменить шрифт, размер шрифта, цвет и начертание текста в панели Инспектора объектов. Вызовите Инспектор объектов, щелкнув его кнопку на правой панели или нажав Ctrl+F11.

Откройте раздел Шрифт:

Здесь вы можете выбрать размер шрифта и начертание, указать тип текста и его цвет, а также настроить межбуквенный и междусловный интервал и высоту строки.

Перемещение текста и изменение размеров

Как и любой другой объект PDF, текстовый объект может переместить или изменить его размеры. Вы можете прочесть о том, как перемещать и изменять размеры объектов, в этом разделе.

Вращение текста

Существует два способа повернуть текст:

  • Укажите угол поворота в Инспекторе объектов, как описано в этом разделе
  • Используйте матрицу преобразований

Выравнивание текстового объекта на странице

Вы можете выровнять текстовый объект с помощью команды Выровнять на панели инструментов или в меню Правка. Вы можете узнать больше о выравнивании объектов в этом разделе.

ПРИМЕЧАНИЕ: Не следует путать выравнивание текстового объекта на странице с выравниванием текста внутри объекта форматированный текст.

Копирование и вставка текста

Копирование из текстового объекта

Если вы хотите скопировать текст некоторых текстовых объектов, чтобы вставить в другое приложение или в другой объект PDF, выполните следующие шаги:

  1. Выберите инструмент Выделить текстна панели инструментов или в меню Инструменты (Alt+7). Курсор мыши поменяется на перекрестие.
  2. Зажмите кнопку мыши и перетащите область выбора поверх текста, который нужно выделить.
  3. Щелкните правой кнопкой мыши и выберите Копировать в контекстном меню или нажмите Ctrl+C.
  4. Затем вы можете вставить этот текст, куда хотите.

ПРИМЕЧАНИЕ: Описанная выше процедура копирует только текст, а не текстовый объект. О том, как копировать и вставлять объекты, читайте здесь.

Вставка текста в документ

Если вы хотите вставить текст, скопированный из другого источника на PDF страницу, вам следует сначала вставить текстовый объект или объект форматированный текст в документ, а затем вставить текст из буфера обмена в область ввода текста.

На картинке ниже мы вставляем ранее скопированный текст в новый документ PDF.

Читайте также:

  • Master PDF Editor — Онлайн руководство
  • Функциональные характеристики
  • Установка и удаление в Windows
    • «Тихая» установка
    • Онлайн Активация
    • Офлайн Активация
    • Деактивация Лицензии
    • Меню Файл
    • Меню Правка
    • Меню Вид
    • Меню Объекты
    • Меню Комментарии
    • Меню Формы
    • Меню Документ
    • Меню Инструменты
    • Меню Справка
    • Создать пустой PDF документ
    • Создать новый PDF документ из файлов
    • Сканирование
    • Сохранение сессии
    • Оптимизация и сохранение
    • Резервное копирование
    • Функция автосохранения
    • Экспорт PDF в изображение
    • Экспорт PDF в текстовый формат
    • Экспорт PDF в CSV
    • Экспорт PDF в Excel
    • Экспорт PDF в Word
    • Спецификация PDF
    • Навигация по PDF документу
    • Вставка страниц
    • Удаление страниц
    • Перемещение страниц
    • Замена страниц
    • Изменение размера страницы и ее обрезка
    • Поворот PDF страницы
    • Свойства страницы
    • Экспорт и импорт PDF страниц

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *