Номер телефона

Последнее обновление:

Как вставить текст из файла pdf с неправильной кодировкой?

Иногда русский текст (кириллица) в pdf-файле читается нормально, но при копировании вставляется в виде так называемой абракадабры, типа:

Ýòîò ïðîöåññ, êàê ïðàâèëî, ñîñòîèò èç ñëåäóþùèõ òð¼õ øàãîâ:

Именно так может выглядеть русскоязычный текст при копировании его из файла pdf (например, из Adobe Reader).

Как преобразовать такой текст в правильный, читаемый вид?

Наверное, есть масса разных способов. Предлагаем, на наш взгляд, самый простой. Потребуется дополнительно программа Notepad++. При этом в нее или из нее ничего копировать НЕ ПРИДЕТСЯ. Она потребуется лишь для преобразования текста, скопированного из Adobe Reader.

Невероятно, но факт: текст будет преобразовываться прямо в буфере обмена, безо всякой вставки или дополнительного копирования.

Такая проблема редко, но бывает

Когда файл pdf сохранен, по всей видимости, в неверной кодировке.

Итак, вот, к примеру, такой файл.

Вроде бы, файл как файл. Но, если попробовать скопировать из него какой-либо текст, все русскоязычные буквы отобразятся в виде нечитаемых символов. Что же делать?

Итак, откроем Notepad++, создадим пустой файл. Обратим внимание,  что он создался в кодировке Windows ANSI, т.е. Windows-1251.

Кстати, кодировку файла, открытого в этом текстовом редакторе, можно посмотреть также справа внизу экрана.

Если вставить теперь в этот файл текст, скопированный из указанного ранее файла pdf, то получится следующее:

Чтобы решить проблему, надо всего-навсего, НЕ ВСТАВЛЯЯ ТЕКСТ, преобразовать его. Нажав

Кодировки -> Преобразовать в UTF-8

Далее можно текст, который содержится в буфере обмена (будучи скопированным из файла pdf), вставить в любой другой редактор, например, в Microsoft Word или в тот же Notepad++. И он будет вставлен уже корректно, т.е. в виде кириллицы. Вставим его в Notepad++:

Как видно, текс практически весь вставился корректно, за исключением буквы ё, которая вставилась как латинская j.

Если же файл, открытый в Notepad++, уже был закодирован в кодировке UTF-8, то тогда следует сделать преобразование, наоборот, в ANSI. И после этого текст опять-таки вставится корректно.

Таким образом, перед тем, как вставлять текст из pdf-файла, надо «сходить» в Notepad++ и сделать там преобразование кодировки:

  1. Если исходно там была ANSI, то преобразовать кодировку в UTF-8;
  2. Если исходно там была UTF-8 то преобразовать кодировку в ANSI.

Любопытно, но факт. Т.е. надо просто преобразовать кодировку, а в какую именно (в ANSI или в UTF-8) – неважно.

Более того – сам текст копировать в Notepad++ НЕОБЯЗАТЕЛЬНО! При преобразовании кодировки он сам, АВТОМАТИЧЕСКИ преобразуется, находясь в буфере обмена.

Иными словами, просто сходили в Notepad++, там преобразовали кодировку на другую (неважно, какую, только не в USC-2, конечно), и… можно дальше копировать текст из буфера обмена куда угодно.

Парадокс, но все работает.

Впрочем, этот способ работает не всегда

В некоторых случаях, при "особо интересных" файлах pdf, не помогает даже преобразование кодировок.


Комментарии:
ФВ06.01.2025 04:53
Научный Консалтинг, Вы случаем не знаете как текст с фотографии скопировать можно, ? А то очень не хочется по буквам его набирать.
Научный Консалтинг07.01.2025 11:18
Если файл pdf, тогда оптимально использовать Finereader. Или аналогичную программу, предназначенную для распознавания текстов. Они как раз для этого предназначены. Есть даже ABBYY PDF Transformer - специально для распознавания файлов pdf. Это - облегченная версия Finereader. Лет 15 назад я покупал ее примерно за 4 тыс. руб. (версию 3.0). Ибо при работе с заказчиками она - незаменима. Где-то в интернете я видел взломанную версию 2.0 (т.е. бесплатно). Тоже рабочая, даже лучше она, чем версия 3.0. В свое время мы писали разработчикам о том, что взломанная старая версия УДОБНЕЕ, чем новая невзломанная. Но, как это водится в России, реакции не было никакой вообще. Вместо возврата на старую версию они, напротив, ужесточили использование новой.
ФВ08.01.2025 15:53
"Вы бы лучше бы сделали скриншот нужной страницы, а его - выложили бы на каком-нибудь сайте, где вкладывают картинки." Это вы про какую страницу говорите?
Научный Консалтинг08.01.2025 16:06
Вы говорили про 7-й раздел и некое устрой
Научный Консалтинг08.01.2025 16:08
ство. Есть сайты, куда выкладывают скриншоты. А указанный вами сайт почему-то не открывался.
ФВ09.01.2025 04:47
Скрин надо редактировать в смысле резать а у меня фотошопа нет. Да я уже разобрался по картинкам. Вот этот аппарат а там внизу фаил PDF /Ссылка удалена/
Научный Консалтинг09.01.2025 13:42
ФВ, не удается скачать указанный файл. Прерывается загрузка. Если вам это каким-то образом удалось, необязательно иметь Фотошоп. Например, конкретно у меня его нет и не планирую приобретать; вполне обхожусь бесплатной программой GIMP, хотя она и не без серьезных недостатков. Но, в вашем случае Фотошоп и даже GIMP совершенно излишни, вполне можно обойтись стандартной программой Paint. Она входит в стандартный комплект Windows Office. Главное, чтобы у скриншотов было хорошее разрешение, текст был читаемым. Запуск Paint: Пуск - Все программы - Стандартные - Paint. P.S. А вообще, похоже, на том сайте ничего не слышали ни об оптимизации файлов для сетевого использования, ни о кэшировании.
ФВ09.01.2025 17:05РедактироватьУдалить
Там фаил 40 мегабайт , у меня тоже качался плохо, я уже разобрался , седня по проводам прошелся , как говорится проследил схему в натуре и все понятно стало. Я обычно резал нужный кусок NERO фото 8, но версия старая срок давно закончился она заблокировалась, ковыряться нет времени, пока как то обхожусь и без нее это уж когда приспичит поставлю чего нибудь. А про паинт знаю, меня не устраивает то что там после остается кусок белого поля снизу, его тоже вырезать надо. Возможно я чего то не так дделаю, ну да это не главное.
Всего комментариев: 8
Пожалуйста, не забудьте ознакомиться с правилами оставления комментариев.



Подписаться на комментарии на этой странице

Мы можем выполнить

Другие услуги
Интересная и полезная
информация
НАПИШИТЕ НАМ
Яндекс.Метрика
Номер телефона
© Copyright Все права защищены 2013-2025 Научный консалтинг