СЯУ

Apr. 1st, 2022 12:23 pm
ny_quant: (Default)
[personal profile] ny_quant
(методом наступания на грабли) что в поиском в pdf файле нельзя найти слова profit, profile and configuration, но можно найти five, figure and significant.

Понятно, что дело тут в зловредных тонких буковках, и все наверное знают что происходит при попытке копирования таких слов из пдф в текстовый файл (мой ученый коллега даже употреблял по этому поводу какое-то умное слово, но я его забыл), но понять почему significant работает, а configuration не хочет, я не могу.

Наверное гугл знает ответ и на это, но какой смысл его искать, если это знание лишь умножит мою печаль?

Date: 2022-04-01 04:24 pm (UTC)

Date: 2022-04-01 05:01 pm (UTC)

Date: 2022-04-01 05:42 pm (UTC)
brmail: (письмецо)
From: [personal profile] brmail
PDF это просто контейнер. Далее в него могли сунуть например постранично картинки из документа. Далее, механизмами программы-читалки может быть произведена частичная (только для поиска) или полная OCR оцифровка. И вот этот-то этап сильно зависит от софта, который эту самую OCR и осуществляет. Попробуй другую программу-читалку, не от adobe.

Date: 2022-04-01 05:45 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
В него в данном случае ничего не совали. Эти пдфы были скомпилированы из латеха, как и всё с чем мы имеем дело на работе.

Date: 2022-04-01 06:30 pm (UTC)
brmail: (Default)
From: [personal profile] brmail
а когда конвертировали - там нет настроек, сохранять странички как картинки, или сохранять текст - как есть, или что то в таком роде. Короче говоря у вас где то сломано преобразование из текста в латексе в конечный текст в pdf

Date: 2022-04-01 06:37 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Нет там никаких таких настроек и ничего не сломано. Текст сохраняется как текст. Он может быть selected, copied and pasted w/o loss of information, unless it contains those bloody thin letters.

Date: 2022-04-01 06:49 pm (UTC)
brmail: (письмецо)
From: [personal profile] brmail
Что, вот если открыть пдф, выделить все, скопировть, и вставив в простейший нотепед (или его аналог), поискать там — все хорошо работает, все находит?
Если так, то что-то не в порядке с самой читалкой пдф, в которой не находит.
Чудес не бывает, просто надо найти где оно сломалось, и править там.
Кстати, чисто ради эксперимента, в своем латексе выбери шрифт который только болд и бывает, и сохрани как пдф, станет лучше?

PS Про то, что у латекса нет настроек, как именно сохранять в пдф я не верю. Это такое приложение, которое чисто своими настройками может быть превращено в холодильник или даже в стиральную машину.


Date: 2022-04-01 07:13 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Если файл не содержит картинок, уравнений, греческих букв и т.д. (чего в нашей работе не бывает, но можно при желании скомпилировать и такой), то да - все хорошо работает. Но - повторяю - есть нюанс: сочетание "fi" в некоторых случаях копируется в буфер как специальный символ, который в текстовом редакторе или не отображается вообще или разрывом строки или черт его знает какой фигнёй.

Дальнейшие исследования показали, что результат действительно зависит от читалки. В одном и том же файле, adobe acrobat слово profit не нашел, а Foxit нашел.

Спасибо, в итоге я узнал ещё что-то новое. Что акробат говно мне говорили и раньше, а теперь я это познал на личном опыте.

Такие настройки у латеха может где-то и есть, но у нас ими никто не пользуется. Текст всегда компилируется как текст.

Date: 2022-04-01 08:02 pm (UTC)
brmail: (Default)
From: [personal profile] brmail
это странно если fi во что то кодируется постоянно, то надо ковырять в направлении latex font encoding. А вот если то есть то нет, то не знаю куда смотреть, нужен спец по latex .

Date: 2022-04-01 08:13 pm (UTC)
From: [identity profile] kobak.livejournal.com
Умное слово, наверное, "лигатура"? Но воспроизвести эффект я не смог: засунул все эти слова в тех, и во всех возникает лигатура (которая, в моей пдф-читалке копируется, впрочем, нормально). Если, конечно, F не заглавная (напр., Five в начале предложения) -- тогда лигатуры нет.

Date: 2022-04-01 08:48 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Вот оно - умное слово! Но если мопед, в смысле пдф, не мой, то оно мне никак не поможет.

Date: 2022-04-01 08:49 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Ниже объяснили.

Date: 2022-04-01 08:59 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Да, оно. Но раз у вас не получается воспроизвести, то вообще какой-то бардак.

Date: 2022-04-01 09:10 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Возможно, авторы файла, с которым я сегодня работал, использовали какие-то не полностью надежные методы борьбы с этими лигатурами.

Date: 2022-04-01 11:30 pm (UTC)
spamsink: (lenin)
From: [personal profile] spamsink
Умное слово, возможно, не столько "лигатура", сколько "каноническая декомпозиция". Существует официальный символ U+FB01 fi (это лигатура; выделите курсором — убедитесь), который для всех программ, правильно работающих с юникодом, с точки зрения поиска эквивалентен буквосочетанию fi (попробуйте поискать на странице браузера "fi" — оно найдётся).

И существуют бешеные программы, которые для этой лигатуры выдумывают символ с произвольным кодом из приватной области юникода и вставляют специальный шрифт с глифом для этой лигатуры в соответствующее произвольное место. С точки зрения просмотрщика PDF эта кракозябра вообще ничего не означает.

Date: 2022-04-02 04:42 am (UTC)
From: [identity profile] ny-quant.livejournal.com

Еще одно умное слово - глиф.

Date: 2022-04-02 04:44 am (UTC)
spamsink: (lenin)
From: [personal profile] spamsink
Иероглифы и петроглифы подбоченились.

Date: 2022-04-02 11:47 am (UTC)

Date: 2022-04-04 02:09 pm (UTC)
From: [identity profile] sova-f.livejournal.com
У меня все прекрасно находится. Если кинете мне в личку мейл, могу прислать файл, который я сейчас создала.

Date: 2022-04-04 02:36 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Я вам верю на слово. Любопытно, что выше (https://ny-quant.livejournal.com/936990.html?thread=13369886#t13369886) сообщают ровно обратный результат, да и у меня самого в тех файлах, которые компилирую я сам, ничего не находится. Кроме того, зависит от того в какой читалке искать (https://ny-quant.livejournal.com/936990.html?thread=13368862#t13368862). Вы что-то делаете для борьбы с этими зловредными лигатурами или оно само так волшебно получается?

Date: 2022-04-04 05:05 pm (UTC)
From: [identity profile] sova-f.livejournal.com
Я даже не знаю, с кем мне бороться. Я открыла новый ворд файл, написала в нем profit, profile, configuration, five, figure, сгенерировала из этой фигни пдф, и в нем все ищется поиском.

Date: 2022-04-04 05:16 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
А, теперь понятно! Так-то и я умею! А вы попробуйте то же самое в латехе скомпилировать.

Date: 2022-04-04 06:05 pm (UTC)
From: [identity profile] sova-f.livejournal.com
А латеха этого не было в условиях задачи!

Profile

ny_quant: (Default)
ny_quant

January 2026

S M T W T F S
    123
45 6 7 8 9 10
11 12 13 14 151617
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 18th, 2026 04:56 am
Powered by Dreamwidth Studios