PDF проблем

dakata__92

Super Moderator
Здравейте. Имам един PDF с текст и когато се опитам да копирам текста в него ми вади някакви тегави символи. http://pastebin.com/tkzbuU45
Натискайки Ctr + A и след това Ctr + C се опитвам да копирам текста но уви при поставянето Ctr + V се получава някакъв проблем и не извежда текста. На други PDF-и без проблем копирам текста по този начин докато в момента уви не става. Пробвах да сейфам като txt но уви някакви страааанни символи.
 
Има няколко варианта. Да нямаш този шрифт инсталиран в системата, енкодинга да е различен(вероятността да не го изписва е голяма и ще е трудно да налучкаш кодовата таблица), да е copy protected(макар че, ако е - нямаше да можеш да маркираш дори текста).

Това се сещам за сега. Може да пробваш да го конвертираш до Word документ.
 
Пробвахме какво ли не с Revelation но стигнахме до заключението че явно само с OCR ще стане нещо. Дайте идеи къде може да е проблема?
 
dakata__92 каза:
Пробвахме какво ли не с Revelation но стигнахме до заключението че явно само с OCR ще стане нещо. Дайте идеи къде може да е проблема?
Онлайн конверторите пробва ли ги?
 
lamerko каза:
Е чак пък нищо...

Безсмислен отговор. Ако има нещо, което знаеш - предложи. Но снощи с даката изчетохме интернета(дет' се вика). Накрая все се стигаше до вариант OCR.
 
Revelation каза:
lamerko каза:
Е чак пък нищо...

Безсмислен отговор. Ако има нещо, което знаеш - предложи. Но снощи с даката изчетохме интернета(дет' се вика). Накрая все се стигаше до вариант OCR.

Наистина доста изчетохме с теб. Реално проблема явно е в начина по който е запазен файла и явно неможе да се разчете текста. Незнам в каква кодировка е запазен, но уви не иска и неиска да се оправи.
 
Кодировката е Custom, писана е специална кодова таблица с нужните символи. Шрифта е TT8Et00, който е Embedded Subset. Т.е. не може да се екстрактва поради copyright. Няма как и да го намериш в интернет.

Може би, ако прочета всичко относно PDF, ще мога да го оправя, но това е страшно много четене и занимаване, а нямам нужното време.
 
Отговора ми е безсмислен, понеже го няма прикачен въпросния PDF в темата. А това "Кодировката е Custom, писана е специална кодова таблица с нужните символи. " не знам как успя да го измислиш - ако наистина беше така, тотогава самия PDF щеше да ти е "шифрован" и никой нямаше да може да види нищо :)
 
lamerko каза:
Отговора ми е безсмислен, понеже го няма прикачен въпросния PDF в темата. А това "Кодировката е Custom, писана е специална кодова таблица с нужните символи. " не знам как успя да го измислиш - ако наистина беше така, тотогава самия PDF щеше да ти е "шифрован" и никой нямаше да може да види нищо :)

Явно слабо си запознат с идеята на PDF.


Всеки PDF файл съдържа пълно описание на фиксирания двумерен документ (с вградени тримерни елементи при Acrobat 3D), в което влизат текст, шрифтове, изображения, двумерни векторни и растерни графики, от които са съставени документите.

Я пак си помисли и прочети малко, че тогава се питай от къде съм го измислил.

PDF-а не се интересува на каква ОС ще се качи. Той не разчита да имаш шрифтовете на системата, за това е и Portable Document Format.

Форматът PDF комбинира следните три технологии:

Една от технологиите е:
Система за вграждане/замяна на шрифтове, която позволява използваните шрифтове да се комплектуват с документите.
 
Става наистина забавно. Но наистина е смешно да кажеш, че не може. Но... явно не съм запознат с PDF неговите 1024 спецификации :)
 
lamerko каза:
Става наистина забавно. Но наистина е смешно да кажеш, че не може. Но... явно не съм запознат с PDF неговите 1024 спецификации :)

Понеже имам един файл за университета и е GB-ти намерих този аналог вадещ същите символи.

http://www.filedropper.com/-2015

Ако успеете да копирате текста кажете как сте го направили :)
 
lamerko каза:
Става наистина забавно. Но наистина е смешно да кажеш, че не може. Но... явно не съм запознат с PDF неговите 1024 спецификации :)

Давай тогава! ;)
 
Уви, не успявам да намеря и някакъв сайт който да обработи документа на OCR понеже е голям.
 
Проблема ми още е активен. Ако има някой, който е вещ да ми помогне, моля, нека сподели опит. :)
 
8403658p.png
 
То това едно на ръка. Ето ти повече информация.

9 0 obj
<</BaseFont/HZCJUS+TT8Et00/FontDescriptor 8 0 R/Type/Font
/FirstChar 1/LastChar 74/Widths[ 603 603 603 603 603 603 603 603 603 603 603 603 603 603 603
603 603 603 603 603 603 603 603 603 603 603 603 603 603 603 603
603 603 603 603 603 603 603 603 603 603 603 603 603 603 603 603
603 603 603 603 603 603 603 603 603 603 603 603 603 603 603 603
603 603 603 603 603 603 603 603 603 603 603]
/Encoding 369 0 R/Subtype/TrueType>>
endobj
369 0 obj
<</Type/Encoding/BaseEncoding/WinAnsiEncoding/Differences[
1/Ii/ze/be/ii/er/acyril/te/ie/el/en/space/es/pecyril/hard/tse/hyphen/em/ocyril/two/zero/one/five/Ze/Be/Er/Acyril/Te/Ie/El/En/Es/Pecyril/Hard/Ka/Che/I/parenleft/Ucyril/Ve/parenright/ge/ucyril/ve/shcha/ka/Ge/period/che/four/comma/ia/de/Ocyril/De/numero/colon/Ia/Em/Kha/Zhe/Sha/Iu/Ef/Iibreve/Tse/Soft/three/Shcha/six/seven/eight/nine/slash/iibreve]>>
endobj
8 0 obj
<</Type/FontDescriptor/FontName/HZCJUS+TT8Et00/FontBBox[0 -192 602 789]/Flags 4
/Ascent 789
/CapHeight 789
/Descent -192
/ItalicAngle 0
/StemV 90
/MissingWidth 602
/FontFile2 367 0 R>>
endobj
2 0 obj
<<

http://pastebin.com/hjKFQLd4
 
И аз го четох но уви файда не открих. Имаше преди някакво добавяне на тагове за да се появи вместо къстъм някакъв друг енкодинг но уви отново не се получава. Никой ли не може да даде малко акъл? Само ОСR ли е решението и ако да дайте сайт обработващ големи файлове.
 
Явно нямате идеи и предложения как да взема текста... Наистина имам нужда от помощ по темата.
 

Back
Горе