PDF omzetten naar html

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Josh

Josh

05/11/2006 22:51:00
Quote Anchor link
Zou er een mogelijkheid bestaan om de tekstuele inhoud van een PDF in een string te zetten?

De PDF staat op een externe site en bevat een overschot aan informatie. Ik wil er dus vanalles uitfilteren, maar blijf op dit moment vastzitten met onleesbare tekst.

Het resultaat wat ik nu heb is hier te zien.

Een onleesbare brei dat via FOPEN verkregen is uit deze PDF. (voor deze gelegenheid maar even op de eigen site gekopieerd)

Bestaat er een functie die dit in leesbare tekst omzet?
 
PHP hulp

PHP hulp

26/12/2024 14:00:48
 
Jan Koehoorn

Jan Koehoorn

05/11/2006 22:56:00
Quote Anchor link
Adobe heeft een online PDF decoder
 
Josh

Josh

05/11/2006 23:06:00
Quote Anchor link
Ah... dat kan wel eens een waanzinnig handig tooltje zijn.
Ik heb de url van mijn pdf-je er een paar minuten geleden ingetypt, en hij is nu nog "in progress"

Naar mijn idee hoeft het toch niet zo'n ingewikkelde bewerking te zijn. Google kan toch ook de tekst van pdf-jes lezen en indexeren??

edit:
Nou, het Adobe tooltje komt er niet uit ben ik bang. Bovendien is het eigenlijk de bedoeling dat de pdf on the fly omgezet wordt, aangezien de inhoud regelmatig wijzigt.
Gewijzigd op 01/01/1970 01:00:00 door Josh
 
Jan Koehoorn

Jan Koehoorn

05/11/2006 23:31:00
Quote Anchor link
Ik kreeg vrij veel resultaten met pdf to text
 
Josh

Josh

06/11/2006 00:01:00
Quote Anchor link
Nou, ik had al een paar avondjes gegoogeld en ik heb ook nu weer bijna alle 718.000 zoekresultaten nagelopen, maar heb helaas nog niet iets kunnen vinden waar ik met php overweg kan.

Toch wel raar dat je wel een PDF via PHP kan creëren, en andersom zou niet lukken?

Ik heb ook de PHP-functionlist al doorgelopen, maar zo heel veel verstand heb ik er dus niet van dat ik daar wat heb kunnen vinden.

Is de tekst die ik nu heb niet een bepaalde binaire codering die om te zetten is?
 
Andries Louw Wolthuizen

Andries Louw Wolthuizen

06/11/2006 00:19:00
Quote Anchor link
Ik denk niet dat je er een zult vinden, er zijn erg veel mensen die exact het zelfde willen (ook met PHP), en voor zover ik kan lezen komen zij of op een .exe programma uit, of op een online PDF -> text converter (zoals http://www.adobe.com/products/acrobat/access_onlinetools.html).
 
Arend a

Arend a

06/11/2006 01:01:00
Quote Anchor link
Quote:
Toch wel raar dat je wel een PDF via PHP kan creëren, en andersom zou niet lukken?


Nee, niet echt. PDF is een formaat bedoeld puur om te kunnen lezen, als uitvoer formaat, niet om makkelijk te kunnen bewerken, maar om precieze bestanden te kunnen lezen.
 
Josh

Josh

06/11/2006 09:51:00
Quote Anchor link
Arend schreef op 06.11.2006 01:01:
Nee, niet echt. PDF is een formaat bedoeld puur om te kunnen lezen, als uitvoer formaat, niet om makkelijk te kunnen bewerken, maar om precieze bestanden te kunnen lezen.


Dat kan ik snappen, maar wat ik dan nog niet begrijp is waarom Google PDF-teksten wel prima kan indexeren
 
B a s
Beheerder

B a s

06/11/2006 10:55:00
Quote Anchor link
Toevoeging aan dit topic, als je van HTML naar PDF wil, dan is deze website zeker een aanrader (voor de mensen die dit topic vinden met Google): http://digitaljunkies.ca/dompdf/
 
Rens Rikkerink

Rens Rikkerink

05/04/2008 12:42:00
Quote Anchor link
Een gedeelte van de (gedecodeerde) pdf:
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
%PDF-1.4 % 1776 0 obj<> endobj xref 1776 29 0000000016 00000 n 0000001557 00000 n 0000000896 00000 n 0000001815 00000 n 0000002164 00000 n 0000002210 00000 n 0000002376 00000 n 0000002542 00000 n 0000002707 00000 n 0000003088 00000 n 0000003530 00000 n 0000004054 00000 n 0000004295 00000 n 0000004518 00000 n 0000004747 00000 n 0000004825 00000 n 0000005797 00000 n 0000006821 00000 n 0000006859 00000 n 0000007869 00000 n 0000008952 00000 n 0000010000 00000 n 0000010971 00000 n 0000012034 00000 n 0000013099 00000 n 0000015770 00000 n 0000015833 00000 n 0000015895 00000 n 0000001344 00000 n trailer <<4f5d91f330ff62488e1938369d39aad0>]>> startxref 0 %%EOF 1778 0 obj<>stream xb```b`` g`e`?| l  , ;X`WzHMlBP2kntr6x'\ fh3jgsh4g^Niq L@b Ps i9HK+XpCpIg<vrJ|1U' a?PP8AqBSIF  oatJ1&?ctel@)%@:A H/c`e'Oe`{] ?=4yGyO0ivy q:K@f1 endstream endobj 1804 0 obj<>/W[1 1 1]/Type/XRef/Index[171 1605]>>stream x0 4' 4mi<xC<x'm6 endstream endobj 1777 0 obj<>>>/LastModified(D:20061031120521)/MarkInfo<>>> endobj 1779 0 obj<>/Font<>/ProcSet[/PDF/Text]/ExtGState<>>>/StructParents 0>> endobj 1780 0 obj[1781 0 R 1782 0 R 1783 0 R] endobj 1781 0 obj<>/Subtype/Link/A 1803 0 R/StructParent 1>> endobj 1782 0 obj<>/Subtype/Link/A 1802 0 R/StructParent 2>> endobj 1783 0 obj<>/Subtype/Link/A 1801 0 R/StructParent 3>> endobj 1784 0 obj<> endobj 1785 0 obj<> endobj 1786 0 obj<> endobj 1787 0 obj<> endobj 1788 0 obj<> endobj 1789 0 obj<> endobj 1790 0 obj<> endobj 1791 0 obj<>stream HN1)|Y*|R QE7$$Rc';a_xof]0rxx48&#'SR>]zQUeqXZ&pW='BJ'{}V}/`xEc?a] L57 ~dB;\Qc:I|?

Moet ik hier iets van snappen?
 
Bart van der veen

bart van der veen

05/04/2008 12:48:00
Quote Anchor link
adobe acrobat pro 8.0 zou een oplossing kunnen zijn is alleen niet "on the fly".
Maar wat je wel moet begrijpen is dat pdf een print formaat is, bevat eigenlijk alleen maar vector informatie...
 



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.