PDF omzetten naar html
De PDF staat op een externe site en bevat een overschot aan informatie. Ik wil er dus vanalles uitfilteren, maar blijf op dit moment vastzitten met onleesbare tekst.
Het resultaat wat ik nu heb is hier te zien.
Een onleesbare brei dat via FOPEN verkregen is uit deze PDF. (voor deze gelegenheid maar even op de eigen site gekopieerd)
Bestaat er een functie die dit in leesbare tekst omzet?
Ik heb de url van mijn pdf-je er een paar minuten geleden ingetypt, en hij is nu nog "in progress"
Naar mijn idee hoeft het toch niet zo'n ingewikkelde bewerking te zijn. Google kan toch ook de tekst van pdf-jes lezen en indexeren??
edit:
Nou, het Adobe tooltje komt er niet uit ben ik bang. Bovendien is het eigenlijk de bedoeling dat de pdf on the fly omgezet wordt, aangezien de inhoud regelmatig wijzigt.
Gewijzigd op 01/01/1970 01:00:00 door Josh
Toch wel raar dat je wel een PDF via PHP kan creëren, en andersom zou niet lukken?
Ik heb ook de PHP-functionlist al doorgelopen, maar zo heel veel verstand heb ik er dus niet van dat ik daar wat heb kunnen vinden.
Is de tekst die ik nu heb niet een bepaalde binaire codering die om te zetten is?
Quote:
Toch wel raar dat je wel een PDF via PHP kan creëren, en andersom zou niet lukken?
Nee, niet echt. PDF is een formaat bedoeld puur om te kunnen lezen, als uitvoer formaat, niet om makkelijk te kunnen bewerken, maar om precieze bestanden te kunnen lezen.
Arend schreef op 06.11.2006 01:01:
Nee, niet echt. PDF is een formaat bedoeld puur om te kunnen lezen, als uitvoer formaat, niet om makkelijk te kunnen bewerken, maar om precieze bestanden te kunnen lezen.
Dat kan ik snappen, maar wat ik dan nog niet begrijp is waarom Google PDF-teksten wel prima kan indexeren
Code (php)
1
%PDF-1.4 % 1776 0 obj<> endobj xref 1776 29 0000000016 00000 n 0000001557 00000 n 0000000896 00000 n 0000001815 00000 n 0000002164 00000 n 0000002210 00000 n 0000002376 00000 n 0000002542 00000 n 0000002707 00000 n 0000003088 00000 n 0000003530 00000 n 0000004054 00000 n 0000004295 00000 n 0000004518 00000 n 0000004747 00000 n 0000004825 00000 n 0000005797 00000 n 0000006821 00000 n 0000006859 00000 n 0000007869 00000 n 0000008952 00000 n 0000010000 00000 n 0000010971 00000 n 0000012034 00000 n 0000013099 00000 n 0000015770 00000 n 0000015833 00000 n 0000015895 00000 n 0000001344 00000 n trailer <<4f5d91f330ff62488e1938369d39aad0>]>> startxref 0 %%EOF 1778 0 obj<>stream xb```b`` g`e`?| l , ;X`WzHMlBP2kntr6x'\ fh3jgsh4g^Niq L@b Ps i9HK+XpCpIg<vrJ|1U' a?PP8AqBSIF oatJ1&?ctel@)%@:A H/c`e'Oe`{] ?=4yGyO0ivy q:K@f1 endstream endobj 1804 0 obj<>/W[1 1 1]/Type/XRef/Index[171 1605]>>stream x0 4' 4mi<xC<x'm6 endstream endobj 1777 0 obj<>>>/LastModified(D:20061031120521)/MarkInfo<>>> endobj 1779 0 obj<>/Font<>/ProcSet[/PDF/Text]/ExtGState<>>>/StructParents 0>> endobj 1780 0 obj[1781 0 R 1782 0 R 1783 0 R] endobj 1781 0 obj<>/Subtype/Link/A 1803 0 R/StructParent 1>> endobj 1782 0 obj<>/Subtype/Link/A 1802 0 R/StructParent 2>> endobj 1783 0 obj<>/Subtype/Link/A 1801 0 R/StructParent 3>> endobj 1784 0 obj<> endobj 1785 0 obj<> endobj 1786 0 obj<> endobj 1787 0 obj<> endobj 1788 0 obj<> endobj 1789 0 obj<> endobj 1790 0 obj<> endobj 1791 0 obj<>stream HN1)|Y*|R QE7$$Rc';a_xof]0rxx48&#'SR>]zQUeqXZ&pW='BJ'{}V}/`xEc?a] L57 ~dB;\Qc:I|?
Moet ik hier iets van snappen?
Maar wat je wel moet begrijpen is dat pdf een print formaat is, bevat eigenlijk alleen maar vector informatie...