Misdaadkaart.nl wil nieuwe website
WIj overwegen, om ook een buitenlandse versie van misdaadkaart.nl te maken. Om dit te realiseren, moet er wel het e.e.a. gebeuren. Waar ik mee zou willen starten, is jou de opdracht geven om het crawlen van deze buitenlandse misdaaddata en het verwerken en verrijken van deze data, te realiseren.
Dus eindproduct voor dit deelproject moet zijn:
* een XML-feed met daarin gestructureerde buitenlandse misdaaddata
* het wegschrijven van deze misdaaddata in een mysql-database
De manier om dit te doen is:
1) Crawlen van buitenlandse websites met misdaadnieuws
- We hebben inmiddels een stuk of 10 RSS-feeds verzameld van politiekorpsen en andere nieuwsdiensten, waar politienieuws op beschikbaar is.
- RSS-feeds zijn natuurlijk niet voldoende, want daarin staat niet de fulltext van het bericht. Daarvoor hebben we in het verleden een CRAWLER ontwikkeld die al deze 10 feeds crawlt en van full text voorziet.
2) Meta-data
We hebben dus al een stuk of 10 xml-feeds met fulltextdata die elke 15 minuten wordt geupdate. De vervolgstap is nu, dat we deze xml-feeds in een mysql-database gaan opslaan en verder gaan verrijken met metadata.
3) Opschoning en ontdubbeling
Goed, dus we hebben nu het bericht, de metadata, en de classificering. Dan is de laatste stap het opschonen van het bericht (in sommige xml-feeds staat een hoop overbodige html), en het ontdubbelen. Dat ontdubbelen moet elke ochtend rond 06.00 gebeuren. Het kan namelijk zijn, dat 1 bericht meerdere keren in de database staat, omdat we meerdere bronnen gebruiken. 1 keer per dag zou dus het systeem alle berichten van de vorige dag moeten checken, of daar berichten bij staan die in dezelfde plaats in dezelfde straat hebben plaatsgevonden. Als dat het geval is, betekent dat 99.9% zeker dat het gaat om een dubbel bericht. 1 van de 2 moet dan verwijderd worden.
Goed, een uitgebreid en lang verhaal, maar ik hoop dat e.e.a duidelijk is. Ben benieuwd naar jullie reacties! Verdere detailbeschrijvingen lever ik op aanvraag.
UIteraard is dit een BETAALDE opdracht! Meer contact kan ook via [email protected].
Gewijzigd op 01/01/1970 01:00:00 door RJ de Heer
Graag meer informatie. PM me...
Is het onbetaald of is er een vergoeding? en hoeveel ongeveer?
Graag zou ik willen weten hoe ik contact kan opnemen
vespino schreef op 01.12.2009 16:12:
Graag meer informatie. PM me...
Hi, je kunt mij rechtstreeks bereiken op [email protected] .