PHP - Tag ophalen die om tekst heen zit.

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Top Low-Code Developer Gezocht!

Bedrijfsomschrijving Unieke Kansen, Uitstekende Arbeidsvoorwaarden & Inspirerend Team Wij zijn een toonaangevende, internationale organisatie die de toekomst van technologie vormgeeft door het creëren van innovatieve en baanbrekende oplossingen. Ons succes is gebaseerd op een hecht en gepassioneerd team van professionals die altijd streven naar het overtreffen van verwachtingen. Als jij deel wilt uitmaken van een dynamische, vooruitstrevende en inspirerende werkomgeving, dan is dit de perfecte kans voor jou! Functieomschrijving Als Low-Code Developer ben je een cruciaal onderdeel van ons team. Je werkt samen met collega's uit verschillende disciplines om geavanceerde applicaties te ontwikkelen en te optimaliseren met behulp van Low-code

Bekijk vacature »

Jordy Suos

Jordy Suos

09/09/2010 15:01:09
Quote Anchor link
Op dit moment ben ik bezig met en web-crawler (spider) waarmee ik websites scan op bepaalde trefwoorden. Nou zit ik in de laatste fase, ik haal content op met get_content_file('url') en de output insert ik vervolgens in de database.

Nou moet ik het gedeelte dat om het gevonden keyword heenzit bijvoorbeeld in een advertentie of vacature alleen inserten.
Verduidelijking: Scan naar pagina met content, moet de inhoudt hebben van de div waar het desbetreffende trefwoord in staat.
Ik weet dat ik dit moet doen met DOM Document maar ben daar nog een leek in.

CODE:



$str = file_get_contents($page_data["url"]);

if(strpos($str, $find) == true)
{
echo $page_data["referer_url"]. ' - gevonden';

$keywords = $_POST['keywords'];
if($page_data["header"]){
echo "<table border='1' >";
echo "<tr><td width='300'>Status:</td><td width='500'> ".strtok($page_data["header"], "\n")."</td></tr>";}
else "<table border='1' >";

// PRINT EERSTE LIJN

echo "<tr><td>Page requested:</td><td> ".$page_data["url"]."</td></tr>";
// PRINT STATUS WEBSITE

// PRINT WEBPAGINA
echo "<tr><td>Referer-page:</td><td> ".$page_data["referer_url"]."</td></tr>";

// CONTENT ONTVANGEN?
if ($page_data["received"]==true)
echo "<tr><td>Content received: </td><td>".$page_data["bytes_received"] / 8 . " Kbytes</td></tr></table>";
else
{
echo "<tr><td>Content:</td><td>Not received</td></tr></table>";
}

$domain = $_POST['domain'];
$link = mysql_connect('localhost', 'crawler', 'password');

if (!$link)
{
die('Could not connect: ' . mysql_error());
}

mysql_select_db("crawler");
if(empty($page_data["referer_url"]))
$page_data["referer_url"] = $page_data["url"];

strip_tags($str, '<p><b>');

mysql_query("INSERT INTO crawler (id, domain, url, keywords, data) VALUES ('', '".$page_data["referer_url"]."', '".$page_data["url"]."', '".$keywords."', '".mysql_real_escape_string($str) . "' )");

echo "<br><br>";
echo str_pad(" ", 5000); // "Force flush", workaround
flush();

}

Ideeën?
 
Er zijn nog geen reacties op dit bericht.



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.