[php] Uitlezen van UTF-8 bron via socket

donderdag 15 december 2005 00:10

Acties:

Topicstarter

Ik moet met een socket een bron uitlezen. Dit zou geen probleem hoeven zijn, ware het niet dat de server altijd UTF-8 oplevert. Het gaat om een html bron, via http server en ook al haal ik utf-8 uit accept-charset, de server blijft dat sturen.

Goed, ik lees de bron op de volgende manier uit (versimpeld):

PHP:

    /**
     * Open socket and send header
     */
    $socket=fsockopen($url['host'],80);
    
    fwrite($socket,$header);
    
    
    /**
     * Start reading all the responses from the server
     */
    
    /**
     * Read until we get EOF from the server
     */
    $tmp="";
    while (!feof($socket)) {
      $tmp.=fgets($socket, 1024);
    }
    
    fclose($socket);

    echo $tmp;

Probleem is nu dat zodra ik die $tmp dump ik af en toe wat rare tekens zie opduiken waarvan ik denk dat ze door de UTF-8 encoding komen. Aan het begin van de body zie ik "1ff8" en halverwege een paar keer "2000".

Ik heb al het een en ander geprobeerd om de tekst om te zetten naar gewone ASCII, maar dit heeft nog niet mogen baten. Het gebruik van de multi-byte functies is helaas uitgesloten omdat dit niet ondersteund wordt op de server.

Wel weet ik dat dit probleem niet optrad bij het gebruik van file_get_contents. Deze functie kan ik echter niet gebruiken omdat ik controle moet hebben over de verzonden headers.

donderdag 15 december 2005 00:13

Acties:

Osiris

Die gekke tekens komen niet door UTF-8, maar door de gebruikte Transfer-Encoding (chunked)..

Lees dit stuk er maar eens over

donderdag 15 december 2005 00:15

Acties:

frickY

Welkom in de wondere wereld van HTTP1/1 met chunked transfer encoding

Met die trefwoorden moet je een stuk verder kunnen komen.

Die rare tekens die je ziet zijn in ieder geval hexadecimale getallen welke aangeven hoegroot het volgende blok, chunk, is.

Om jezelf de moeite te besparen een HTTP1/1 implementatie te schrijven, kun je ook file_get_contents() gebruiken om het bestand in te lezen, mits de http wrappers aanstaan

donderdag 15 december 2005 00:18

Acties:

Osiris

frickY schreef op donderdag 15 december 2005 @ 00:15:
Om jezelf de moeite te besparen een HTTP1/1 implementatie te schrijven, kun je ook file_get_contents() gebruiken om het bestand in te lezen, mits de http wrappers aanstaan

Nee, dat kan ie dus niet, aangezien ie custom headers heeft etc...

Misschien kan de TS kijken naar CURL. Custom header-meuk én een nette afhandeling door een nette PHP-lib

donderdag 15 december 2005 00:33

Acties:

b19a

Topicstarter

Bedankt!

* b19a past meteen headers naar HTTP/1.0 aan en ziet de "gekke" tekens verdwijnen!

donderdag 15 december 2005 00:38

Acties:

Osiris

Mjah, maar HTTP/1.0 ondersteunt de 'Host'-header weer niet, dus dan kun je problemen krijgen met hostname-based virtual hosts

Onderwerpen