[java] html in xml uitlezen - Softwareontwikkeling

dinsdag 16 mei 2006 20:54

Acties:

Topicstarter

Ik lees de volgende remote file:

XML:

<?xml version="1.0" ?> 
<data>
  <veld GgvTypIdt="5" VryVldIdt="106" VldTypIdt="2" VlgNum="9" RepVlgNum="1" AdrPst="0">
    <Nam>Bijzonderheden</Nam>
    <Lbl>Bijzonderheden</Lbl>
    <LblLay>1</LblLay>
    <ToeLay>O</ToeLay>
    <VldLay>O</VldLay>
    <WrdLay>N</WrdLay>
    <WrdBld>0</WrdBld>
    <WrdIta>0</WrdIta>
    <Txt>
      <span>
        <table class="noborder" width="100%">
          <tbody>
            <tr>
              <td>Secretaris</td>
              <td>vervangen </td>
            </tr>
            <tr>
              <td> </td>
              <td> </td>
            </tr>
           </tbody>
        </table>
      </span>
    </Txt>
  </veld>
  ...
</data>

als volgt in:

Java:

// filename is juist
URL url = new URL( filename );
URLConnection conn = url.openConnection( );
conn.setUseCaches( false );

DataInputStream in = new DataInputStream( conn.getInputStream( ) );

DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance( );
DocumentBuilder docBuilder = docBuilderFactory.newDocumentBuilder( );
contentItem = docBuilder.parse( in );

in.close( );

...

Element root = contentItem.getDocumentElement( );

NodeList fieldList = root.getElementsByTagName( "veld" );

for ( int i = 0; i < fieldList.getLength( ); i++ )
{
    Element fieldNode = (Element)fieldList.item( i );

    ....

    NodeList fieldLabelList = fieldNode.getElementsByTagName( "Lbl" );
    Element fieldLabelElement = (Element)fieldLabelList.item( 0 );
    NodeList fieldLabelText = fieldLabelElement.getChildNodes( );

    NodeList fieldTxtList = fieldNode.getElementsByTagName( "Txt" );
    Element fieldTxtElement = (Element)fieldTxtList.item( 0 );
    NodeList fieldTxtText = fieldTxtElement.getChildNodes( );

    System.out.println( ( (Node)fieldTxtText.item( 0 ) ).getNodeValue( ).trim( ) ) + " = " + ( (Node)fieldTxtText.item( 0 ) ).getNodeValue( ).trim( ) ) );

    ....
}

Het is me uiteraard duidelijk dat ie de html tags als xml ziet en een fout genereert, omdat ik het gehele Txt blok als tekst probeer te lezen.
Ik kan aan het xml bestand dus niks zelf meer veranderen. Ik heb wel oplossingen gevonden, maar die sloegen niet exact op mijn probleem, b.v. deze.

Nu heb ik ook iets gevonden over entity resolvers, maar hier kan ik niet echt over vinden of deze voor mijn probleem bruikbaar zijn. Weet iemand hoe ik dit binnen mijn Java code kan oplossen?

woensdag 17 mei 2006 13:41

Acties:

ari3

Omdat HTML vaak geen valide XML is kun je de Node onder het Txt-element als node van het type DocumentFragment uitlezen.

"Kill one man, and you are a murderer. Kill millions of men, and you are a conqueror. Kill them all, and you are a god." -- Jean Rostand

zaterdag 20 mei 2006 18:29

Acties:

Krooswijk.com

Topicstarter

sorry maar ik heb niet idee dat deze mijn probleem oplost als de java doc mag geloven
heb je ergens informatie over een toepassing hiervan?

zondag 21 mei 2006 14:08

Acties:

ronaldmathies

Het is mogelijk om het HTML deel te omvatten met een <[[CDATA section. Dan wordt dit als normale tekst behandeld en kan je deze in één slag inlezen.

3015 Wp-z 5360 Wp-nno op 2 x SMA-SB3600 TL-21, Warmtepomp: ERSC-VM2CR2 / PUHZ-SHW140 YHA, WTW Q350, EV Kia Ev6 GT-Line

maandag 22 mei 2006 23:31

Acties:

Krooswijk.com

Topicstarter

Daarvan ben ik op de hoogte, maar is dat ook mogelijk om dat bij een externe file te doen naderhand in java? had het er dan al niet eigenlijk in moeten staan? Dit is het bestand en gaat om het gedeelte onder bijzonderheden: xml bestand

[ Voor 2% gewijzigd door Krooswijk.com op 23-05-2006 08:47 . Reden: foute link ]

maandag 22 mei 2006 23:42

Acties:

BalusC

Carpe diem

Je kunt het bestand toch wel bufferen en wat replaces doen met <[[CDATA[

dinsdag 23 mei 2006 23:21

Acties:

Krooswijk.com

Topicstarter

voor diegene die nog geinteresseerd ik heb het op kunnen lossen met de zeer handige java library nanoxml, waar je van elke node de toString kan opvragen en wegschrijven...

dinsdag 23 mei 2006 23:29

Acties:

r5d