Ik ben bezig met een Microsoft. NET Application in C # voor web-harvesting, Web schrapen, Web Data Extraction, screen scraping, etc. wat je maar wilt noemen. Voor het ontleden van HTML, ga ik een poging om HTML Agility Pack te nemen, maar het is niet zo eenvoudig als ik dacht dat het zou zijn. Ik heb ook een aantal specificaties en foto's van wat ik heb tot nu toe en hoopte om uw mening te krijgen over hoe ik zou kunnen gaan?
Afbeeldingen:
http://img69.imageshack.us/img69/8880/webharvester1.png
http://img36.imageshack.us/img36/9563/webharvester2.png
Mijn doel is om een zeer gebruiksvriendelijk point-and-click applicatie voor het downloaden van gegevens en beelden van het web. Ik wil graag HTML-pagina's via de web browser te laden, en de uitvoer van de geparsed data en beeld links in het tekstvak. De gebruiker kan aangeven welke HTML-tags ze willen en download vervolgens de gegevens in het net. Tot slot, de gegevens exporteren naar welk formaat ze nodig hebben.
1. Maak HTTP-verzoeken op de website en naar beneden trekken van de opmaak van de URL.
- Class WebClient
- Class HttpWebRequest
- Class HttpWebResponse
2. Parse HTML-en output van gegevens en afbeeldingen verwijzingen in tekst-editor
- HTML Agility Pack
- Xpath
3. Sla gegevens in verschillende formaten
- Microsoft Excel and Access
- Databases (MySQL)
Alvast bedankt voor uw ideeën! Sorry als mijn Nederlands is niet erg goed, ik ben met behulp van Google vertalen.
Afbeeldingen:
http://img69.imageshack.us/img69/8880/webharvester1.png
http://img36.imageshack.us/img36/9563/webharvester2.png
Mijn doel is om een zeer gebruiksvriendelijk point-and-click applicatie voor het downloaden van gegevens en beelden van het web. Ik wil graag HTML-pagina's via de web browser te laden, en de uitvoer van de geparsed data en beeld links in het tekstvak. De gebruiker kan aangeven welke HTML-tags ze willen en download vervolgens de gegevens in het net. Tot slot, de gegevens exporteren naar welk formaat ze nodig hebben.
1. Maak HTTP-verzoeken op de website en naar beneden trekken van de opmaak van de URL.
- Class WebClient
- Class HttpWebRequest
- Class HttpWebResponse
2. Parse HTML-en output van gegevens en afbeeldingen verwijzingen in tekst-editor
- HTML Agility Pack
- Xpath
3. Sla gegevens in verschillende formaten
- Microsoft Excel and Access
- Databases (MySQL)
Alvast bedankt voor uw ideeën! Sorry als mijn Nederlands is niet erg goed, ik ben met behulp van Google vertalen.