Screen scraping met behulp van C # en. NET Framework.

Pagina: 1
Acties:
  • 648 views

Onderwerpen


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Ik ben bezig met een Microsoft. NET Application in C # voor web-harvesting, Web schrapen, Web Data Extraction, screen scraping, etc. wat je maar wilt noemen. Voor het ontleden van HTML, ga ik een poging om HTML Agility Pack te nemen, maar het is niet zo eenvoudig als ik dacht dat het zou zijn. Ik heb ook een aantal specificaties en foto's van wat ik heb tot nu toe en hoopte om uw mening te krijgen over hoe ik zou kunnen gaan?

Afbeeldingen:

http://img69.imageshack.us/img69/8880/webharvester1.png

http://img36.imageshack.us/img36/9563/webharvester2.png

Mijn doel is om een ​​zeer gebruiksvriendelijk point-and-click applicatie voor het downloaden van gegevens en beelden van het web. Ik wil graag HTML-pagina's via de web browser te laden, en de uitvoer van de geparsed data en beeld links in het tekstvak. De gebruiker kan aangeven welke HTML-tags ze willen en download vervolgens de gegevens in het net. Tot slot, de gegevens exporteren naar welk formaat ze nodig hebben.

1. Maak HTTP-verzoeken op de website en naar beneden trekken van de opmaak van de URL.
- Class WebClient
- Class HttpWebRequest
- Class HttpWebResponse

2. Parse HTML-en output van gegevens en afbeeldingen verwijzingen in tekst-editor
- HTML Agility Pack
- Xpath

3. Sla gegevens in verschillende formaten
- Microsoft Excel and Access
- Databases (MySQL)

Alvast bedankt voor uw ideeën! Sorry als mijn Nederlands is niet erg goed, ik ben met behulp van Google vertalen.

Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
En je concrete vraag is nu...? Je hebt een GUI bij elkaar geklikt en bent nu op zoek naar code? Of...?

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • 0 Henk 'm!

  • jip_86
  • Registratie: Juli 2004
  • Laatst online: 00:52
Gezien de opzet met punt 1, 2, 3 zou ik gaan voor een maak mijn huiswerk topic.

Acties:
  • 0 Henk 'm!

  • [ti]
  • Registratie: Februari 2000
  • Niet online
Kun je niet gewoon beter http://www.visualwebripper.com/ kopen?

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
RobIII schreef op dinsdag 28 februari 2012 @ 08:22:
En je concrete vraag is nu...? Je hebt een GUI bij elkaar geklikt en bent nu op zoek naar code? Of...?
Code? Op dit moment probeer ik HTML Agility Pack te gebruiken om de HTML te laden op de webpagina en weer te geven in het tekstvak.

C#:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
 // Load Web Browser
    private void Form6_Load(object sender, EventArgs e)
    {
        // Navigate to webpage
        webBrowser.Navigate("http://www.webopedia.com/TERM/H/HTML.html");

        // Save URL to memory
        SiteMemoryArray[count] = urlTextBox.Text; 

        // Load HTML from webBrowser
        HtmlWindow window = webBrowser.Document.Window; 
        string str = window.Document.Body.OuterHtml;

        // Extract tags using HtmlAgilityPack and display in textbox
        HtmlAgilityPack.HtmlDocument HtmlDoc = new HtmlAgilityPack.HtmlDocument();
        HtmlDoc.LoadHtml(str);

        HtmlAgilityPack.HtmlNodeCollection Nodes = HtmlDoc.DocumentNode.SelectNodes("//a");

        foreach (HtmlAgilityPack.HtmlNode Node in Nodes)
        {
            textBox2.Text += Node.OuterHtml + "\r\n";
        }

    }
Haha. Ik kan kopen dat je als ik het nodig om het te gebruiken, maar dit project is voor school.

[ Voor 0% gewijzigd door RobIII op 28-02-2012 17:56 . Reden: Code tags toegevoegd ]


Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Als je code post, gebruikt dan code tags a.u.b.
Verder: Ik zie nog steeds geen concrete vraag en we gaan geen code voor je schrijven (Kan iemand even...? / scriptrequest).

Neem even onze Quickstart door en open gerust een nieuw topic als dat dan nog nodig is, maar weet dus dat we hier niet zitten om voor jou je huiswerk te maken ;) (Huiswerktopics zijn niet per definitie fout!)

Offtopic: het is wel heel fijn als je niet met Google translate hoeft te werken; erg duidelijk is je topic zo niet ;)

[ Voor 7% gewijzigd door RobIII op 28-02-2012 18:03 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

Pagina: 1

Dit topic is gesloten.