Ik ben bezig met het automatiseren van gepubliceerde standen in PDF formaat te importeren in mijn eigen database. Het volgende heb ik al:
Downloaden van .pdf
Converteren van .pdf -> .txt
Filteren van .txt
Dan houd ik het volgende over:
Om de gegevens in een database op te slaan moet ik deze uit elkaar halen. Hoe kan ik dit nu het beste doen? Waar dacht ik zelf aan:
Optie #1
1. Zoek naar eerste spatie -> van 0 tot eerste spatie = Wedstrijdnummer
2. Zoek naar "-" -> van spatie tot "-" = Thuis team
3. Zoek naar volgende (2de) "-" -> van streep #1+1 tot #2 -1 = Uit team
4. streep #2 -1 = Thuis stand
5. streep #2 + 1 = Uit stand
6. streep #2 +2 tot eind = Datum
Optie #2
1. Vervang alle spatie reeksen langer dan 2 door ;
2. Split op ;
Resultaat moet worden:
Optie #1 zal me waarschijnlijk nog wel lukken alleen ben ik bang dat het veel makkelijker kan en dat het een performance killer is. Optie #2 lijkt mij de beste alleen weet ik niet hoe
Downloaden van .pdf
Converteren van .pdf -> .txt
Filteren van .txt
Dan houd ik het volgende over:
code:
1
2
3
4
5
| [1] => Hoofdklasse afd 1 [2] => 1840 BC LEERDAM 2 -WORMENSE SV 1 4-4 23/09/2006 16:00 [3] => 1837 OSM BADMINTON 2 -BV HOUTEN 1 5-3 24/09/2006 10:00 [4] => 1838 LEUSDER BC 2 -IDUNA BC 4 3-5 24/09/2006 13:30 [5] => 1839 AMERSFOORT 12 -AMERSFOORT 9 5-3 24/09/2006 13:00 |
Om de gegevens in een database op te slaan moet ik deze uit elkaar halen. Hoe kan ik dit nu het beste doen? Waar dacht ik zelf aan:
Optie #1
1. Zoek naar eerste spatie -> van 0 tot eerste spatie = Wedstrijdnummer
2. Zoek naar "-" -> van spatie tot "-" = Thuis team
3. Zoek naar volgende (2de) "-" -> van streep #1+1 tot #2 -1 = Uit team
4. streep #2 -1 = Thuis stand
5. streep #2 + 1 = Uit stand
6. streep #2 +2 tot eind = Datum
Optie #2
1. Vervang alle spatie reeksen langer dan 2 door ;
2. Split op ;
Resultaat moet worden:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
| [1] => Array ( [0] => Hoofdklasse afd 1 ) [2] => Array ( [0] => 1840 [1] => BC LEERDAM 2 [2] => WORMENSE SV 1 [3] => 4 [4] => 4 [5] => 23/09/2006 16:00 ) [3] => Array ( [0] => 1837 [1] => OSM BADMINTON 2 [2] => BV HOUTEN 1 [3] => 5 [4] => 3 [5] => 24/09/2006 10:00 ) [4] => Array ( [0] => 1838 [1] => LEUSDER BC 2 [2] => IDUNA BC 4 [3] => 3 [4] => 5 [5] => 24/09/2006 13:30 ) [5] => Array ( [0] => 1839 [1] => AMERSFOORT 12 [2] => AMERSFOORT 9 [3] => 5 [4] => 3 [5] => 24/09/2006 13:00 ) |
Optie #1 zal me waarschijnlijk nog wel lukken alleen ben ik bang dat het veel makkelijker kan en dat het een performance killer is. Optie #2 lijkt mij de beste alleen weet ik niet hoe