Ik ben bezig met het automatiseren van gepubliceerde standen in PDF formaat te importeren in mijn eigen database. Het volgende heb ik al:
Downloaden van .pdf
Converteren van .pdf -> .txt
Filteren van .txt
Dan houd ik het volgende over:
Om de gegevens in een database op te slaan moet ik deze uit elkaar halen. Hoe kan ik dit nu het beste doen? Waar dacht ik zelf aan:
Optie #1
1. Zoek naar eerste spatie -> van 0 tot eerste spatie = Wedstrijdnummer
2. Zoek naar "-" -> van spatie tot "-" = Thuis team
3. Zoek naar volgende (2de) "-" -> van streep #1+1 tot #2 -1 = Uit team
4. streep #2 -1 = Thuis stand
5. streep #2 + 1 = Uit stand
6. streep #2 +2 tot eind = Datum
Optie #2
1. Vervang alle spatie reeksen langer dan 2 door ;
2. Split op ;
Resultaat moet worden:
Optie #1 zal me waarschijnlijk nog wel lukken alleen ben ik bang dat het veel makkelijker kan en dat het een performance killer is. Optie #2 lijkt mij de beste alleen weet ik niet hoe
Downloaden van .pdf
Converteren van .pdf -> .txt
Filteren van .txt
Dan houd ik het volgende over:
code:
1
2
3
4
5
| [1] => Hoofdklasse afd 1
[2] => 1840 BC LEERDAM 2 -WORMENSE SV 1 4-4 23/09/2006 16:00
[3] => 1837 OSM BADMINTON 2 -BV HOUTEN 1 5-3 24/09/2006 10:00
[4] => 1838 LEUSDER BC 2 -IDUNA BC 4 3-5 24/09/2006 13:30
[5] => 1839 AMERSFOORT 12 -AMERSFOORT 9 5-3 24/09/2006 13:00 |
Om de gegevens in een database op te slaan moet ik deze uit elkaar halen. Hoe kan ik dit nu het beste doen? Waar dacht ik zelf aan:
Optie #1
1. Zoek naar eerste spatie -> van 0 tot eerste spatie = Wedstrijdnummer
2. Zoek naar "-" -> van spatie tot "-" = Thuis team
3. Zoek naar volgende (2de) "-" -> van streep #1+1 tot #2 -1 = Uit team
4. streep #2 -1 = Thuis stand
5. streep #2 + 1 = Uit stand
6. streep #2 +2 tot eind = Datum
Optie #2
1. Vervang alle spatie reeksen langer dan 2 door ;
2. Split op ;
Resultaat moet worden:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
| [1] => Array
(
[0] => Hoofdklasse afd 1
)
[2] => Array
(
[0] => 1840
[1] => BC LEERDAM 2
[2] => WORMENSE SV 1
[3] => 4
[4] => 4
[5] => 23/09/2006 16:00
)
[3] => Array
(
[0] => 1837
[1] => OSM BADMINTON 2
[2] => BV HOUTEN 1
[3] => 5
[4] => 3
[5] => 24/09/2006 10:00
)
[4] => Array
(
[0] => 1838
[1] => LEUSDER BC 2
[2] => IDUNA BC 4
[3] => 3
[4] => 5
[5] => 24/09/2006 13:30
)
[5] => Array
(
[0] => 1839
[1] => AMERSFOORT 12
[2] => AMERSFOORT 9
[3] => 5
[4] => 3
[5] => 24/09/2006 13:00
) |
Optie #1 zal me waarschijnlijk nog wel lukken alleen ben ik bang dat het veel makkelijker kan en dat het een performance killer is. Optie #2 lijkt mij de beste alleen weet ik niet hoe