[mysql] joinen op postcode range

woensdag 6 april 2005 11:17

MikroTik nerd

Volgens mij zijn de letters van de postcode niet zo interessant voor de lokatie.
Waarom splits je daarom de postcode kolom niet op in cijfers en letters ?

Edit: Bugger, weer te laat...

[ Voor 10% gewijzigd door lier op 06-04-2005 11:02 ]

Eerst het probleem, dan de oplossing

Acties:

woensdag 6 april 2005 11:36

Topicstarter

Nielsz schreef op woensdag 06 april 2005 @ 11:01:
Zowiezo moet je de lettercombinatie scheiden van de 4cijferige postcode.

moet? Ik heb er (tot nu toe) nog geen enkele reden voor gehad. Dat was alleen maar lastig geweest omdat ik het dan iedere keer dat ik het wilde gebruiken weer moest concatten. Maar ok, als het anders niet gaat werken, dan doe ik dat uiteraard.

anyways, deze opmerkingen helpen me niet veel verder, want ik heb die cijfers dus al apart opgeslagen en nog steeds is die query niet optimaal

Acties:

woensdag 6 april 2005 11:50

MikroTik nerd

Uit je verhaal bleek niet echt duidelijk dat je dat al gedaan had...
Inmiddels zie ik het (ook) wel staan.

Heb je een (samengestelde) index staan op de twee range velden ?

Eerst het probleem, dan de oplossing

Acties:

woensdag 6 april 2005 12:13

Topicstarter

lier schreef op woensdag 06 april 2005 @ 11:36:
Uit je verhaal bleek niet echt duidelijk dat je dat al gedaan had...
Inmiddels zie ik het (ook) wel staan.

tja, toch stond het er dus

Heb je een (samengestelde) index staan op de twee range velden ?

Ook dat staat in m'n openingspost hoor. Daar heb ik een volledige structure dump van de tabel neergezet.
Die heb ik dus en heb het ook zonder die samengestelde index geprobeerd (wat geen qua tijd op hetzelfde neerkwam)

Acties:

woensdag 6 april 2005 12:28

Software Architect

Werkt hier

Je hebt 13943 records in die data_main en je wilt voor alle records weten welke ranges eromheen zitten en vervolgens tel je al die combinaties. En dan ben je verbaasd dat het 2 seconden duurt?

Tenzij bovenstaande query-beschrijving precies is wat je wilt, denk ik niet dat je met deze query bereikt wat je in je openingspost beschrijft. Als je wilt bepalen in welke regio een gebruiker zich bevindt moet je ook die query testen en niet een query die iets heel anders doet, lijkt me.
Bij de query waar je test waar de gebruiker zich bevindt moet er natuurlijk nog een dm.userid = X bij je where...

Acties:

woensdag 6 april 2005 12:41

Topicstarter

ACM schreef op woensdag 06 april 2005 @ 12:13:
Je hebt 13943 records in die data_main en je wilt voor alle records weten welke ranges eromheen zitten en vervolgens tel je al die combinaties.

Nee, niet helemaal. Iedere postcode valt maar binnen 1 range. Dat is de grap nou juist; het is dus een 1:1 relatie. En ik tel niet zozeer de combinaties maar deed gewoon COUNT(*) omdat ik alleen wil weten hoe lang het duurt.

En dan ben je verbaasd dat het 2 seconden duurt?

Als ik SELECT COUNT(*) FROM data_main doe, dan praten we over honderste van een seconde. En ik verbaas me er niet zozeer over dat het 2 seconde duurt, want volgens die explain gaat ie per row in de data_main tabel alle rows van de postcodes tabel af - maar ik wil er dus naar toe dat ie in de gaten heeft dat die ranges uniek zijn en dat ie dus per row in de data_main tabel maar 1 row (de juiste) in de postcodes tabel beschouwd. En dan verwacht ik vervolgens dat we weer over honderste van een seconde praten ja

Tenzij bovenstaande query-beschrijving precies is wat je wilt, denk ik niet dat je met deze query bereikt wat je in je openingspost beschrijft. Als je wilt bepalen in welke regio een gebruiker zich bevindt moet je ook die query testen en niet een query die iets heel anders doet, lijkt me.

wat doe ik dan anders volgens jou?
nogmaals: het voorbeeld is slechts een simpele query, die alleen de snelheid en de aard van de JOIN moet testen; vandaar ook het gebruik van COUNT(*). En als dat werkt ga ik uiteraard een andere query gebruiken, maar volgens hetzelfde princiepe.

Bij de query waar je test waar de gebruiker zich bevindt moet er natuurlijk nog een dm.userid = X bij je where...

dat lijkt me logisch

Acties:

woensdag 6 april 2005 12:58

Software Architect

Werkt hier

marty schreef op woensdag 06 april 2005 @ 12:28:
Nee, niet helemaal. Iedere postcode valt maar binnen 1 range. Dat is de grap nou juist; het is dus een 1:1 relatie. En ik tel niet zozeer de combinaties maar deed gewoon COUNT(*) omdat ik alleen wil weten hoe lang het duurt.

Maar je telt alsnog wel 13k relaties.

Als ik SELECT COUNT(*) FROM data_main doe, dan praten we over honderste van een seconde.

Dat komt door de manier waarop MyIsam is opgezet, als je er een niet-indexable check bij doet (where trim(postcode) != '' ofzo) zal je zien dat het gelijk wat langer duurt. Of het dan de 2 seconden haalt durf ik niet te zeggen.

En ik verbaas me er niet zozeer over dat het 2 seconde duurt, want volgens die explain gaat ie per row in de data_main tabel alle rows van de postcodes tabel af

Dat kan je eigenlijk niet afleiden uit mysql's gebrekkige explain. In dit geval komt het er op neer dat blijkbaar alle postcode-ranges een keer gebruikt worden, maar volgens mij staat er niet dat je per record uit data_main alle ranges afgaat.

wat doe ik dan anders volgens jou?
nogmaals: het voorbeeld is slechts een simpele query, die alleen de snelheid en de aard van de JOIN moet testen; vandaar ook het gebruik van COUNT(*). En als dat werkt ga ik uiteraard een andere query gebruiken, maar volgens hetzelfde princiepe.

Maar je joint nu alle records van data_main met een postcode, dat is niet wat je uiteindelijk wilt doen, dus niet wat je nu zou moeten testen.

dat lijkt me logisch

En van die uitbreiding, met dm.userid = X erbij, is het belangrijk om te weten hoe het performt.

Acties:

Nielsz

marty schreef op woensdag 06 april 2005 @ 11:17:
[...]

moet? Ik heb er (tot nu toe) nog geen enkele reden voor gehad. Dat was alleen maar lastig geweest omdat ik het dan iedere keer dat ik het wilde gebruiken weer moest concatten. Maar ok, als het anders niet gaat werken, dan doe ik dat uiteraard.

anyways, deze opmerkingen helpen me niet veel verder, want ik heb die cijfers dus al apart opgeslagen en nog steeds is die query niet optimaal

Als je alleen '1234' opslaat ipv '1234 AB', dan kan je van het veld een int maken..

woensdag 6 april 2005 14:27

Acties:

woensdag 6 april 2005 14:56

Topicstarter

ACM schreef op woensdag 06 april 2005 @ 12:41:
[...]

Maar je telt alsnog wel 13k relaties.

Weet ik. Maar als ik de primary key van data_main op de primary key van postcodes join (met een LEFT JOIN) (btw, ik weet dat deze niets met elkaar te maken hebben, maar het gaat even om het idee - dat is namelijk ook een 1:1 relatie) dan duurt diezelfde query de verwachte honderste van een seconden.

Dat kan je eigenlijk niet afleiden uit mysql's gebrekkige explain. In dit geval komt het er op neer dat blijkbaar alle postcode-ranges een keer gebruikt worden, maar volgens mij staat er niet dat je per record uit data_main alle ranges afgaat.

jawel toch? mysql geeft toch aan dat ie alle 164 rows van die tabel beschouwd
anyways, als ik dus dit doe:

MySQL:

1
2
3

explain SELECT COUNT(*)
FROM data_main AS dm
    LEFT JOIN postcodes AS p ON p.postcode_id=dm.id

dan staat er bij rows 1 en duurt die query, zoals ik al zei, slechts hondersten van een seconden. Hetzelfde effect moet ook kunnen met die postcode ranges.

Maar je joint nu alle records van data_main met een postcode, dat is niet wat je uiteindelijk wilt doen, dus niet wat je nu zou moeten testen.

Dat is wel wat ik uiteindelijk wil doen. Ik ga straks grotere queries schrijven die moeten gaan zoeken in de user-data op niet geindexeerde velden. Dan heb ik dus wederom te maken met alle records van data_main.

En daarbij: het gaat me ook een beetje om het idee. Ik wil gewoon dat het lukt dat ie slechts 1 range pakt en ze niet allemaal af gaat

dat moet toch mogelijk zijn?

Acties:

woensdag 6 april 2005 15:07

MikroTik nerd

Is het een idee om de postcode tabel in plaats van met ranges te laten werken met een kolom en alle voorkomende postcode 10^4 = 10000 records uit te schrijven ?

Lijkt me niet echt veel werk (met behulp van een query laten vullen) en hiermee bereik je volgens mij wel het gewenste resultaat.

Eerst het probleem, dan de oplossing

Acties:

woensdag 6 april 2005 16:37

Topicstarter

Jah, er zijn heel veel halve oplossingen te verzinnen die er allemaal voor zorgen dat de query sneller gaat. Maar dat wil ik niet. Ik wil gewoon een goed genormaliseerde database die daarbij ook nog snel is.
Komop, ik kan toch niet de eerste zijn die een waarde op een unieke range wil joinen - op een dusdanige manier dat ie niet alle ranges af gaat en dus de query traag maakt? Daar moet een database toch ook gewoon in kunnen voorzien?
Pas als het (vrijwel) zeker is dat dat niet kan ga ik over de minst erge halve oplossing nadenken

Acties:

woensdag 6 april 2005 16:50

MikroTik nerd

Marty,

Net als OO is het normaliseren van databases niet zaligmakend.

Je hebt nu zelf ondervonden dat deze oplossing niet goed werkt, waardoor je nu naar een andere oplossing op zoek moet. In de praktijk gebeurt het vaak dat (met in het achterhoofd de performance) voor dit soort halve (zeer foute opmerking) oplossingen gekozen moet worden.

Wat is er naast het normaliseren op tegen ?

Eerst het probleem, dan de oplossing

Acties:

woensdag 6 april 2005 18:36

Topicstarter

lier schreef op woensdag 06 april 2005 @ 16:37:
Marty,

Net als OO is het normaliseren van databases niet zaligmakend.

Je hebt nu zelf ondervonden dat deze oplossing niet goed werkt, waardoor je nu naar een andere oplossing op zoek moet. In de praktijk gebeurt het vaak dat (met in het achterhoofd de performance) voor dit soort halve (zeer foute opmerking) oplossingen gekozen moet worden.

Wat is er naast het normaliseren op tegen ?

Lier,

Wat is er op tegen dat ik graag een oplossing voor mijn huidige probleem probeer te vinden? dat de 4 cijfers van een postcode op een dusdanige manier op een range wordt gekoppeld dat er slechts één range in beschouwing wordt genomen?
Inmiddels zijn 6 uur we al 13 posts verder en is er nog niemand inhoudelijk daar op ingegaan.

Dat wil ik graag omdat het de mooiste oplossing is en omdat ik wil weten hoe dat princiepe werkt want ik ga het vast nog wel eens een keer tegenkomen. En als dan blijkt dat dat écht niet mogelijk is, dan ga ik wel over andere dingen nadenken.

Acties:

woensdag 6 april 2005 19:07

Software Architect

Werkt hier

marty schreef op woensdag 06 april 2005 @ 16:50:
Wat is er op tegen dat ik graag een oplossing voor mijn huidige probleem probeer te vinden? dat de 4 cijfers van een postcode op een dusdanige manier op een range wordt gekoppeld dat er slechts één range in beschouwing wordt genomen?
Inmiddels zijn 6 uur we al 13 posts verder en is er nog niemand inhoudelijk daar op ingegaan.

Nou nog een keer dan. Dat is niet wat je bovenstaande query doet.
Dat je bovenstaande query wel sneller wilt zien te krijgen kan ik me iets bij voorstellen, wellicht doe je vaker een range-scan en wil je de postcode-regio erbij hebben.
Het lijkt er echter op dat MySQL (en postgresql weet het dit keer niet beter te doen) het niet anders kan dan bovenstaande. Als je slechts 1 record opvraagt uit die data_main, dan gebruikt mysql de index wel goed en wordt er maar 1 record uit de postcodes opgehaald. Maar zodra je er een paar meer uit data_main wilt hebben (met in(...)) dan vindt ie ineens dat ie een range scan moet uitvoeren per record dat je selecteert. En waarom ie dat ineens zoveel anders doet zou ik ook niet weten.

Je kan proberen om het als bug te rapporteren, PostgreSQL doet het op een vergelijkbare rare manier, dus ik ga daar op de mailinglist es vragen waarom het zo raar moet gaan.

Acties:

woensdag 6 april 2005 19:25

Topicstarter

ACM schreef op woensdag 06 april 2005 @ 18:36:
[...]

Nou nog een keer dan. Dat is niet wat je bovenstaande query doet.

Volgens mij praten we langs elkaar heen. Ik doe gewoon een query waarbij ik verwacht dat op iedere row van data_main 1 row van postcodes wordt gejoined (dat gebeurt ook) en dat ie daarbij door het gebruik van indexen ook maar 1 row beschouwd (dat doet ie niet).

Dat je bovenstaande query wel sneller wilt zien te krijgen kan ik me iets bij voorstellen, wellicht doe je vaker een range-scan en wil je de postcode-regio erbij hebben.

klopt

nu zitten we weer op 1 lijn

Het lijkt er echter op dat MySQL (en postgresql weet het dit keer niet beter te doen) het niet anders kan dan bovenstaande. Als je slechts 1 record opvraagt uit die data_main, dan gebruikt mysql de index wel goed en wordt er maar 1 record uit de postcodes opgehaald. Maar zodra je er een paar meer uit data_main wilt hebben (met in(...)) dan vindt ie ineens dat ie een range scan moet uitvoeren per record dat je selecteert. En waarom ie dat ineens zoveel anders doet zou ik ook niet weten.

Je kan proberen om het als bug te rapporteren, PostgreSQL doet het op een vergelijkbare rare manier, dus ik ga daar op de mailinglist es vragen waarom het zo raar moet gaan.

Hmm...zelfs dat doet ie niet bij mij. Welke mysql versie heb je?
als ik dit doe:

MySQL:

explain SELECT
    COUNT(dm.id)
FROM data_main AS dm, postcodes AS p
WHERE dm.id=2000
AND dm.range >= p.range_from AND dm.range <= p.range_till

krijg ik dit:

code:

1
2
3

table  type   possible_keys  key      key_len  ref    rows  Extra
dm     const  PRIMARY        PRIMARY  8        const  1 
p      range  range,rf,rt    range    3        NULL   164    where used; Using index

Acties:

woensdag 6 april 2005 21:15

Software Architect

Werkt hier

Ik heb 4.1.nogwat en gebruikte geloof ik BETWEEN ipv die vergelijkingen. Maar veel zou dat niet mogen schelen.

Acties: