(sorry als de titel wat onduidelijk is, wist niet goed hoe ik het kort kon verwoorden)
Ik ben de laatste weken bezig met de output van een DNA-techniek, de zogenaamde microarray. Dat is een grid van spots/signalen in twee kanalen, die ingescand worden en omgezet worden in een ratio. Het gaat om grids met ongeveer 6000 spots per vergelijking, waarvan de data uit de twee kanalen in een Excel spreadsheet worden opgeslagen. Van de ~2000 features die we willen bestuderen staan er dus gemiddeld 3 spots op per feature, maar sommigen zijn maar tweevoudig vertegenwoordigd, anderen 6-voudig.
Ongesorteerd staan die dan als volgt:
Zonder op de techniek in te willen gaan, maar is er een normalisatie nodig en dat wordt gedaan met een macro. Deze filtert op de een of andere manier via statistiek ook onbetrouwbare signalen eruit, en verwijderd deze datapunten uit de lijst, en sorteert deze.
Nu is het natuurlijk niet altijd dezelfde feature die verwijderd wordt, en als je dan meerdere exprimenten gaat vergelijken, dan krijg je dus allemaal ongelijk lopende kolommen waarbij er dus eigenlijk geen unieke feature is per cel, je hebt alleen de ID om op te sorteren.
Even als voorbeeld een vergelijking van twee experimenten
Nu heb ik dus een spreadsheet met kolommen van 6000 minus een 100-tal waarden. Is er een manier om dusdanig te sorteren, dat Excel de ID-cel als sorteerpunt neemt, en als er een ongelijk aantal waarden is van die waarde, er lege cellen bijzet om de sortering in sync te houden? Einddoel is een sortering waardoor je als resultaat krijgt:
De tweede vraag is gerelateerd aan deze data. Zoals aangegeven zijn de meeste waarden in drievoud aanwezig, maar sommige waarden in zesvoud. Door de normalisering en kwaliteitscontrole worden er soms waarden uitgehaald, waardoor er tweevoud, viervoud, vijfvoud etc mogelijk is. Kan je een gemiddelde laten berekenen van alle gekoppelde cellen met dezelfde waarde in de ID cel?
Ik heb gezocht naar een oplossing, maar door de algemeenheid van de acties (gemiddelde, sorteren) is het zoeken naar de speld in een hooiberg. De mensen die dit soort werk doen bij ons gebruiken geen Excel, maar een specifiek programma met stapels toeters en bellen waarvoor een meerdaagse cursus noodzakelijk is, en een dongle zodat ik het niet overal kan bewerken. Als Excel het kan, dan zou dat mooi zijn
.
Ik ben de laatste weken bezig met de output van een DNA-techniek, de zogenaamde microarray. Dat is een grid van spots/signalen in twee kanalen, die ingescand worden en omgezet worden in een ratio. Het gaat om grids met ongeveer 6000 spots per vergelijking, waarvan de data uit de twee kanalen in een Excel spreadsheet worden opgeslagen. Van de ~2000 features die we willen bestuderen staan er dus gemiddeld 3 spots op per feature, maar sommigen zijn maar tweevoudig vertegenwoordigd, anderen 6-voudig.
Ongesorteerd staan die dan als volgt:
code:
1
2
3
4
5
6
7
| ID F635 F532 Cj0081 1800 1500 Cj1530 640 870 Cj0081 1878 950 Cj1530 930 2010 Cj1530 700 1630 Cj0081 1200 1300 |
Zonder op de techniek in te willen gaan, maar is er een normalisatie nodig en dat wordt gedaan met een macro. Deze filtert op de een of andere manier via statistiek ook onbetrouwbare signalen eruit, en verwijderd deze datapunten uit de lijst, en sorteert deze.
Nu is het natuurlijk niet altijd dezelfde feature die verwijderd wordt, en als je dan meerdere exprimenten gaat vergelijken, dan krijg je dus allemaal ongelijk lopende kolommen waarbij er dus eigenlijk geen unieke feature is per cel, je hebt alleen de ID om op te sorteren.
Even als voorbeeld een vergelijking van twee experimenten
code:
1
2
3
4
5
6
| ID F635 F532 ID F635 F532 Cj0081 1800 1500 Cj0081 1200 1530 Cj0081 1878 950 Cj0081 1287 750 Cj0081 1200 1300 Cj1530 999 1214 Cj1530 640 870 Cj1530 820 630 Cj1530 930 2010 Cj1530 721 1826 |
Nu heb ik dus een spreadsheet met kolommen van 6000 minus een 100-tal waarden. Is er een manier om dusdanig te sorteren, dat Excel de ID-cel als sorteerpunt neemt, en als er een ongelijk aantal waarden is van die waarde, er lege cellen bijzet om de sortering in sync te houden? Einddoel is een sortering waardoor je als resultaat krijgt:
code:
1
2
3
4
5
6
7
| ID F635 F532 ID F635 F532
Cj0081 1800 1500 Cj0081 1200 1530
Cj0081 1878 950 Cj0081 1287 750
Cj0081 1200 1300
Cj1530 640 870 Cj1530 820 630
Cj1530 640 870 Cj1530 820 630
Cj1530 721 1826 |
De tweede vraag is gerelateerd aan deze data. Zoals aangegeven zijn de meeste waarden in drievoud aanwezig, maar sommige waarden in zesvoud. Door de normalisering en kwaliteitscontrole worden er soms waarden uitgehaald, waardoor er tweevoud, viervoud, vijfvoud etc mogelijk is. Kan je een gemiddelde laten berekenen van alle gekoppelde cellen met dezelfde waarde in de ID cel?
Ik heb gezocht naar een oplossing, maar door de algemeenheid van de acties (gemiddelde, sorteren) is het zoeken naar de speld in een hooiberg. De mensen die dit soort werk doen bij ons gebruiken geen Excel, maar een specifiek programma met stapels toeters en bellen waarvoor een meerdaagse cursus noodzakelijk is, en een dongle zodat ik het niet overal kan bewerken. Als Excel het kan, dan zou dat mooi zijn
I had a decent lunch, and I'm feeling quite amiable. That's why you're still alive.
.