Ik probeer de proteïne met de grootste glutamine zuur (E) inhoud te zoeken in een '.fasta'-file van het hele proteoom van een organisme a.d.h.v. een python 3.10.7 script (in IDLE Shell).
Ik wou dus lists maken met in de ene de identifiers van de proteïnen, en in de andere de sequenties van de proteïnen. Dit was lastig, zeker en vast voor een beginner zoals ik, omdat de file er ongeveer zo uitziet:
>ID proteïne 1
AASTTWWYEKKLALKLASWEWWTRRKKK...
KKLASTTEEWTWKKLLIISILSWWTYEILKK...
...
>ID proteïne 2
KKLASTTEEWTWKKLLIISILSWWTYEILKK...
AASTTWWYEKKLALKLASWEWWTRRKKK...
..
>ID proteïne 3
...
etc.
Dit heb ik proberen doen met wat er op de afbeelding in bijlage staat.
Het probleem dat nu optreed is dat het eerste element van de lijst leeg is, en dat de laatste sequentie van de file niet in de lijst staat. Ik vermoed dat het te maken heeft met het feit dat ik de code zo proberen schrijven heb dat de loop telkens eindigd als het het '>'-symbool tegenkomt.
Mijn vraag is dus of er een manier is om die laatste sequentie ook in de lijst te krijgen?
Alvast bedankt voor jullie antwoorden!
Ik wou dus lists maken met in de ene de identifiers van de proteïnen, en in de andere de sequenties van de proteïnen. Dit was lastig, zeker en vast voor een beginner zoals ik, omdat de file er ongeveer zo uitziet:
>ID proteïne 1
AASTTWWYEKKLALKLASWEWWTRRKKK...
KKLASTTEEWTWKKLLIISILSWWTYEILKK...
...
>ID proteïne 2
KKLASTTEEWTWKKLLIISILSWWTYEILKK...
AASTTWWYEKKLALKLASWEWWTRRKKK...
..
>ID proteïne 3
...
etc.
Dit heb ik proberen doen met wat er op de afbeelding in bijlage staat.
Het probleem dat nu optreed is dat het eerste element van de lijst leeg is, en dat de laatste sequentie van de file niet in de lijst staat. Ik vermoed dat het te maken heeft met het feit dat ik de code zo proberen schrijven heb dat de loop telkens eindigd als het het '>'-symbool tegenkomt.
Mijn vraag is dus of er een manier is om die laatste sequentie ook in de lijst te krijgen?
Alvast bedankt voor jullie antwoorden!