Python - dictionary maken van een &#039;.fasta&#039;-file

zondag 18 december 2022 16:06

Ik heb het even geprobeerd met een defaultdict i.p.v. een standaard dictionary. Is dit ongeveer wat je nodig hebt?

Python:

from collections import defaultdict

dictionary = defaultdict(str)

with open("test.fasta", "r") as file:
    for line in file:
        if line.startswith(">"):
            id = line.strip().split("|")[1]
        else:
            dictionary[id] += line.strip()

Edit: Door defaultdict(str) te gebruiken, voorkom je een KeyError in regel 10. Je kan het ook met een gewone dictionary oplossen, maar dit is wellicht wat 'cleaner'.

[ Voor 16% gewijzigd door Renzmeister op 18-12-2022 20:02 ]

Alle reacties

Acties:

zondag 18 december 2022 16:34

Het bestand begint met een > en vervolgens doe je een split op |.

Kun je aub. aan de topic start uitgebreid en duidelijk toevoegen hoe het bestand is opgebouwd.
Wat waar staat en wat daarvan doorzocht moet worden naar de waarde(s) waarin je geïnteresseert bent?

Wie du mir, so ich dir.

Acties:

zondag 18 december 2022 16:56

Topicstarter

[ Voor 99% gewijzigd door Noordpoollicht op 18-12-2022 16:41 ]

Acties:

zondag 18 december 2022 16:56

Als ik naar deze 2 regels kijk dan zouden dat zaken zijn die je zoekt. In ieder geval in dit voorbeeld.

>sp|A1BCD2|EF123_APTFO protein OS=Aptenodytes forsteri OX=9233
>tr|A0A087QGI9|A0A087QGI9_APTFO Neuroblast differentiation-associated protein AHNAK (Fragment)

In principe kun je per regel door het bestand lopen (itereren) en per regel kijken of deze bv. begint met > of dat bevat.

Dan is de vraag tot hoever moet er gelezen worden. Maw. waar begint de tekst en waar eindigd die. Daar zijn functies voor.

code:

Hier kun je de positie van > bepalen (index 0)
En zou je kunnen zoeken naar het volgende scheidingsteken | (index 3) 
dan weet je dat je van 1 t/m 2 sp of tr kunt uitlezen.

>sp|A1BCD2|EF123_APTFO protein OS=Aptenodytes forsteri OX=9233

Een regeleinde is een "\n" die kun je ook detecteren. En ook vervangen met bv. niets / een lege string "". Als je dat doet krijg je 1 regel tekst

Zoeken naar een karakter in een string om de positie daarvan te bepalen.
https://docs.python.org/2.7/library/string.html#string.find

Wie du mir, so ich dir.

Acties:

superduper

Z3_3.0 Woeiiii

Is dit een opdracht die je per se zo moet insteken of is dit je eign design? Voor de DNA/RNA/Prot zijn diverse tools beschikbaar om een genoom build + index te maken in een enorm efficientere manier dan even een dictinary van maken. Dit gaat je namelijk zo enorm veel geheugen kosten..

zondag 18 december 2022 16:58

Acties:

zondag 18 december 2022 17:04

@superduper
Fasta formaat is (zonet opgezocht) een standaard
Wikipedia: FASTA format

Wie du mir, so ich dir.

Acties:

zondag 18 december 2022 17:16

Topicstarter

Op zich is de verandering van de ID naam niet de hoofdzaak want ik kan inderdaad achteraf ook gewoon gebruik maken van string indexing om de juiste weergave te krijgen.

De hoofdzaak is om een dictionary aan te maken die de ID weergeeft als key en de sequentie als value. Alleen kom ik dan op het probleem dat de sequentie telkens wordt gescheiden door de 'enters' en niet als één element in de values van de dictionary terecht komen.

Elke line die dus met '>' begint moet in de ID key en al de lines eronder (de sequentie dus) moeten samengevoegt worden en in de sequentie value. Dit wil ik doen zodanig de dictionary elke ID koppelt aan de sequentie die er bijhoort (dictionary = ['ID' : 'sequentie']).

[ Voor 116% gewijzigd door Noordpoollicht op 18-12-2022 23:22 ]

Acties:

superduper

Z3_3.0 Woeiiii

eheijnen schreef op zondag 18 december 2022 @ 16:58:
@superduper
Fasta formaat is (zonet opgezocht) een standaard
Wikipedia: FASTA format

Daar weet ik alles van; werk er al zo'n 25 jaar mee

Daarom vraag ik TS ook of hij daadwerkelijk het wiel opnieuw wil uitvinden, en er een vierkant van wil maken.

zondag 18 december 2022 17:29

Acties:

zondag 18 december 2022 17:40

@Noordpoollicht
Daarom kun je die enters ("\n" ) vervangen met niets (een lege string ) of wat je graag hebt.
Daarna ga je aan de gang met de string te doorzoeken.

Dus eerst opschonen en dan op zoek...
https://docs.python.org/2...tring.html#string.replace

[ Voor 13% gewijzigd door eheijnen op 18-12-2022 17:38 ]

Wie du mir, so ich dir.

Acties:

zondag 18 december 2022 17:44

Topicstarter

@eheijnen
Bedankt voor de hulp! Ik ga nog wat bij moeten leren over python.

[ Voor 80% gewijzigd door Noordpoollicht op 18-12-2022 23:22 ]

Acties:

zondag 18 december 2022 17:51

Als je hier niet eerder mee gewerkt hebt. Of tenminste een bestand inlezen, doorlopen en daar gericht informatie uithalen dan zul je hier best moeite mee hebben.

Is het zo dat je hier in de toekomst baat bij hebt dan zou ik wat meer tijd in python steken. Misschien is dat ook de bedoeling van de professor.

Wie du mir, so ich dir.

Acties:

zondag 18 december 2022 18:01

Topicstarter

@superduper
Het moet inderdaad verplicht in FASTA-formaat gemaakt worden.

[ Voor 117% gewijzigd door Noordpoollicht op 18-12-2022 23:23 ]

Acties:

zondag 18 december 2022 18:04

Bv.
https://www.w3schools.com/python/default.asp
Of op Geeks for Geeks

Zijn er medestudenten die daar al wat handiger in zijn....praat daar eens mee..

Wie du mir, so ich dir.

Acties:

zondag 18 december 2022 18:10

Topicstarter

[ Voor 101% gewijzigd door Noordpoollicht op 18-12-2022 23:23 ]

Acties:

zondag 18 december 2022 19:52

Topicstarter

@eheijnen
Dankje voor uw hulp!

[ Voor 101% gewijzigd door Noordpoollicht op 18-12-2022 23:24 ]

Acties:

Beste antwoord ✓

zondag 18 december 2022 20:08

Ik heb het even geprobeerd met een defaultdict i.p.v. een standaard dictionary. Is dit ongeveer wat je nodig hebt?

Python:

from collections import defaultdict

dictionary = defaultdict(str)

with open("test.fasta", "r") as file:
    for line in file:
        if line.startswith(">"):
            id = line.strip().split("|")[1]
        else:
            dictionary[id] += line.strip()

Edit: Door defaultdict(str) te gebruiken, voorkom je een KeyError in regel 10. Je kan het ook met een gewone dictionary oplossen, maar dit is wellicht wat 'cleaner'.

[ Voor 16% gewijzigd door Renzmeister op 18-12-2022 20:02 ]

Acties:

zondag 18 december 2022 20:23

Topicstarter

@Renzmeister
Dat is bijna het antwoord dat ik zocht! Super bedankt!
Alleen is de eerste ID voor één of andere reden verdwenen is als ik de dictionary.keys() afprint.

edit : blijkbaar print het de eerste sequentie van dictionary.values() ook niet af.

[ Voor 28% gewijzigd door Noordpoollicht op 18-12-2022 23:24 ]

Acties:

zondag 18 december 2022 20:28

Ja, mijn voorbeeld werkt alleen op de voorbeelden die je in je topicstart hebt geplaatst. Ik zie nu dat het FASTA formaat iets uitgebreider is. Wellicht is de eerste header in een ander formaat dan ">tr|code|etc..."?

Acties:

zondag 18 december 2022 20:37

Topicstarter

@Renzmeister
Normaal gezien begint elke identifier met >tr|code|etc...

[ Voor 93% gewijzigd door Noordpoollicht op 18-12-2022 23:25 ]

Acties:

T.Kreeftmeijer

Thomas Kreeftmeijer

Inhoudelijk is dit ook niet mijn sterkste kant.
Ik ben scheikundestudent en heb best wat programmeerervaring, maar dit soort dingen doe ik niet dagelijks. Het is wel een uitdagende opdracht in ieder geval.

Maar als ik zo even snel op het internet zoek, dan vind ik in ieder geval het volgende:
https://pypi.org/project/fasta/
https://onestopdataanalysis.com/read-fasta-file-python/
Is er een reden dat standaard packages niet gebruikt mogen worden? Ik zag het zo gauw niet staan.

Ik ben wel benieuwd waar dit is, niet dat het goed of slecht is. Het is tenslotte bonus voor de mensen die net wat meer weten of kunnen. Een beetje uitdaging is niet erg.

In ieder geval veel succes ermee.

13 000 Zeemijl - documentaire - Soms maakt al die keus het er niet makkelijker op.

zondag 18 december 2022 20:46

Acties:

zondag 18 december 2022 20:48

Topicstarter

@T.Kreeftmeijer
Dankje voor uw antwoord.
De opdracht moet inderdaad gewoon in standaard python gebeuren.

[ Voor 30% gewijzigd door Noordpoollicht op 18-12-2022 23:25 ]

Acties:

zondag 18 december 2022 21:52

Topicstarter

@Renzmeister
Ik heb het proberen schrijven in een standaard dictionary:

Python:

dictionary = {}
accesion_number = ''
sequentie = ''
with open("6EP.fasta", "r") as f:
    for line in f:
        if line.startswith(">"):
            dictionary[accesion_number] = sequence
            sequence = ""
        if line.startswith(">"):
            accesion_number = line.split("|")[1]
        else:
            sequentie = sequentie + line.strip()
    dictionary[accesion_number] = sequentie

Helaas gaf het niet de gewenste output.

[ Voor 83% gewijzigd door Noordpoollicht op 18-12-2022 23:28 ]

Acties:

zondag 18 december 2022 21:55

Ehhh ja...Het fasta bestand dat je probeert te openen is geen plain text file, maar een RTF bestand... Ik denk dat dat niet klopt! Heb je het zo aangeleverd gekregen? Wat je in ieder geval even kan doen, is het bestand openen in Word, en dan alle inhoud kopieren en plakken in Kladblok, en dit opslaan als txt file. Maar als je het zo aangeleverd hebt gekregen, zou ik eens nagaan of dat wel klopt, want een RTF bestand parsen lijkt me een beetje ver buiten scope van je opdracht.

Acties:

zondag 18 december 2022 22:11

Topicstarter

@Renzmeister
Ah ja, ik zie net dat ik het verkeerde bestand ermee heb geopend.

[ Voor 41% gewijzigd door Noordpoollicht op 18-12-2022 23:28 ]

Acties: