split txt file en tellen van het aantal woorden

Vraag

maandag 21 maart 2016 12:01

Acties:

Verwijderd

Topicstarter

Ik heb een txt file met een htlm format dat drie artikelen aangegeven met < doc> < /doc> bevat.
Nu moet ik de woorden tellen en de volgende output krijgen:

[on] -> [1, 20] -> [2, 34] -> [3, 12]
[escape] -> [1, 7] -> [3, 2]

Echter heb ik nu code geschreven die alle woorden in het txt telt en niet apart voor de 3 artikelen:

import re
import nltk
import numpy as np
import matplotlib.pyplot as plt
from operator import itemgetter

file=open('/Users/ch 1/Desktop/data.txt')

def unicount(file):
dic={}

for word in file.read().split():
word = word.lower()
if tekens(word) == False:
continue
elif word in dic:
dic[word] += 1
else:
dic[word] = 1
print dic
print len(dic)
#print sorted(dic.items(), key=itemgetter(1)) ## print words on sorted count

#plt.bar(dic.keys(), dic.values(), align='center')
#plt.show()

def tekens(word):
''' Filtering out all punctuation marks'''
regex = re.compile("^[A-Za-z0-9]+$")
if regex.match(word):
return True
else:
return False

unicount(file)

Waar is als output het volgende krijg:
'effect': 1, 'deficits': 1, 'provide': 1

Alle reacties

maandag 21 maart 2016 12:41

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

En wat verwacht je nu van ons

Neem onze Quickstart even door en Kan iemand even...? en plaats dan een nieuw topic met gebruik van code tags. Vertel daarin dan vooral wat je zelf al hebt geprobeerd/gezocht/gevonden en wat je bevindingen zijn na debuggen (Debuggen: Hoe doe ik dat?).

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

Dit topic is gesloten.

Onderwerpen

Vraag

Alle reacties