split txt file en tellen van het aantal woorden

Pagina: 1
Acties:
  • 425 views

Onderwerpen

Vraag


Acties:
  • 0 Henk 'm!

Anoniem: 750909

Topicstarter
Ik heb een txt file met een htlm format dat drie artikelen aangegeven met < doc> < /doc> bevat.
Nu moet ik de woorden tellen en de volgende output krijgen:

[on] -> [1, 20] -> [2, 34] -> [3, 12]
[escape] -> [1, 7] -> [3, 2]

Echter heb ik nu code geschreven die alle woorden in het txt telt en niet apart voor de 3 artikelen:

import re
import nltk
import numpy as np
import matplotlib.pyplot as plt
from operator import itemgetter


file=open('/Users/ch 1/Desktop/data.txt')

def unicount(file):
dic={}

for word in file.read().split():
word = word.lower()
if tekens(word) == False:
continue
elif word in dic:
dic[word] += 1
else:
dic[word] = 1
print dic
print len(dic)
#print sorted(dic.items(), key=itemgetter(1)) ## print words on sorted count

#plt.bar(dic.keys(), dic.values(), align='center')
#plt.show()


def tekens(word):
''' Filtering out all punctuation marks'''
regex = re.compile("^[A-Za-z0-9]+$")
if regex.match(word):
return True
else:
return False

unicount(file)

Waar is als output het volgende krijg:
'effect': 1, 'deficits': 1, 'provide': 1

Alle reacties


Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
En wat verwacht je nu van ons :? Neem onze Quickstart even door en Kan iemand even...? en plaats dan een nieuw topic met gebruik van code tags. Vertel daarin dan vooral wat je zelf al hebt geprobeerd/gezocht/gevonden en wat je bevindingen zijn na debuggen (Debuggen: Hoe doe ik dat?).

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Dit topic is gesloten.