Python统计词频的几种方法小结

本文介绍python统计词频的几种方法,供大家参考

 

方法一:运用集合去重方法

 def word_count1(words,n):
  word_list = []
  for word in set(words):
      num = words.counts(word)
      word_list.append([word,num])
      word_list.sort(key=lambda x:x[1], reverse=True)
  for i in range(n):
      word, count = word_list[i]
      print('{0:<15}{1:>5}'.format(word, count))

说明:运用集合对文本字符串列表去重,这样统计词汇不会重复,运用列表的counts方法统计频数,将每个词汇和其出现的次数打包成一个列表加入到word_list中,运用列表的sort方法排序,大功告成。

 

方法二:运用字典统计

def word_count2(words,n):
  counts = {}
  for word in words:
      if len(word) == 1:
          continue
      else:
          counts[word] = counts.get(word, 0) + 1
  items = list(counts.items())
  items.sort(key=lambda x:x[1], reverse=True)
  for i in range(n):
      word, count = items[i]
      print("{0:<15}{1:>5}".format(word, count))

 

方法三:使用计数器

def word_count3(words,n):
  from collections import Counter
  counts = Counter(words)
  for ch in "":  # 删除一些不需要统计的元素
      del counts[ch]
  for word, count in counts.most_common(n):  # 已经按数量大小排好了
      print("{0:<15}{1:>5}".format(word, count))

关于Python统计词频的几种方法小结的文章就介绍至此,更多相关Python统计词频内容请搜索编程宝库以前的文章,希望以后支持编程宝库

前面我们学习unittest 的目的是用它编写 Web 自动化测试用例,所以接下来会将 unittest 与Selenium 结合起来写一个 Web 自动化测试的例子。我们仍以百 ...