编程宝库 - 技术改变世界

编程宝库

Search

Python编程技术

python中重启for循环,使其重新开始遍历

解读sqlalchemy的常用数据类型有哪些

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

Python jieba分词如何添加自定义词和去除不需要长尾词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZbGUd57b-1677564707180)(2007.assets/1-1677564619771.png)]

通过如下代码，读取一个txt的高频词汇：

            # 找到高频词汇
          tmp_content = self.getContent(tmp_path)
          keyword_list = tmp_content.split('\n')
          word_count = dict()
          for keyword in keyword_list:
              for word,flag in jp.cut(keyword):
                  if word in word_count:
                      word_count[word] = word_count[word] +1
                  else:
                      word_count[word] =1
          for word, count in word_count.items():
              print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇，比如说获得的词汇如下

建立和可视化是2个独立的单词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGFRlmcz-1677564707182)(2007.assets/image-20230228140647773.png)]

一、添加自定义词

通过添加自定义词

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ljn92rgA-1677564707182)(2007.assets/image-20230228140134068.png)]

就可以看到，统计出来的词是这个自定义词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uphMFIPd-1677564707182)(2007.assets/image-20230228140339267.png)]

二、去除不需要长尾词

有时统计出来的某些词汇jieba认为是一个词汇但是此时我想让他变为多个词汇，可以通过如下代码实现：

import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')

此时 jieba 就会不认定创建活动是一个词，它会将它们分开统计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QX0aqeZ8-1677564707183)(2007.assets/image-20230228140926854.png)]

总结

本文主要介绍jieba的基础用法。

关于Python jieba分词如何添加自定义词和去除不需要长尾词的文章就介绍至此，更多相关Python jieba分词内容请搜索编程宝库以前的文章，希望以后支持编程宝库！

下一节：解读sqlalchemy的常用数据类型有哪些

Python编程技术

sqlalchemy的常用数据类型数据类型python数据类型说明Integerint整形Stringstr字符串Floatfloat浮点型DECIMALdecimal.Decima ...

python中重启for循环,使其重新开始遍历

解读sqlalchemy的常用数据类型有哪些