问答媒体

 找回密码
 立即注册
快捷导航
搜索
热搜: 活动 交友 discuz
查看: 108|回复: 0

Python:文本分析必备—搜狗词库

[复制链接]

1

主题

5

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2022-11-27 16:49:31 | 显示全部楼层 |阅读模式
全文阅读:https://www.lianxh.cn/news/24a7e251086ac.html

目录

  • 1. 引言
  • 2. 词典的妙用
  • 3. 搜狗词库的下载

    • 3.1 抓取12个页面链接
    • 3.2 爬取所有词库名称和下载链接
    • 3.3 下载细胞词库

  • 4. 细胞词库 scel 文件格式的转化
  • 5. 相关推文
  • 相关课程

    • 免费公开课
    • 最新课程-直播课
    • 关于我们



1. 引言
jieba 库是进行中文分词的一大利器,但 jieba 自带的词典并不完美。在实际操作过程中,用户需要添加特定的词典,来提高分词的准确性。搜狗细胞词库是外部词典的重要来源之一,提供了 12 类近 6000 个细胞词库。本文将详细展示搜狗词库的爬取和整理过程,并提供搜狗词库文本文档资源 (TXT 格式),读者可点击「搜狗词库」下载。

全文阅读:https://www.lianxh.cn/news/24a7e251086ac.html
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver| 手机版| 小黑屋| 问答媒体

GMT+8, 2025-3-16 07:29 , Processed in 0.118707 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2020, LianLian.

快速回复 返回顶部 返回列表