NLP工具NLTK的安装及使用
nltk简介
NLTK是构建Python程序以使用人类语言数据的领先平台。它为50多种语料库和词汇资源(如WordNet)提供了易于使用的界面,还提供了一套用于分类,标记化,词干化,标记,解析和语义推理的文本处理库。NLTK是Python上著名的⾃然语⾔处理库 ⾃带语料库,具有词性分类库 ⾃带分类,分词,等等功能。
package安装
首先使用pip安装nltk包
1 | pip install nltk |
可以使用清华源对其加速
1 | pip install nltk -i https://pypi.tuna.tsinghua.edu.cn/simple |
nltk-data下载
安装好的nltk包是不能拿来直接使用的,还需要下载相关数据模型才可以使用。下载方法如下。
nltk包安装完成后打开python命令行运行以下命令(也可以新建python文件写入以下命令并运行)
1 | import nltk |
会出现以下界面:
最开始这个列表是空白的,点击右下方refresh
后出现nltk-data的列表。
点击左下角的Download
开始下载数据,等下载完成后即可正常使用
国内加速下载
在国内下载可能会出现找不到DNS或者下载到一半出错的情况。遇到该情况最便捷的解决思路如下:
执行以下命令之一下载nltk-data到本地,大小700M左右
1
2
3
4git clone https://github.com/nltk/nltk_data.git
# 无法链接到GitHub的也可以使用如下链接之一进行clone
git clone http://gitclone.com/github.com/nltk/nltk_data.git
git clone https://hub.fastgit.org/nltk/nltk_data.git进入下载到本地的nltk-data目录,修改nltk_data目录下的index.xml文件,将所有的
1
s://raw.githubusercontent.com/nltk/nltk_data/gh-pages
替换为:
1
://localhost:8000
在该目录下运行:
1
python -m http.server 8000
这个时候我们会在本机提供nltk_data数据下载服务的服务器。nltk下载器通过访问本地地址既可以获取到需要的文件。
重新在python中执行如下语句:
1
2import nltk
nltk.download()将server index中的地址替换为
http://localhost:8000/index.xml
如下图:依次点击
refresh
和Download
即可开始安装。
Reference
[1] 国内下载GITHUB库加速方法及快速安装NLTK - 知乎 (zhihu.com)
[2] 直接快速下载NLTK数据_今春一别难相逢-CSDN博客_nltk下载