百木园-与人分享,
就是让自己快乐。

下载nltk数据包报错

安装nltk需要两步:安装nltk和安装nltk_data数据包

安装nltk

安装nltk很简单,可以直接在pycharm环境中安装,flie —> settings—> Python Interpreter —> 点击+ —> 搜索nltk —> intall Package

接下来需要安装nltk_data数据包才能使用nltk

手动安装nltk

最简单的办法:在pychram里使用下面两行代码安装:

1 import nltk
2 nltk.download()

但通常这样安装都会提示:getaddrinfo failed

这是因为这里自动弹出的server index里提供的网址找不到对应的IP

可见,直接代码安装不行

因为其他方法我都试过了,都没有成功,这里推荐我试了之后成功的方法

先进入这个网站:https://github.com/nltk/nltk_data/tree/gh-pages

依次点击Code—>Download Zip下载压缩包

接着执行以下代码:

1 import nltk
2 from nltk_book import *

因为此时还没有安装nltk_data安装包,它会提示找不到数据,并且提示他找数据时的默认路径:

 

所以我们把nltk_data安装包里packages里的这些文件解压到上述任意路径,重命名为nltk_data即可,我解压到D:\\Anaconda3

完后以上步骤,执行下面代码试验一下有没有安装成功

1 import nltk
2 from nltk.book import *

出现以下内容,即成功!

注意:Github上下载的这个压缩数据包,里面的一些子文件夹下还有压缩内容,例如,如果调用nltk进行句子分割,会用到这个函数: word_tokenize()

1 import nltk
2 
3 sen = \'hello, how are you?\'
4 res = nltk.word_tokenize(sen)
5 print(res)

会提示 Resource punkt not found. Please use the NLTK Downloader to obtain the resource: 即punkt数据未找到:

类似这样的错误,其实如果找到查找的路径,也就是上面我们放数据包的地方,是可以在tokenizers文件夹下找到这个punkt的,原因就在于没有解压,那么,把punkt.zip解压到文件夹中,再运行分割句子的代码就没问题了。如果有其他的一些数据也是这样的,如果遇到显示没有找到某个数据包,不妨试一试。(如果打开其他的文件夹,发现里面也有未解压的那些文件,我们可以手动将其解压)


来源:https://www.cnblogs.com/wangsiy/p/16350638.html
本站部分图文来源于网络,如有侵权请联系删除。

未经允许不得转载:百木园 » 下载nltk数据包报错

相关推荐

  • 暂无文章