NLTK：Python 自然语言处理的得力助手

4天前发布

010

在 Python 的众多库中，NLTK（Natural Language Toolkit，自然语言工具包）就像一位经验丰富的语言学家，协助开发者轻松处理各种自然语言处理（NLP）任务。无论是文本分析、词性标注，还是情感分析，NLTK 都能大显身手。

一、NLTK 简介与安装

NLTK 诞生于 2001 年，旨在为 NLP 提供易于使用的接口和丰富的语料库。它是开源的，拥有庞大的社区支持。安装 NLTK 超级简单，如果你使用 pip，只需在命令行输入pip install nltk 即可。安装完成后，还需下载一些语料库和工具包，在 Python 环境中运行import nltk; nltk.download() ，就能打开下载器，选择你需要的资源。

二、NLTK 的基础功能

分词（Tokenization）

分词就是把文本拆分成一个个单词或词组。列如对于句子 “I love natural language processing.”，NLTK 能把它分成 ['I', 'love', 'natural', 'language', 'processing', '.']。代码实现如下：

python

import nltk
text = "I love natural language processing."
tokens = nltk.word_tokenize(text)
print(tokens)

词性标注（Part – of – Speech Tagging）

词性标注能为每个单词标注其词性，像名词、动词、形容词等。NLTK 可以轻松做到这一点：

python

import nltk
text = "I love natural language processing."
tokens = nltk.word_tokenize(text)
pos_tags = nltk.pos_tag(tokens)
print(pos_tags)

运行结果可能类似 [('I', 'PRP'), ('love', 'VBP'), ('natural', 'JJ'), ('language', 'NN'), ('processing', 'VBG'), ('.', '.')] ，这里 PRP 代表代词，VBP 是动词一般目前时，JJ 为形容词，NN 是名词，VBG 是动词目前分词。

命名实体识别（Named Entity Recognition，NER）

NER 用于识别文本中的人名、地名、组织名等实体。例如：

python

import nltk
text = "Apple is looking at buying U.K. startup for $1 billion"
tokens = nltk.word_tokenize(text)
pos_tags = nltk.pos_tag(tokens)
entities = nltk.chunk.ne_chunk(pos_tags)
print(entities)

结果中，Apple 会被识别为组织，U.K. 被识别为地理实体。

三、NLTK 在文本分类中的应用

文本分类是 NLP 常见任务，列如判断邮件是垃圾邮件还是正常邮件，影评是正面还是负面。以情感分析为例，NLTK 可以利用已经标注好情感的语料库来训练分类器。

python

from nltk.corpus import movie_reviews
import nltk
from nltk.classify import NaiveBayesClassifier

# 准备数据
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

featuresets = [(document_features(d), c) for (d, c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]

# 训练分类器
classifier = NaiveBayesClassifier.train(train_set)

# 评估分类器
print(nltk.classify.accuracy(classifier, test_set))