朴素贝叶斯

本节定位

朴素贝叶斯最容易被误解成：

太老了
假设太强了

但在一些场景里，它依然非常有用，尤其是：

文本分类
规则感强的小数据任务
想快速做低成本基线时

这节课的重点，就是把“朴素”这两个字背后的工程价值看清楚。

学习目标

理解朴素贝叶斯的核心概率直觉
理解为什么它在文本分类里尤其常见
理解“条件独立假设”为什么既是弱点也是优势
通过可运行示例掌握一个最小文本分类流程

一、朴素贝叶斯到底在做什么？

1.1 它在比较“哪个类别更可能生成这条样本”

比如给一句文本：

“退款多久到账”

模型会去比较：

这句更像退款类文本生成出来的吗？
还是更像登录问题类文本生成出来的吗？

1.2 为什么叫“朴素”？

因为它做了一个很强但很方便的假设：

在给定类别条件下，各个特征彼此独立

现实里这个假设通常并不完全成立，
但它换来了：

训练快
数据需求低
实现简单

1.3 一个类比

你可以把朴素贝叶斯想成：

先看每个词对“退款类”是不是有利
再把这些局部证据累加起来

它不像复杂模型那样学深层交互，
但在很多任务里已经够用。

二、为什么它特别适合文本分类？

2.1 因为词频本身就是很强信号

例如出现这些词：

退款
发票
证书
密码

很多时候已经能强烈暗示类别。

2.2 Multinomial Naive Bayes 很贴词袋模型

对文本来说，常见输入就是：

每个词出现了几次

这和 MultinomialNB 很搭。

2.3 它经常是很好的便宜基线

尤其在：

语料不大
标签少
先想快速验证任务可行性

时，非常适合先试。

三、先跑一个小型文本分类示例

这个例子会用词袋 + 朴素贝叶斯做一个最小客服意图分类。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

texts = [
    "退款多久到账",
    "怎么申请退款",
    "发票什么时候可以开",
    "电子发票发到哪里",
    "忘记密码怎么办",
    "密码重置入口在哪",
]

labels = [
    "refund",
    "refund",
    "invoice",
    "invoice",
    "password",
    "password",
]

clf = make_pipeline(
    CountVectorizer(),
    MultinomialNB(alpha=1.0),
)

clf.fit(texts, labels)
pred = clf.predict(["退款怎么处理", "电子发票什么时候开"])
print(pred.tolist())

3.1 这个例子最该看哪两层？

CountVectorizer()
文本先变成词频特征
MultinomialNB()
再根据各类下的词分布做判断

3.2 为什么这个流程在文本任务里很经典？

因为它足够轻：

训练快
可解释
调试方便

而且在不少小任务里表现并不差。

四、平滑为什么重要？

4.1 如果训练里从没见过某个词会怎样？

假设某类文本里从来没出现过某个词，
直接按概率乘法，可能会让整类概率被打到接近 0。

4.2 这就是为什么要做 smoothing

例如 alpha=1.0 表示一种常见平滑。
它的意义可以先粗略理解成：

别因为“没见过一次”就把概率判死刑

4.3 工程直觉

平滑不是数学细节而已，
它直接影响模型面对新词时有多脆弱。

五、朴素贝叶斯的优点和局限

5.1 优点

训练非常快
小数据也能起步
文本分类常常够用
比较容易解释

5.2 局限

特征独立假设过强
很难建模复杂交互
面对更复杂语义时通常不如更强模型

5.3 一个很实用的判断

如果你的目标是：

先做一个轻量、便宜、可解释的文本分类基线

朴素贝叶斯仍然很值得先试。

六、最常见误区

6.1 误区一：假设不真实，所以没必要学

很多算法的假设都不完全真实。
关键是它在工程上值不值得。

6.2 误区二：它只适合教材示例

在中小文本分类任务里，它依然常是有用基线。

6.3 误区三：只要上 Naive Bayes 就不用看特征

特征表示仍然非常关键。
词袋质量差，模型也会差。

小结

这节最重要的是建立一个判断：

朴素贝叶斯虽然假设简化，但在文本分类和小样本基线场景里，依然是一个训练快、成本低、解释性不错的实用模型。

只要这个判断清楚了，你以后做小任务时就知道什么时候该把它从工具箱里拿出来。

练习

给示例再加一个新类别，例如 certificate，看看模型能否一起工作。
把 alpha 改小或改大，观察是否会影响结果。
为什么说朴素贝叶斯特别适合做文本分类基线？
如果一个文本分类任务标签很多但每类数据很少，你会不会先试它？为什么？

学习目标​

一、朴素贝叶斯到底在做什么？​

1.1 它在比较“哪个类别更可能生成这条样本”​

1.2 为什么叫“朴素”？​

1.3 一个类比​

二、为什么它特别适合文本分类？​

2.1 因为词频本身就是很强信号​

2.2 Multinomial Naive Bayes 很贴词袋模型​

2.3 它经常是很好的便宜基线​

三、先跑一个小型文本分类示例​

3.1 这个例子最该看哪两层？​

3.2 为什么这个流程在文本任务里很经典？​

四、平滑为什么重要？​

4.1 如果训练里从没见过某个词会怎样？​

4.2 这就是为什么要做 smoothing​

4.3 工程直觉​

五、朴素贝叶斯的优点和局限​

5.1 优点​

5.2 局限​

5.3 一个很实用的判断​

六、最常见误区​

6.1 误区一：假设不真实，所以没必要学​

6.2 误区二：它只适合教材示例​

6.3 误区三：只要上 Naive Bayes 就不用看特征​

小结​

练习​