原标题:当贝叶斯,奥卡姆和香农一起来定义机器学习

贝叶斯推理

贝叶斯法则

朴素贝叶斯分类器

应用:文本分类

各位小伙伴们大家好,前些日子,我看了一些关于贝叶斯方法的文章,其中以今天这一篇文章觉得最好,不仅讲的简单通俗易懂并且很多的方法都有概括到这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常general且强大的推理框架,文中你会看到很多有趣的应用。所以今天我在征求到作者同意后对这个文章进行了转载,并且也加上了一些自己的理解方式,也请大家多多指教!

金沙澳门官网58588 1

1. 贝叶斯推理

–提供了推理的一种概率手段

–两个基本假设:

(1)待考察的量遵循某概率分布

(2)可根据这些概率以及观察到的数据进行推理,以作作出最优的决策

–贝叶斯推理对机器学习十分重要:

        为衡量多个假设的置信度提供了定量的方法

        为直接操作概率的学习算法提供了基础

        为其他算法的分析提供了理论框架

–机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设

        最佳假设:
在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设

–概率学习系统的一般框架

金沙澳门官网58588 2

目录:

倒计时8**天**

2. 贝叶斯法则

2.1 基本术语

D :训练数据;

H : 假设空间;

h : 假设;

P(h):假设h的先验概率(Prior Probability)

        即没有训练数据前假设h拥有的初始概率

P(D):训练数据的先验概率

        即在没有确定某一假设成立时D的概率

P(D|h):似然度,在假设h成立的情况下,观察到D的概率;

P(h|D):后验概率,给定训练数据D时h成立的概率;

2.2 贝叶斯定理(条件概率的应用)

金沙澳门官网58588 3

公式

        后验概率正比于P(h)和P(D|h)

        反比于P(D):D独立于h出现的概率越大,则D对h的支持度越小

2.3 相关概念

极大后验假设MAP:给定数据D和H中假设的先验概率,具有最大后验概率的假设h:

金沙澳门官网58588 4

计算公式

极大似然假设ML:当H中的假设具有相同的先验概率时,给定h,使P(D|h)最大的假设hml:

金沙澳门官网58588 5

计算公式

1.历史

新智元将于9月20日在北京国家会议中心举办AI
WORLD
2018世界人工智能峰会,MIT物理教授、未来生命研究所创始人、《生命3.0》作者Max
Tegmark,将发表演讲《我们如何利用AI,而不是被其压制》
,探讨如何直面AI军事化和杀人武器的出现,欢迎到现场交流!

3. 贝叶斯分类器

金沙澳门官网58588 6

金沙澳门官网58588 7

金沙澳门官网58588 8

金沙澳门官网58588 9

1.1一个例子:自然语言的二义性

4. 文本分类

算法描述:

金沙澳门官网58588 10

金沙澳门官网58588 11

1.2贝叶斯公式

来源:towardsdatascience

2.拼写纠正

作者:Tirthajyoti Sarkar

3.模型比较与贝叶斯奥卡姆剃刀

【新智元导读】当贝叶斯、奥卡姆和香农一起给机器学习下定义,将统计学、信息理论和自然哲学的一些核心概念结合起来,我们便会会发现,可以对监督机器学习的基本限制和目标进行深刻而简洁的描述。

3.1再访拼写纠正

令人有点惊讶的是,在所有机器学习的流行词汇中,我们很少听到一个将统计学、信息理论和自然哲学的一些核心概念融合起来的短语。

3.2模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s
Razor)

而且,它不是一个只有机器学习博士和专家懂得的晦涩术语,对于任何有兴趣探索的人来说,它都具有精确且易于理解的含义,对于ML和数据科学的从业者来说,它具有实用的价值。

3.3最小描述长度原则

这个术语就是最小描述长度(Minimum Deion Length)。

3.4最优贝叶斯推理

让我们剥茧抽丝,看看这个术语多么有用……

4.无处不在的贝叶斯

贝叶斯和他的理论

4.1中文分词

我们从托马斯·贝叶斯(Thomas
Bayes)说起,顺便一提,他从未发表过关于如何做统计推理的想法,但后来却因“贝叶斯定理”而不朽。

4.2统计机器翻译

金沙澳门官网58588 12

4.3贝叶斯图像识别,Analysis by Synthesis

Thomas Bayes

4.4 EM算法与基于模型的聚类

那是在18世纪下半叶,当时还没有一个数学科学的分支叫做“概率论”。人们知道概率论,是因为亚伯拉罕 ·
棣莫弗(Abraham de Moievre)写的《机遇论》(Doctrine of
Chances)一书。

4.5最大似然与最小二乘

1763年,贝叶斯的著作《机会问题的解法》(An
Essay toward solving a Problem in the Doctrine of
opportunities)被寄给英国皇家学会,但经过了他的朋友理查德·普莱斯(Richard
Price)的编辑和修改,发表在伦敦皇家学会哲学汇刊。在那篇文章中,贝叶斯以一种相当繁复的方法描述了关于联合概率的简单定理,该定理引起了逆概率的计算,即贝叶斯定理。

5.朴素贝叶斯方法(又名“愚蠢者的贝叶斯(idiot’s bayes)”)

自那以后,统计科学的两个派别——贝叶斯学派和频率学派(Frequentists)之间发生了许多争论。但为了回归本文的目的,让我们暂时忽略历史,集中于对贝叶斯推理的机制的简单解释。请看下面这个公式:

5.1垃圾邮件过滤器

金沙澳门官网58588 13

5.2为什么朴素贝叶斯方法令人诧异地好——一个理论解释

这个公式实际上告诉你,在看到数据/证据(可能性)之后更新你的信念(先验概率),并将更新后的信念程度赋予后验概率。你可以从一个信念开始,但每个数据点要么加强要么削弱这个信念,你会一直更新你的假设

6.层级贝叶斯模型

听起来十分简单而且直观是吧?很好。

6.1隐马可夫模型(HMM)

不过,我在这段话的最后一句话里耍了个小花招。你注意了吗?我提到了一个词“假设”。

7.贝叶斯网络

在统计推理的世界里,假设就是信念。这是一种关于过程本质(我们永远无法观察到)的信念,在一个随机变量的产生背后(我们可以观察或测量到随机变量,尽管可能有噪声)。在统计学中,它通常被称为概率分布。但在机器学习的背景下,它可以被认为是任何一套规则(或逻辑/过程),我们认为这些规则可以产生示例或训练数据,我们可以学习这个神秘过程的隐藏本质。

1.历史

因此,让我们尝试用不同的符号重新定义贝叶斯定理——用与数据科学相关的符号。我们用D表示数据,用h表示假设,这意味着我们使用贝叶斯定理的公式来尝试确定数据来自什么假设,给定数据。我们把定理重新写成:

托马斯·贝叶斯(Thomas
Bayes)同学的详细生平在这里。以下摘一段wikipedia上的简介:

金沙澳门官网58588 14

所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

现在,一般来说,我们有一个很大的(通常是无限的)假设空间,也就是说,有许多假设可供选择。贝叶斯推理的本质是,我们想要检验数据以最大化一个假设的概率,这个假设最有可能产生观察数据(observed
data)。我们一般想要确定P(h|D)的argmax,也就是想知道哪个h的情况下,观察到的D是最有可能的。为了达到这个目的,我们可以把这个项放到分母P(D)中,因为它不依赖于假设。这个方案就是最大后验概率估计(maximum a posteriori,MAP)。

实际上,贝叶斯当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,特别地,贝叶斯是机器学习的核心方法之一。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。这个时候,我们就需要提供一个猜测(hypothesis,更为严格的说法是“假设”,这里用“猜测”更通俗易懂一点),所谓猜测,当然就是不确定的(很可能有好多种乃至无数种猜测都能满足目前的观测),但也绝对不是两眼一抹黑瞎蒙——具体地说,我们需要做两件事情:1.算出各种不同猜测的可能性大小。2.算出最靠谱的猜测是什么。第一个就是计算特定猜测的后验概率,对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较,模型比较如果不考虑先验概率的话就是最大似然方法。

现在,我们应用以下数学技巧:

1.1一个例子:自然语言的二义性

  • 最大化对于对数与原始函数的作用类似,即采用对数不会改变最大化问题
  • 乘积的对数是各个对数的总和
  • 一个量的最大化等于负数量的最小化

下面举一个自然语言的不确定性的例子。当你看到这句话:

金沙澳门官网58588 15

The girl saw the boy with a telescope.

那些负对数为2的术语看起来很熟悉是不是……来自信息论(Information
Theory)!

你对这句话的含义有什么猜测?平常人肯定会说:那个女孩拿望远镜看见了那个男孩(即你对这个句子背后的实际语法结构的猜测是:The
girl saw-with-a-telescope the
boy)。然而,仔细一想,你会发现这个句子完全可以解释成:那个女孩看见了那个拿着望远镜的男孩(即:The
girl saw
the-boy-with-a-telescope)。那为什么平常生活中我们每个人都能够迅速地对这种二义性进行消解呢?这背后到底隐藏着什么样的思维法则?我们留到后面解释。

让我们进入克劳德·香农(Claude Shannon)的世界吧!

1.2贝叶斯公式

香农和信息熵

贝叶斯公式是怎么来的?

如果要描述克劳德·香农的天才和奇特的一生,长篇大论也说不完。香农几乎是单枪匹马地奠定了信息论的基础,引领我们进入了现代高速通信和信息交流的时代。

我们还是使用wikipedia上的一个例子:

香农在MIT电子工程系完成的硕士论文被誉为20世纪最重要的硕士论文:在这篇论文中,22岁的香农展示了如何使用继电器和开关的电子电路实现19世纪数学家乔治布尔(George
Boole)的逻辑代数。数字计算机设计的最基本的特征——将“真”和“假”、“0”和“1”表示为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。

一所学校里面有60%的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?

但这还不是他最伟大的成就。

一些认知科学的研究表明(《决策与判断》以及《Rationality for
Mortals》第12章:小孩也可以解决贝叶斯问题),我们对形式化的贝叶斯问题不擅长,但对于以频率形式呈现的等价问题却很擅长。在这里,我们不妨把问题重新叙述成:你在校园里面随机游走,遇到了N个穿长裤的人(仍然假设你无法直接观察到他们的性别),问这N个人里面有多少个女生多少个男生。

1941年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还研究信息和通信背后的原始理论。1948年,贝尔实验室研究期刊发表了他的研究,也就是划时代的题为“通信的一个数学理论”论文。

你说,这还不简单:算出学校里面有多少穿长裤的,然后在这些人里面再算出有多少女生,不就行了?

香农将信息源产生的信息量(例如,信息中的信息量)通过一个类似于物理学中热力学熵的公式得到。用最基本的术语来说,香农的信息熵就是编码信息所需的二进制数字的数量。对于概率为p的信息或事件,它的最特殊(即最紧凑)编码将需要-log2(p)比特。

我们来算一算:假设学校里面人的总数是U个。60%的男生都穿长裤,于是我们得到了U
* P(Boy) * P(Pants|Boy)个穿长裤的(男生)(其中P(Boy)是男生的概率=
60%,这里可以简单的理解为男生的比例;P(Pants|Boy)是条件概率,即在Boy这个条件下穿长裤的概率是多大,这里是100%,因为所有男生都穿长裤)。40%的女生里面又有一半(50%)是穿长裤的,于是我们又得到了U
* P(Girl) * P(Pants|Girl)个穿长裤的(女生)。加起来一共是U * P(Boy)
* P(Pants|Boy) + U * P(Girl) * P(Pants|Girl)个穿长裤的,其中有U *
P(Girl) * P(Pants|Girl)个女生。两者一比就是你要求的答案。

而这正是在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!

下面我们把这个答案形式化一下:我们要求的是P(Girl|Pants)(穿长裤的人里面有多少女生),我们计算的结果是U
* P(Girl) * P(Pants|Girl) / [U * P(Boy) * P(Pants|Boy) + U *
P(Girl) *
P(Pants|Girl)]。容易发现这里校园内人的总数是无关的,可以消去。于是得到

因此,我们可以说,在贝叶斯推理的世界中,最可能的假设取决于两个术语,它们引起长度感(sense
of length),而不是最小长度。

P(Girl|Pants) = P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) +
P(Girl) * P(Pants|Girl)]

那么长度的概念是什么呢?

注意,如果把上式收缩起来,分母其实就是P(Pants),分子其实就是P(Pants,
Girl)。而这个比例很自然地就读作:在穿长裤的人(P(Pants))里面有多少(穿长裤)的女孩(P(Pants,
Girl))。

Length (h): 奥卡姆剃刀

上式中的Pants和Boy/Girl可以指代一切东西,所以其一般形式就是:

奥卡姆的威廉(William of
Ockham,约1287-1347)是一位英国圣方济会修士和神学家,也是一位有影响力的中世纪哲学家。他作为一个伟大的逻辑学家而享有盛名,名声来自他的被称为奥卡姆剃刀的格言。剃刀一词指的是通过“剔除”不必要的假设或分割两个相似的结论来区分两个假设。

P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]

奥卡姆剃刀的原文是“如无必要勿增实体”。用统计学的话说,我们必须努力用最简单的假设来解释所有数据。

收缩起来就是:

其他杰出人物响应了类似的原则。

P(B|A) = P(AB) / P(A)

牛顿说:“解释自然界的一切,应该追求使用最少的原理。”

其实这个就等于:

罗素说:“只要有可能,用已知实体的结构去替代未知实体的推论。”

P(B|A) * P(A) = P(AB)

人们总是喜欢更短的假设。

难怪拉普拉斯说概率论只是把常识用数学公式表达了出来。

那么我们需要一个关于假设的长度的例子吗?

然而,后面我们会逐渐发现,看似这么平凡的贝叶斯公式,背后却隐含着非常深刻的原理。

下面哪个决策树的长度更小?A还是B?

2.拼写纠正

金沙澳门官网58588 16

经典著作《人工智能:现代方法》的作者之一Peter
Norvig曾经写过一篇介绍如何写一个拼写检查/纠正器的文章(原文在这里,徐宥的翻译版在这里,这篇文章很深入浅出,强烈建议读一读),里面用到的就是贝叶斯方法,这里我们不打算复述他写的文章,而是简要地将其核心思想介绍一下。

即使没有一个对假设的“长度”的精确定义,我相信你肯定会认为左边的树(A)看起来更小或更短。当然,你是对的。因此,更短的假设就是,它要么自由参数更少,要么决策边界更不复杂,或者这些属性的某种组合可以表示它的简洁性。

首先,我们需要询问的是:“问题是什么?”

那么Length(D | h)是什么?

问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:

给定假设是数据的长度。这是什么意思?

P(我们猜测他想输入的单词|他实际输入的单词)

直观地说,它与假设的正确性或表示能力有关。给定一个假设,它支配着数据的“推断”能力。如果假设很好地生成了数据,并且我们可以无错误地测量数据,那么我们就根本不需要数据。

这个概率。并找出那个使得这个概率最大的猜测单词。显然,我们的猜测未必是唯一的,就像前面举的那个自然语言的歧义性的例子一样;这里,比如用户输入:thew,那么他到底是想输入the,还是想输入thaw?到底哪个猜测可能性更大呢?幸运的是我们可以用贝叶斯公式来直接出它们各自的概率,我们不妨将我们的多个猜测记为h1
h2
..(h代表hypothesis),它们都属于一个有限且离散的猜测空间H(单词总共就那么多而已),将用户实际输入的单词记为D(D代表Data,即观测数据),于是

想想牛顿的运动定律。

P(我们的猜测1 |他实际输入的单词)

牛顿运动定律第一次出现在《自然哲学的数学原理》上时,它们并没有任何严格的数学证明。它们不是定理。它们很像基于对自然物体运动的观察而做出的假设。但是它们对数据的描述非常好。因此它们就变成了物理定律。

可以抽象地记为:

这就是为什么你不需要记住所有可能的加速度数字,你只需要相信一个简洁的假设,即F=ma,并相信所有你需要的数字都可以在必要时从这个假设中计算出来。它使得Length(D
| h) 非常小。

P(h1 | D)

但是如果数据与假设有很大的偏差,那么你需要对这些偏差是什么,它们可能的解释是什么等进行详细描述。

类似地,对于我们的猜测2,则是P(h2 | D)。不妨统一记为: