关键词:唐氏筛查,贝叶斯定理
这篇文章本来是一篇贝叶斯定理学习笔记,用来复习我学数据运营课程的时候学到的统计学知识。写文时,不想再从袋子里面摸红球和蓝球,想举一些真实的例子,于是开始找素材。
在找素材的过程中发现很多准妈妈被唐氏筛查中的各种概率以及各种指标的意义折磨的头痛,并由此引发各种担心、焦虑……而各种母婴论坛中,能把这件事讲清楚的文章很少,那这篇文章就该由我来写了。我在这里用贝叶斯定理及其图解,详细的解释唐氏筛查中各种相关概率的意义。
贝叶斯定理讲的是在事件A发生的情况下,事件B发生的概率,用P(B
A)来表示。
唐氏综合征是一种染色体疾病,患儿多了一条21号染色体,导致智力落后、发育迟缓等……
文章的结构如下:
①贝叶斯定理的通俗解释
②贝叶斯定理的数学证明
③不要忽视基础概率
④医学统计相关名词解释
⑤唐氏综合征的发病率
⑥血清法唐氏筛查的相关概率
⑦羊水穿刺的胎儿丢失率
⑧DNA无创检测的相关概率
⑨医院的综合筛查策略及心态的调整
01贝叶斯定理的通俗解释
中学的概率统计课,老师给我们举的例子,一般都是:“连续掷一枚硬币,正面朝上的概率有多少”、“袋子里面有3个红球和5个蓝球,摸到红球的概率有多少”。这类的问题有一个特点,就是我们对研究的对象非常清楚,掌握的信息非常全面,因此可以用“古典概型”很方便的求出各种概率。
然而现实生活中的推断,往往是在信息不全的条件下进行的。
①比如说在刑侦片中,某日,C城无雨,C城周边的Y城有雨,某目击者看见小A带着一把伞经过C城某街道,求小A来自Y城的概率。
这一题,小A带着伞只能提高我们断定他是Y城人的可能性,有可能他出门的时候下着雨,然后带着伞流窜到C城作案。我胡诌一个数据吧,我们原先断定小A来自Y城的可能性是10%(先验概率),因为他带着伞(调整因子),我们对自己这个推断的确信度提高到了60%(后验概率),但我们没有完全的把握,因为有可能他就是C城本地的,他这个人就是喜欢带着伞呢,对吧。
有点绕,没关系,看下一个例子。
②比如说,有一个美女对我笑了一下,那是不是证明她对我有好感的可能性更高一些呢?假设在没有任何参考信息的情况下,一个美女对我有好感的概率是1%,那么她对我笑了一下之后,我可能就会把这个概率调整到10%,如下图所示:
(图1)
对于某一件不确定的事情来说,我们一开始会有一个信念,叫做“先验概率”、或者叫“基础概率”,当我们掌握了某些相关的线索之后(调整因子),对我们的先验概率进行调整,调整后的概率叫做“后验概率”,这就是贝叶斯定理的通俗解释。
02贝叶斯定理的数学证明
先看一个例子:如果我们检查某种疾病,检测出来结果呈阳性,并不一定代表我们有疾病,因为有可能是假阳性;检测结果是阴性,也并不代表一定安全,因为还有假阴性。
用图形表示如下:
(图2)
问题:在检测结果呈阳性的情况下,患病的几率是多少?
假设:
事件A:检测结果呈阳性。
事件B:患有某种疾病。
公式为:
P(B
A)=P(A,B)/P(A)
其中P(A,B)表示事件A和事件B同时发生的概率,这里表示的就是真阳性的概率。
P(B
A)表示的是在事件A发生的情况下事件B发生的概率,这里表示的就是在检测结果呈阳性的情况下,患病的概率。
A,B互换,同理:
在有疾病的情况下,检测呈阳性的概率。
公式为:
P(A
B)=P(A,B)/P(B)
两个等式中都有P(A,B),因此可将等式变形为:
P(A,B)=P(A)*P(B
A)=P(B)*P(A
B)
最后得到著名的贝叶斯定理:
P(B
A)=P(B)P(A
B)/P(A)
(图3)
P(B)就是“先验概率”,或者说是“基础概率”,在我们这个例子中,就是某疾病的基础发病率。
P(A
B)/P(A),这个就是“调整因子”,我们就是根据搜集到的各种特征,在“先验概率”的基础上进行调整,得到“后验概率”,P(B
A)就是“后验概率”,也就是在检查呈阳性之后得病的概率。
03不要忽视基础概率
关于概率思维,我们很多人最容易犯的一个错误,就是过分