再别康桥

  • 首页
  • 留言板
  • 工作相关
再别康桥
月亮点缀了你的窗子,你点缀了别人的梦!
  1. 首页
  2. 6 技术专业
  3. 正文

2013.08.13,读书,《数学之美》读书笔记一

2013年08月13日 2215点热度 0人点赞 1条评论

一直践行着一个月泛读三五本书的经历,大多是管理、文史、艺术类,这次的这本,却是为数不多的偏专业型,但这本书的重要性,让我不得不认真的精读并写下读书笔记,我希望我的专业深化之路,也从这里开始。

在半年前的一次出差旅途中,匆忙看完了一本名为《数学之美》的书,本来是很简单的一次普及性泛读经历,却不经意间让我相信自己找到了未来应该研究的方向-机器学习(Machine Learning),之前虽然选择了支持向量机分类方法,但只是为了完成博士课题而已。而这本书,却让我看到基于统计学的数据挖掘技术的未来。

回到北京后,再次进行了精读,作为工作之余休息的读物,并作下重点摘抄和读书笔记。(黑色字体是书籍原文,蓝色字体是自己写的读书笔记)

作者的《出版说明》:

“数学之美”最初是从2006年起Google中国的官方博客-谷歌黑板报上连载的系列博客。作者是吴军,主要用浅显的文字介绍Google的技术和相关数学原理。

书籍的素材来源于作者本人的工作,包括语言信息处理、互联网技术、数据挖掘和机器学习领域。

清华大学李星教授的《序言》:

WWW的发明人谈到设计原理时说过:“简单性和模块化是软件工程的基石;分布式和容错性是互联网的生命”

研究过去十年重要IT杂志封面上重点推荐的专题,“有正确设计思想方法的技术”未必能够成功,因为还有非技术的因素;但“没有正确设计思想方法的技术”一定失败,无一例外。我想起了我去年的一个庞大的软件计划,也是在开始提出一个设计思想,然后再开始编程,目前已经看到了这样的好处,当然,也发现了一些问题。

数学既是对自然界事实的总结和归纳,如英国哲学家培根所说:“一切都依赖于我们把眼睛紧盯在自然界的事实之上”;又是抽象思考的结果,如法国哲学家笛卡尔所说“我思故我在”,这两个方法成就了目前的数学。

第1章 文字和语言 vs 数字和信息

古巴比伦人发明了楔形文字;但腓尼基人发明了字母,作为商人,不愿意花大量的时间在雕刻这些漂亮的楔形文字上。

信道与压缩:中国古代,口语与今天白话差别不大,但由于书写工艺和耗时问题,导致书面文字非常简洁,却非常难懂。这种现象符合今天信息科学的基本原理。通信时,信道较宽,那么信息就无需压缩直接传递;如果信道很窄,就尽可能的在传输中压缩,在接收端解压缩。古代两个人说话说得快是个宽信道无需压缩;书写来的慢是个窄信道,将白话口语写成文言文就是信道压缩的过程,而将文言文解释清楚是解压缩过程。

校验码:圣经由世代在抄写,为了避免错误,犹太人发明一个办法,每个希伯来字母对应一个数字,这样每行文字加起来有一个值,每列也是这样处理,当犹太学者抄完一页圣经时,只需把每一行和每一列加起来,看校验码是否与原文相同,如果对不上,也很容易找到错误的位置。

语言学研究方法:到底是语言对,还是语法对,前者坚持从真实的语句文本(称为语料)出发,后者坚持从规则出发。经过三四十年的争论,自然语言处理的成就最终宣布了前者的获胜。

第2章 自然语言处理-从规则到统计

图灵测试:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器时,就说明这个机器具有智能。

自然语言的处理可以分为两个阶段,早期20多年,从20世纪50年代到70年代,是科学家们走弯路的阶段,科学家让计算机处理自然语言模仿人类学习语言的方式;直到20世纪70年代,找到了基于数学模型和统计的方法,自然语言处理进入第二阶段,30多年来,这个领域获得了实质性的突破。

在20世纪60年代,普遍认为理解自然语言需要做两件事情:分析语句和获取语义。因为语言语法的发展,而语言语法又很容易用计算机的算法描述,就坚定了大家对基于规则的自然语言处理的信心。

但基于规则的自然语言处理存在两个问题:一是文法规则太多,至少几万条,而且有些文法甚至会出现矛盾,需要规定各个规则使用的特定环境,例如无论中学大学英语成绩多么好,也未必能考好GRE,更不提看懂英文电影,因为学了10年的英语语法,也无法涵盖全部的英语。二是即便能写出涵盖所有自然语言现象的语法规则集合,计算机解析也比较困难,因为存在上下文有关的文法。

在20世纪70年代,基于规则的句法分析就走到了尽头,之后的统计语言学出现,使自然语言处理重获新生。但基于规则的和基于统计的自然语言处理的争执后来持续了15年左右,知道20世纪90年代,坚持规则的人越来越少,后者却越来越多,这样自然语言处理从规则到统计的过度就完成了。

自然语言处理的应用在过去25年发生了巨大的变化,对自动问答的需求,很大程度上被网页搜索和数据挖掘替代了。今天几乎不再有科学家宣称自己是传统的基于规则方法的捍卫者。

这一部分内容应该说对我个人的影响是非常大的,之前在自己研究的方向-水电机组故障诊断领域上,我们一般热衷于研究基于产生式规则的推理过程、故障树以及基于知识的专家系统,这些应该都算是从故障的机理入手,来研究故障为何发生,发生后会产生的现象,以及有可能表现隐藏故障的征兆。但由于水电行业的特点,显而易见的故障并不多,许多故障甚至只是一个螺丝的松动,或者几个部件频率的吻合导致的共振而已,因此,这种机理上的研究,可以帮助我们了解故障,却在大多数机组没什么故障发生的时候,无法发挥出应有的作用。

从这点上来说,这种基于知识的研究过程类似于书中提到的基于规则的自然语言处理,同样,也存在语言处理中的两个问题。因此,我看到了第二种方式的优点-基于统计学习的自然语言处理,让我从长年的机组健康或亚健康状态数据中,提取出机组的运行特征,通过统计学理论建模,最终实现机组的故障诊断。

而选择后者作为研究方向,是这本书给自己最大的收获,也是这本书给我最大的支持。

对于上下文无关文法,算法的复杂度是本上是语句长度的二次方,而对于上下文有关文法,计算复杂度基本上是语句长度的六次方。即使今天,有了很快的计算机(英特尔双核i5处理器),分析二三十个词的句子也需要几分钟的时间。

对于上下文相关度导致的计算机处理的复杂性,其实水电机组故障征兆或推理规则的上下文有关程度并不算很高,大多是几条独立的特征,如动平衡最著名的几条征兆,频率以转频为主,振动波形表现为较为完整的正弦波;随转速增加振幅增加明显,一般幅值与转速近似平方关系等等。这些应该说关联度不大,而且哪怕有冲突的部分,其实可以通过冲突解决方案来处理的,尤其是有些互斥的征兆条件。但总体而言,因为基于规则的知识库内容太少,所以才会觉得推理简单,仍然具有一定的实用性。这个是跟语言处理有较大的区别。

上世纪70年代,基于统计的方法的核心模型是通信系统加隐含马尔科夫模型。

标签: 读书笔记
最后更新:2013年08月15日

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

  • 宁波工商注册

    数学里隐藏着众多的奥秘,每个数字都像精灵似的, 很美,很喜欢

    2013年08月19日
    回复
  • 取消回复

    COPYRIGHT © 2021 zyea.com. ALL RIGHTS RESERVED.

    Theme Kratos Made By Seaton Jiang