Skip to content

Latest commit

 

History

History
400 lines (240 loc) · 28.3 KB

从科学起源看交叉学科.md

File metadata and controls

400 lines (240 loc) · 28.3 KB

1.什么是科学

  科学是一个建立在可检验的解释和对客观事物的形式、组织等进行预测有序的知识系统,是已系统化和公式化了的知识。其对象是客观现象,内容是形式化的科学理论,形式是语言,包括自然语言与数学语言。

1.1 科学的研究范式*

1.1.1 科学研究的四种范式

  Jim Gray提出的第一范式至第四范式:

  • 实验观测(Empirical)-科学归纳
  • 理论推导(Theoretical)-模型推演
  • 计算仿真(Computational)-仿真模拟
  • 数据密集型(Data-Intensive)-关联分析

1.1.2 单一科学的研究模式

  基于实践与理论之间集合映射的视角,将单一科学的研究按现象、理论、技艺三个方面划分:

  • (现象)研究对象:联结、实体、流程
  • (理论)研究内容:数(思想原理的证明与计算)、理(基本物质的性质状态)、化(物质的结构功能及转化)
  • (技艺)研究形式:数学语言(形式逻辑)、自然语言、编程语言(面向过程及面向对象)

划分依据

  研究对象按现象共现模式划分;
  研究内容按理论抽象层次划分;
  研究形式按技艺精准程度划分。

评价标准

  • (现象)研究对象:广博

  • (理论)研究内容:简谐

  • (技艺)研究形式:精准

数据挖掘任务按评价标准划分示例:

评价标准 归纳任务 演绎任务 应用创新(示例)
现象广博 聚类 分类 偏差分析(异常检测)
理论简谐 关联分析 因果推断 建模分析(推荐任务及空谱变换可解释性)
技艺精准 回归 预测 序列分析(拟合优化)

1.1.2.1 研究对象细分

研究对象继续细分:

a.按认知要素划分

  • 联结(网络链接-实际、映射):位置角色【客观需求】、结构功能【主观偏好】、交互方式【矛盾分析与模式识别概率】
  • 实体(节点划分-数量、质量):整体【如达尔文式盖亚】、个体、局部
  • 流程(流图路径-无源、有源):条件随机场【布局策略】、聚合传播【级联传播】、关键事件【平衡调控与时序演化】

注:将研究对象按认知要素划分时引入了观察者,因此需要注意引入观察者视角带来的映射、质量、有源等建模问题。

与图网络的对应关系:

  联结-原理-边(含m:n、跳hop)
  实体-事实-点(含motif、子图)
  流程-应用-流(含方向、聚合、传播、周期、可约)

划分参考:

  • 参考战略兵法
    联结:运筹策帷帐之中,决胜于千里之外;知彼(位置角色)知己(结构功能)者,百战不怠(交互方式)。
    实体:镇国家,抚百姓,给馈饷,不绝粮道。
    流程:连百万之军,战必胜,攻必取。

“夫运筹策帷帐之中,决胜于千里之外,吾不如子房。镇国家,抚百姓,给馈饷,不绝粮道,吾不如萧何。连百万之军,战必胜,攻必取,吾不如韩信。此三者,皆人杰也,吾能用之,此吾所以取天下也。”——西汉·司马迁《史记·高祖本纪》 “知彼知己者,百战不殆。不知彼而知己,一胜一负;不知彼,不知己,每战必殆。”——《孙子兵法·谋攻篇》

研究对象按联结划分示例:
  动机分析中的联结、自主、胜任(动力源分别为需求、偏好、技能),分别对应客观(位置角色)、主观(结构功能)、平衡(交互方式)视角。

b.按事实要素划分

以事件或记录为中心,5W1H是经典的划分方式:

  • Who
  • Where
  • When
  • Why
  • What
  • How

  其中Who、Where、When属于感知类要素,What、Why、How属于分析类要素。

联结、实体、流程三个要素与5W1H的对应关系:
  联结-原理-Why
  实体-事实-What
  流程-应用-How

What Why How每个方面划分的依据都可以包括Who Where When的属性。

划分参考:

  • 参考史书体例 记事视角:纪传体(Who)、国别体(Where)、编年体及断代史体例及通史(When)、纪事本末体(What, How)、典章体(What)、史论及史评(Why)

c.按认知流程划分

  认知流程指如何从Who Where When等属性记录的事实数据样本,找出其中的模式遵循的原理,再将原理通过已有模式应用于流程拟合,得出What Why How三个层次之间的定性或定量映射。

据此定义以下对于特定实体的认知流程:

  • 联结->特定实体:自顶向下视角,常见分析方式与产物是划分与类别,与a.视角一致
  • 实体->特定实体:自底向上视角,常见分析方式与产物是度量与状态,与b.视角一致
  • 流程->特定实体:归纳演绎视角,常见分析方式与产物是序列与因果,与c.视角一致

结合评价标准,数据挖掘任务的认知流程及任务划分示例:

现象 技艺 理论 理论 技艺 现象
混合数据 -> 输入空间 -> 特征空间 -> 隐变量空间 -> 模式空间 -> 输出空间 -> 混合数据
聚类 分类
回归 预测
关联分析 因果分析

其中:
  编码过程涉及混合数据->输入空间->特征空间->隐变量空间
  解码过程涉及隐变量空间->模式空间->输出空间->混合数据

类似U-net结构,可以通过减少编码深度,获取简单的模型(相应的表征能力和可解释性会变差),示例如下:
  混合数据->输入空间->特征空间->隐变量空间->模式空间->输出空间->混合数据(可做聚类、回归、关联分析、因果推断、预测、分类)
  混合数据->输入空间->高维特征空间网络->输出空间->混合数据(可做聚类、回归、预测、分类,而建模分析不可用)
  混合数据->高维表征空间网络->混合数据(可做聚类、分类,而建模分析、序列分析不可用)

d.按关系表征结构划分(额外)

  人的认识与学习能力不是无限的,认知的产物需要被储存下来,合理的储存方式可以在保持一定精准度时达到更高效的表征。

按关系的存储结构划分,参考数据结构中的集合、线性结构、树形结构、图形结构划分:

  • 实体(节点划分):整体【聚类类比如达尔文式盖亚】、个体【元素表征】、局部【交叉映射】
  • 流程(流图路径):前驱【特征聚合】、后继【级联传播】、关键事件【时序演化】
  • 层次(层级组织):双亲【分类回归】、孩子【概率生成】、组织策略【评估与决策】
  • 图谱(网络联结):位置角色【条件场与客观需求】、结构功能【主观偏好】、交互方式【分析推断与模式识别】

研究对象划分依据:详见基本数据结构与维度的关系

数据结构 构建 功能 应用
Set 聚类 表征 映射
Sequence 度量 索引 排序
Tree 分类 导航 决策
Graph 建模 分析 推断

  其中聚类->度量->分类->建模,是依次支撑的。在数据的特征维度不断升高时,对数据碰撞的处理需要不断增加建模复杂度,即从集合到序列到树到图甚至到图模式,能表达的规律是从节点特征到位置到状态到过程到甚至到过程模式。

1.2 科研的动机

1.2.1 个人层面

  • 心理需求

    • 自主:好奇心、喜好<->利用(有之以为利,无之以为用)
    • 胜任:踏实、功夫<->功
    • 联结:开创、革新等自我实现的追求<->名
  • 生存需求

    • 薪水<->禄

1.2.2 社会层面

  • 以史为鉴

    • 对客观规律的敬畏
  • 把握当下

    • 环境控制、生态保护
  • 开创未来

    • 改善人们的生活、促进社会发展

    • 对未来发展的远见

1.3 从科研到常识

  科学通过发表研究成果而成为知识。发表研究成果需要有话题背景意义、研究现状、提出问题、方法、实验、结果、结论,向科学期刊投稿,同行专家评审,最终证明研究是用恰当的方法且合理的方式进行的,并且结果贡献了新的有用知识。

  由教科书遴选内容,教授和老师从教科书中选择性传授,成为科普常识。

1.4 科学与变革

  科学是在不断的自我否定中发展进步的。

  我们所能希望的最好情况是,我们的理论将在子孙后代进行一些微调的情况下得以生存。

  参考:什么是科学?科学与变革以及科学与知识的关系是什么?

2. 科学革命

2.1 科学范式

  Jim Gray提出的科学范式见1.1,包括实验观测(Empirical)、理论推导(Theoretical)、计算仿真(Computational)、数据密集型(Data-Intensive)共四种范式。

  我将其分为6个部分,按科学演化过程排列次序如下(参考:汤超:第三次生命科学革命为何是现在? | 科技史 第一章):
  (△事实观测)观察和测量,事实经观察被转化为有价值的信息,经测量被映射为数据。
  (○数据分析)特征工程:数据清洗、数据表征、特征之间相关性分析、特征分解、核映射、特征聚合、模式识别;任务:分类、回归、聚类、降维,依次为实验对照、计算仿真、模型构建、理论互洽作准备。
  (△实验对照
  (○计算仿真
  (△模型构建)建模分析,可衍生新度量特征:尝试多种变换空间推动学科基质革新。(参考:SOFTWARE METRICS AND SOFTWARE METROLOGY P70 Figure 4.1 Measurement Information Model from ISO 15939)
  (○理论互洽)新的理论与已有理论之间在建立模型下应有较好的互洽性。
  △表示以个体或少数群体尝试为推动力,包括事实观测、模型构建、实验对照
  ○表示以众包或多数群体集智为推动力,包括数据分析、理论互洽、计算仿真
  从实践到理论再到实践:事实观测->数据分析->模型构建->理论互洽->计算仿真->实验对照。

  科学从定量特征到定性概念的归纳,再对特定概念的现象域从定性分析到定量计算的分析与应用。科学可以通过增强精度,极大地增强对某一特征的控制力,从而逼近事物在某一特征上的极限,定向创造现实中从未出现的事物。(参考:汤超:第三次生命科学革命为何是现在? | 科技史 第五章)

2.2 科学交叉范式

2.2.1 交叉范式*

  科学交叉往往由3种学科交叉,分别涉及研究的现象、理论、技艺三个方面,依次对应于科学研究的对象、内容、形式

  科学交叉要在现象上选取研究对象,在理论上建模研究问题,在技艺上优化研究方法。
  其中,研究对象对应的是博物学视角,研究问题对应的自然哲学视角,研究方法对应的工程技术视角。博物学对应Natural History,自然科哲学对应Natural Philosophy,工学对应Engineering。如下表所示。

涉及方面 研究要素 人文社科视角 自然科学视角 产物 体现科学特征 交叉重心
现象 研究对象 历史(History) 博物学(Natural History) 行业基质 可观察性 知识广度
理论 研究问题 哲学(Philosophy) 自然哲学(Natural Philosophy) 数学原理 逻辑自洽性 理论深度
技艺 研究方法 艺术(Art) 工学(Engineering) 工程技术 可证伪性 工艺精度

  如基因组学是数学(NP部分)和计算机科学(E部分)与生命科学(NH部分)的交叉。

2.2.2 理工科与人文社会科学交叉的难点

  自然科学背景的科学家书写的科学史往往被称为“内史”,历史学家书写的科学史往往被称为“外史”,将科学知识革命与人文社科背景相结合,才能将理论的革新讲清楚,并与生动的人物故事以及社会背景巧妙地融合在一起,分析科学史的必然趋势与关键变革点。
  参考:韩启德:学科交叉成功的几个要素 | 科学的担当 第一章、问答

  难点:如何将**科学知识革命与人文社科背景相结合,**总结交叉学科的技艺基质,从技艺的量变分析学科质变趋势?

2.2.3 科学交叉的成就

  科学交叉的成就也可以根据自然科学的视角分为三类,任何一个方面都可能率先突破

下面以生物科学中不同方面的巨大科技成就举例:
  a.博物学视角:青蒿素治疗疟疾(参考治疗疟疾的青蒿素是怎么发现的,其中《本草纲目》《肘后备急方》对治疗疟疾的经验性总结对青蒿素的发现起到了重要启发作用,视为博物学视角成就)
  b.自然哲学视角:DNA分子双螺旋结构
  c.工学视角:基因工程(开源领域将以开源知识库计划为核心开展研究)

2.2.4 科学交叉的范例

生物信息学

  生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。(Luscombe,2001)
  生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:⑴新算法和统计学方法研究;⑵各类数据的分析和解释;⑶研制有效利用和管理数据新工具。本书介绍了一些重要的分析基因组序列的生物信息学计算方法。(Laura Elnitski, 2015)
  生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
  交叉:基因组学和蛋白质组学等的原理(NP部分)和信息科学分析(E部分)与基因组学和蛋白质组学等的数据(NH部分)
  目前的研究方向主要有:序列比对、序列组装、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及分子进化模型

研究对象(按关系结构划分)

按认知要素划分:

  联结:功能作用与显隐性、特殊结构与稳定性、识别比对与组合预测
  实体:序列、基因、蛋白质
  流程:药物设计、归因分析 、进化演化

  组合示例:
    联结+实体:序列稳定性、基因显性隐性、蛋白质结构功能预测、序列比对、基因识别、序列组装、基因重组……
    实体+流程:分子进化模型
    联结+流程:药物设计、病理分析与药理作用机制分析、结构演化

按关系表征结构划分:

  实体:序列、基因、蛋白质、实体之间的交叉(如基因重组)
  流程:序列比对、进化演化
  层次:基因识别、序列组装、基因表达、组合预测
  图谱:功能作用与显隐性、特殊结构与稳定性、基因组学与蛋白质组学

  组合示例:     图谱+实体:序列稳定性、蛋白质结构功能预测……
    实体+流程:分子进化模型
    图谱+流程:药物设计、病理分析与药理作用机制分析、结构演化

研究内容

  数(形式逻辑):数据处理、定量计算、统计学方法分析
  理(物质状态):核酸、密码子、官能团
  化(结构功能)【物质相互转化】:基因表达、蛋白质反应的预测、中心法则

研究形式:数学语言、自然语言、程序语言(基因组计划)

2.3 科学革命的征兆

  1. (学科交叉)其他学科的理论可以应用到某领域

  2. (技术进步)完善已有领域时需要探索更细粒度的现象,且测量工具的精度提高

  3. (学科交叉)交叉出新领域,发现了现有理论无法解释的新现象

  4. (学科交叉)交叉的新领域无法完全用还原论解释,需要新理论

  “基因组学革命就让我们得到了这个汽车的说明书,就是我们的基因组,所有的信息都在说明书里边,但是我们基本上看不懂。大概知道方向盘在第几页,这一段基因对应这个蛋白。至于这个汽车是怎么组装起来的,为什么能跑起来,能跑多快,能跑多久,我们不知道。坏了怎么修,里边有哪些原理性东西,哪些是普适的规律,哪些是特殊的,这些基本上都不知道,所以生命科学现在是处在一个大革命的前夜。”
  参考:汤超:第三次生命科学革命为何是现在? | 科技史 第三章

  技术进步学科交叉是科学革命的常见征兆。
  参考:汤超:第三次生命科学革命为何是现在? | 科技史 第六章

3.科学分类

3.1 现代科学分类

  现代科学通常分为三个主要分支,自然科学(例如:生物学,化学和物理学等),研究个人和社会的社会科学(例如经济学,心理学和社会学),以及研究抽象概念的形式科学(例如逻辑,数学,计算机科学)。但形式科学是否真正构成一门科学是有分歧的,因为它们不依赖经验证据。另外,将现有科学知识用于工程和医学等实际目的的学科被称为应用科学。

形式科学 自然科学 社会科学
基础 逻辑学数学统计学 物理学化学生物学地球科学太空科学环境科学天文学 经济学政治学社会学心理学历史学人类学
应用 计算机科学 工学农学医学药学 工商管理法学教育学会计学金融学管理学市场学

  科学按研究对象的不同可分为自然科学、社会科学和思维科学三大类。结合上述三个主要分支,以及最近被不断提及的交叉科学,又有一种划分为自然科学、社会科学、思维科学、形式科学、交叉科学五大类。

3.2 科学分类溯源

  自然科学在近代被分为自然哲学(Natural Philosophy)和博物学(Natural History),直到19世纪**“科学”Science**才被广泛使用。

科学细分学科实为晚近之事。

科学起源于古希腊时期,那时虽然也分所谓的 “四艺”(算术、几何、天文学、音乐),及至中世纪时欧洲博雅教育中的 “七艺”(再加文法、逻辑、修辞),这些完全不是科学意义上的分科。一直到近代科学革命后的相当长时期内,科学仍是不分科的。尽管后来逐渐产生了很少数的领域很宽、界限模糊的学科,但人们还是常常把自然科学仅分成自然哲学(Natural Philosophy)和博物学(Natural History)两大类。牛顿最重要的著作《自然哲学的数学原理》,从现在看来基本都是物理学或者力学的内容,但17世纪时还只是归于自然哲学。达尔文在1859年出版的《物种起源》,当时虽然已有生物学乃至更细的分科,但仍被归入博物学的著作。 直到19世纪,科学分支和分科才越来越多,同时 Science 这个英文词才被广泛使用。19世纪60年代,日本明治维新在引进欧洲科学时,由于那时欧洲的 Science 已经形成分科的局面,日本人依照自己的理解把 Science 译成了日文的 “科学” 两字。后来中国从日文直接引进,也使用了 “科学” 来表示 Science。

  分科远远不是科学真正的内涵。

  从不同尺度不同角度发展的交叉科学推动科学革命。总体尺度越来越小,越来越精细。

生物学界的年轻一代不满足前辈们基于形态、观察、描述和归纳的研究模式。从20世纪开始,他们把物质科学基于实验的研究模式引入生物学,建立起了生物化学生物物理学细胞生物学。同时胚胎学的重点转移到实验胚胎学,遗传学的重点转移到分子遗传学。1953年 DNA双螺旋结构破解后分子生物学兴起,学科结构和边界再一次迅速变动,形成以基因研究为主导、分子生物学研究为中心的生命科学学科结构

  重大颠覆性创新多数发生在不同学科的交界处。学科发展的总体趋势是从博物学方法到实验方法,从形态到功能,从整体到分子;学科不断细分,而同时又保持着从分到合、从还原到综合的一定张力
参考:韩启德:学科交叉成功的几个要素 | 科学的担当 第一章

4.科学交叉(开放讨论)

4.1 科学交叉趋势

  现代学科呈现出系统综合的态势,学科分化与交叉融合并进,一方面传统学科不断地分化出新的分支,动态演变持续推进;另一方面学科界限日益模糊,单一学科的理念、知识、方法、工具不足以应对重大科学问题。
参考:高瑞平:关于交叉学科研究的思考与战略布局

学科交叉体现了科学的综合化发展趋势

  交叉学科研究是科学发展的主要方向。

  **学科交叉推动“大科学”时代进程。**学科交叉体现了科学的综合化发展趋势。科学上新理论、新学科、新技术的出现常常是在现有学科的边缘或交叉点上。“分化”是小科学时期科学发展的主要动力,“交叉”则是大科学时代科学发展的主要表征。“大科学”时代将会越来越重视科学体系的统一性和完整性,这就是现今科学研究的显著特点和发展趋势。
  参考:诺贝尔奖为何青睐交叉学科

4.2 科学交叉关键问题

  已知交叉学科设置与管理办法(试行)-笔记结论:交叉学科必须紧扣构建概念体系、理论体系、方法体系三大体系,面向重大需求,从新对象、新理论、新方法等角度,提出重要问题、探究深层原理、创新关键技术。

  根据此结论可以给出某一交叉学科中各个相对基础学科承担的角色。然而具体到开源这样的新场景下会诞生怎样的学科呢?

  现实世界的学科交叉是否存在规律呢?

  在特定的社会实践中,物理、化学生物学、生态学人类学、社会科学之间存在着亲疏远近和逻辑次序,即客观事物存在着特定的发展偏好和发展模式。(这里作了修改,分了三级,每一级分别有研究基本结构和复杂结构的两种学科)
  参考:“科学·人生”第四讲丨匡廷云院士:学科交叉与源头创新

  若存在规律,如何借鉴成功的经验?


附录

A. 编辑源

笔记原文链接:从科学起源看交叉学科(原文链接)

B. 应用

  1. 学科交叉思想实验(原文链接)

C. 理论补充

  1. 研究某事物时评价指标的基本视角(原文链接)
  2. 围棋术语分类(原文链接)