科学是一个建立在可检验的解释和对客观事物的形式、组织等进行预测的有序的知识系统,是已系统化和公式化了的知识。其对象是客观现象,内容是形式化的科学理论,形式是语言,包括自然语言与数学语言。
Jim Gray提出的第一范式至第四范式:
- 实验观测(Empirical)-科学归纳
- 理论推导(Theoretical)-模型推演
- 计算仿真(Computational)-仿真模拟
- 数据密集型(Data-Intensive)-关联分析
基于实践与理论之间集合映射的视角,将单一科学的研究按现象、理论、技艺三个方面划分:
- (现象)研究对象:联结、实体、流程
- (理论)研究内容:数(思想原理的证明与计算)、理(基本物质的性质状态)、化(物质的结构功能及转化)
- (技艺)研究形式:数学语言(形式逻辑)、自然语言、编程语言(面向过程及面向对象)
划分依据:
研究对象按现象共现模式划分;
研究内容按理论抽象层次划分;
研究形式按技艺精准程度划分。
评价标准:
-
(现象)研究对象:广博
-
(理论)研究内容:简谐
-
(技艺)研究形式:精准
数据挖掘任务按评价标准划分示例:
评价标准 | 归纳任务 | 演绎任务 | 应用创新(示例) |
---|---|---|---|
现象广博 | 聚类 | 分类 | 偏差分析(异常检测) |
理论简谐 | 关联分析 | 因果推断 | 建模分析(推荐任务及空谱变换可解释性) |
技艺精准 | 回归 | 预测 | 序列分析(拟合优化) |
研究对象继续细分:
a.按认知要素划分
- 联结(网络链接-实际、映射):位置角色【客观需求】、结构功能【主观偏好】、交互方式【矛盾分析与模式识别概率】
- 实体(节点划分-数量、质量):整体【如达尔文式盖亚】、个体、局部
- 流程(流图路径-无源、有源):条件随机场【布局策略】、聚合传播【级联传播】、关键事件【平衡调控与时序演化】
注:将研究对象按认知要素划分时引入了观察者,因此需要注意引入观察者视角带来的映射、质量、有源等建模问题。
与图网络的对应关系:
联结-原理-边(含m:n、跳hop)
实体-事实-点(含motif、子图)
流程-应用-流(含方向、聚合、传播、周期、可约)
划分参考:
- 参考战略兵法
联结:运筹策帷帐之中,决胜于千里之外;知彼(位置角色)知己(结构功能)者,百战不怠(交互方式)。
实体:镇国家,抚百姓,给馈饷,不绝粮道。
流程:连百万之军,战必胜,攻必取。
“夫运筹策帷帐之中,决胜于千里之外,吾不如子房。镇国家,抚百姓,给馈饷,不绝粮道,吾不如萧何。连百万之军,战必胜,攻必取,吾不如韩信。此三者,皆人杰也,吾能用之,此吾所以取天下也。”——西汉·司马迁《史记·高祖本纪》 “知彼知己者,百战不殆。不知彼而知己,一胜一负;不知彼,不知己,每战必殆。”——《孙子兵法·谋攻篇》
研究对象按联结划分示例:
动机分析中的联结、自主、胜任(动力源分别为需求、偏好、技能),分别对应客观(位置角色)、主观(结构功能)、平衡(交互方式)视角。
b.按事实要素划分
以事件或记录为中心,5W1H是经典的划分方式:
- Who
- Where
- When
- Why
- What
- How
其中Who、Where、When属于感知类要素,What、Why、How属于分析类要素。
联结、实体、流程三个要素与5W1H的对应关系:
联结-原理-Why
实体-事实-What
流程-应用-How
What Why How每个方面划分的依据都可以包括Who Where When的属性。
划分参考:
- 参考史书体例 记事视角:纪传体(Who)、国别体(Where)、编年体及断代史体例及通史(When)、纪事本末体(What, How)、典章体(What)、史论及史评(Why)
c.按认知流程划分
认知流程指如何从Who Where When等属性记录的事实数据样本,找出其中的模式遵循的原理,再将原理通过已有模式应用于流程拟合,得出What Why How三个层次之间的定性或定量映射。
据此定义以下对于特定实体的认知流程:
- 联结->特定实体:自顶向下视角,常见分析方式与产物是划分与类别,与a.视角一致
- 实体->特定实体:自底向上视角,常见分析方式与产物是度量与状态,与b.视角一致
- 流程->特定实体:归纳演绎视角,常见分析方式与产物是序列与因果,与c.视角一致
结合评价标准,数据挖掘任务的认知流程及任务划分示例:
现象 | 技艺 | 理论 | 理论 | 技艺 | 现象 | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
混合数据 | -> | 输入空间 | -> | 特征空间 | -> | 隐变量空间 | -> | 模式空间 | -> | 输出空间 | -> | 混合数据 |
聚类 | 分类 | |||||||||||
回归 | 预测 | |||||||||||
关联分析 | 因果分析 |
其中:
编码过程涉及混合数据->输入空间->特征空间->隐变量空间
解码过程涉及隐变量空间->模式空间->输出空间->混合数据
类似U-net结构,可以通过减少编码深度,获取简单的模型(相应的表征能力和可解释性会变差),示例如下:
混合数据->输入空间->特征空间->隐变量空间->模式空间->输出空间->混合数据(可做聚类、回归、关联分析、因果推断、预测、分类)
混合数据->输入空间->高维特征空间网络->输出空间->混合数据(可做聚类、回归、预测、分类,而建模分析不可用)
混合数据->高维表征空间网络->混合数据(可做聚类、分类,而建模分析、序列分析不可用)
d.按关系表征结构划分(额外)
人的认识与学习能力不是无限的,认知的产物需要被储存下来,合理的储存方式可以在保持一定精准度时达到更高效的表征。
按关系的存储结构划分,参考数据结构中的集合、线性结构、树形结构、图形结构划分:
- 实体(节点划分):整体【聚类类比如达尔文式盖亚】、个体【元素表征】、局部【交叉映射】
- 流程(流图路径):前驱【特征聚合】、后继【级联传播】、关键事件【时序演化】
- 层次(层级组织):双亲【分类回归】、孩子【概率生成】、组织策略【评估与决策】
- 图谱(网络联结):位置角色【条件场与客观需求】、结构功能【主观偏好】、交互方式【分析推断与模式识别】
研究对象划分依据:详见基本数据结构与维度的关系
数据结构 | 构建 | 功能 | 应用 |
---|---|---|---|
Set | 聚类 | 表征 | 映射 |
Sequence | 度量 | 索引 | 排序 |
Tree | 分类 | 导航 | 决策 |
Graph | 建模 | 分析 | 推断 |
其中聚类->度量->分类->建模,是依次支撑的。在数据的特征维度不断升高时,对数据碰撞的处理需要不断增加建模复杂度,即从集合到序列到树到图甚至到图模式,能表达的规律是从节点特征到位置到状态到过程到甚至到过程模式。
-
心理需求
- 自主:好奇心、喜好<->利用(有之以为利,无之以为用)
- 胜任:踏实、功夫<->功
- 联结:开创、革新等自我实现的追求<->名
-
生存需求
- 薪水<->禄
-
以史为鉴
- 对客观规律的敬畏
-
把握当下
- 环境控制、生态保护
-
开创未来
-
改善人们的生活、促进社会发展
-
对未来发展的远见
-
科学通过发表研究成果而成为知识。发表研究成果需要有话题背景意义、研究现状、提出问题、方法、实验、结果、结论,向科学期刊投稿,同行专家评审,最终证明研究是用恰当的方法且合理的方式进行的,并且结果贡献了新的有用知识。
由教科书遴选内容,教授和老师从教科书中选择性传授,成为科普常识。
科学是在不断的自我否定中发展进步的。
我们所能希望的最好情况是,我们的理论将在子孙后代进行一些微调的情况下得以生存。
Jim Gray提出的科学范式见1.1,包括实验观测(Empirical)、理论推导(Theoretical)、计算仿真(Computational)、数据密集型(Data-Intensive)共四种范式。
我将其分为6个部分,按科学演化过程排列次序如下(参考:汤超:第三次生命科学革命为何是现在? | 科技史 第一章):
(△事实观测)观察和测量,事实经观察被转化为有价值的信息,经测量被映射为数据。
(○数据分析)特征工程:数据清洗、数据表征、特征之间相关性分析、特征分解、核映射、特征聚合、模式识别;任务:分类、回归、聚类、降维,依次为实验对照、计算仿真、模型构建、理论互洽作准备。
(△实验对照)
(○计算仿真)
(△模型构建)建模分析,可衍生新度量特征:尝试多种变换空间推动学科基质革新。(参考:SOFTWARE METRICS AND SOFTWARE METROLOGY P70 Figure 4.1 Measurement Information Model from ISO 15939)
(○理论互洽)新的理论与已有理论之间在建立模型下应有较好的互洽性。
△表示以个体或少数群体尝试为推动力,包括事实观测、模型构建、实验对照
○表示以众包或多数群体集智为推动力,包括数据分析、理论互洽、计算仿真
从实践到理论再到实践:事实观测->数据分析->模型构建->理论互洽->计算仿真->实验对照。
科学从定量特征到定性概念的归纳,再对特定概念的现象域从定性分析到定量计算的分析与应用。科学可以通过增强精度,极大地增强对某一特征的控制力,从而逼近事物在某一特征上的极限,定向创造现实中从未出现的事物。(参考:汤超:第三次生命科学革命为何是现在? | 科技史 第五章)
科学交叉往往由3种学科交叉,分别涉及研究的现象、理论、技艺三个方面,依次对应于科学研究的对象、内容、形式。
科学交叉要在现象上选取研究对象,在理论上建模研究问题,在技艺上优化研究方法。
其中,研究对象对应的是博物学视角,研究问题对应的自然哲学视角,研究方法对应的工程技术视角。博物学对应Natural History,自然科哲学对应Natural Philosophy,工学对应Engineering。如下表所示。
涉及方面 | 研究要素 | 人文社科视角 | 自然科学视角 | 产物 | 体现科学特征 | 交叉重心 |
---|---|---|---|---|---|---|
现象 | 研究对象 | 历史(History) | 博物学(Natural History) | 行业基质 | 可观察性 | 知识广度 |
理论 | 研究问题 | 哲学(Philosophy) | 自然哲学(Natural Philosophy) | 数学原理 | 逻辑自洽性 | 理论深度 |
技艺 | 研究方法 | 艺术(Art) | 工学(Engineering) | 工程技术 | 可证伪性 | 工艺精度 |
如基因组学是数学(NP部分)和计算机科学(E部分)与生命科学(NH部分)的交叉。
自然科学背景的科学家书写的科学史往往被称为“内史”,历史学家书写的科学史往往被称为“外史”,将科学知识革命与人文社科背景相结合,才能将理论的革新讲清楚,并与生动的人物故事以及社会背景巧妙地融合在一起,分析科学史的必然趋势与关键变革点。
参考:韩启德:学科交叉成功的几个要素 | 科学的担当 第一章、问答
难点:如何将**科学知识革命与人文社科背景相结合,**总结交叉学科的技艺基质,从技艺的量变分析学科质变趋势?
科学交叉的成就也可以根据自然科学的视角分为三类,任何一个方面都可能率先突破。
下面以生物科学中不同方面的巨大科技成就举例:
a.博物学视角:青蒿素治疗疟疾(参考治疗疟疾的青蒿素是怎么发现的,其中《本草纲目》《肘后备急方》对治疗疟疾的经验性总结对青蒿素的发现起到了重要启发作用,视为博物学视角成就)
b.自然哲学视角:DNA分子双螺旋结构
c.工学视角:基因工程(开源领域将以开源知识库计划为核心开展研究)
生物信息学
生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。(Luscombe,2001)
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:⑴新算法和统计学方法研究;⑵各类数据的分析和解释;⑶研制有效利用和管理数据新工具。本书介绍了一些重要的分析基因组序列的生物信息学计算方法。(Laura Elnitski, 2015)
生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
交叉:基因组学和蛋白质组学等的原理(NP部分)和信息科学分析(E部分)与基因组学和蛋白质组学等的数据(NH部分)
目前的研究方向主要有:序列比对、序列组装、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及分子进化模型
研究对象(按关系结构划分):
按认知要素划分:
联结:功能作用与显隐性、特殊结构与稳定性、识别比对与组合预测
实体:序列、基因、蛋白质
流程:药物设计、归因分析 、进化演化
组合示例:
联结+实体:序列稳定性、基因显性隐性、蛋白质结构功能预测、序列比对、基因识别、序列组装、基因重组……
实体+流程:分子进化模型
联结+流程:药物设计、病理分析与药理作用机制分析、结构演化
按关系表征结构划分:
实体:序列、基因、蛋白质、实体之间的交叉(如基因重组)
流程:序列比对、进化演化
层次:基因识别、序列组装、基因表达、组合预测
图谱:功能作用与显隐性、特殊结构与稳定性、基因组学与蛋白质组学
组合示例:
图谱+实体:序列稳定性、蛋白质结构功能预测……
实体+流程:分子进化模型
图谱+流程:药物设计、病理分析与药理作用机制分析、结构演化
研究内容:
数(形式逻辑):数据处理、定量计算、统计学方法分析
理(物质状态):核酸、密码子、官能团
化(结构功能)【物质相互转化】:基因表达、蛋白质反应的预测、中心法则
研究形式:数学语言、自然语言、程序语言(基因组计划)
-
(学科交叉)其他学科的理论可以应用到某领域
-
(技术进步)完善已有领域时需要探索更细粒度的现象,且测量工具的精度提高
-
(学科交叉)交叉出新领域,发现了现有理论无法解释的新现象
-
(学科交叉)交叉的新领域无法完全用还原论解释,需要新理论
“基因组学革命就让我们得到了这个汽车的说明书,就是我们的基因组,所有的信息都在说明书里边,但是我们基本上看不懂。大概知道方向盘在第几页,这一段基因对应这个蛋白。至于这个汽车是怎么组装起来的,为什么能跑起来,能跑多快,能跑多久,我们不知道。坏了怎么修,里边有哪些原理性东西,哪些是普适的规律,哪些是特殊的,这些基本上都不知道,所以生命科学现在是处在一个大革命的前夜。”
参考:汤超:第三次生命科学革命为何是现在? | 科技史 第三章
技术进步、学科交叉是科学革命的常见征兆。
参考:汤超:第三次生命科学革命为何是现在? | 科技史 第六章
现代科学通常分为三个主要分支,自然科学(例如:生物学,化学和物理学等),研究个人和社会的社会科学(例如经济学,心理学和社会学),以及研究抽象概念的形式科学(例如逻辑,数学,计算机科学)。但形式科学是否真正构成一门科学是有分歧的,因为它们不依赖经验证据。另外,将现有科学知识用于工程和医学等实际目的的学科被称为应用科学。
形式科学 | 自然科学 | 社会科学 | |
---|---|---|---|
基础 | 逻辑学、数学、统计学 | 物理学、化学、生物学、地球科学、太空科学、环境科学、天文学 | 经济学、政治学、社会学、心理学、历史学、人类学 |
应用 | 计算机科学 | 工学、农学、医学、药学 | 工商管理、法学、教育学、会计学、金融学、管理学、市场学 |
科学按研究对象的不同可分为自然科学、社会科学和思维科学三大类。结合上述三个主要分支,以及最近被不断提及的交叉科学,又有一种划分为自然科学、社会科学、思维科学、形式科学、交叉科学五大类。
自然科学在近代被分为自然哲学(Natural Philosophy)和博物学(Natural History),直到19世纪**“科学”Science**才被广泛使用。
科学细分学科实为晚近之事。
科学起源于古希腊时期,那时虽然也分所谓的 “四艺”(算术、几何、天文学、音乐),及至中世纪时欧洲博雅教育中的 “七艺”(再加文法、逻辑、修辞),这些完全不是科学意义上的分科。一直到近代科学革命后的相当长时期内,科学仍是不分科的。尽管后来逐渐产生了很少数的领域很宽、界限模糊的学科,但人们还是常常把自然科学仅分成自然哲学(Natural Philosophy)和博物学(Natural History)两大类。牛顿最重要的著作《自然哲学的数学原理》,从现在看来基本都是物理学或者力学的内容,但17世纪时还只是归于自然哲学。达尔文在1859年出版的《物种起源》,当时虽然已有生物学乃至更细的分科,但仍被归入博物学的著作。 直到19世纪,科学分支和分科才越来越多,同时 Science 这个英文词才被广泛使用。19世纪60年代,日本明治维新在引进欧洲科学时,由于那时欧洲的 Science 已经形成分科的局面,日本人依照自己的理解把 Science 译成了日文的 “科学” 两字。后来中国从日文直接引进,也使用了 “科学” 来表示 Science。
分科远远不是科学真正的内涵。
从不同尺度不同角度发展的交叉科学推动科学革命。总体尺度越来越小,越来越精细。
生物学界的年轻一代不满足前辈们基于形态、观察、描述和归纳的研究模式。从20世纪开始,他们把物质科学基于实验的研究模式引入生物学,建立起了生物化学、生物物理学、细胞生物学。同时胚胎学的重点转移到实验胚胎学,遗传学的重点转移到分子遗传学。1953年 DNA双螺旋结构破解后分子生物学兴起,学科结构和边界再一次迅速变动,形成以基因研究为主导、分子生物学研究为中心的生命科学学科结构。
重大颠覆性创新多数发生在不同学科的交界处。学科发展的总体趋势是从博物学方法到实验方法,从形态到功能,从整体到分子;学科不断细分,而同时又保持着从分到合、从还原到综合的一定张力。
参考:韩启德:学科交叉成功的几个要素 | 科学的担当 第一章
现代学科呈现出系统综合的态势,学科分化与交叉融合并进,一方面传统学科不断地分化出新的分支,动态演变持续推进;另一方面学科界限日益模糊,单一学科的理念、知识、方法、工具不足以应对重大科学问题。
参考:高瑞平:关于交叉学科研究的思考与战略布局
学科交叉体现了科学的综合化发展趋势
交叉学科研究是科学发展的主要方向。
**学科交叉推动“大科学”时代进程。**学科交叉体现了科学的综合化发展趋势。科学上新理论、新学科、新技术的出现常常是在现有学科的边缘或交叉点上。“分化”是小科学时期科学发展的主要动力,“交叉”则是大科学时代科学发展的主要表征。“大科学”时代将会越来越重视科学体系的统一性和完整性,这就是现今科学研究的显著特点和发展趋势。
参考:诺贝尔奖为何青睐交叉学科
已知交叉学科设置与管理办法(试行)-笔记结论:交叉学科必须紧扣构建概念体系、理论体系、方法体系三大体系,面向重大需求,从新对象、新理论、新方法等角度,提出重要问题、探究深层原理、创新关键技术。
根据此结论可以给出某一交叉学科中各个相对基础学科承担的角色。然而具体到开源这样的新场景下会诞生怎样的学科呢?
现实世界的学科交叉是否存在规律呢?
在特定的社会实践中,物理、化学,生物学、生态学,人类学、社会科学之间存在着亲疏远近和逻辑次序,即客观事物存在着特定的发展偏好和发展模式。(这里作了修改,分了三级,每一级分别有研究基本结构和复杂结构的两种学科)
参考:“科学·人生”第四讲丨匡廷云院士:学科交叉与源头创新
若存在规律,如何借鉴成功的经验?
笔记原文链接:从科学起源看交叉学科(原文链接)
- 学科交叉思想实验(原文链接)
- 研究某事物时评价指标的基本视角(原文链接)
- 围棋术语分类(原文链接)