探索知识的边界

"The unexamined life is not worth living."

关于我

这里是个人知识管理的数字花园,记录学习轨迹与思维探索。从基础数学的严谨推理,到数据工程的系统架构,再到人工智能的前沿技术,以及东西方哲学的思想碰撞——每一个领域都是理解世界的一扇窗。

知识领域

  • 基础数学 — 微积分、线性代数、概率论与数理统计
  • 数据开发 — 分布式系统、数据建模、调度与治理
  • 人工智能 — 统计机器学习、深度学习与大模型
  • 哲学 — 东方哲学与西方哲学的思想对话

学习目标

建立跨学科的知识连接,用数学的严谨性理解算法,用工程的系统性落地智能,用哲学的深度审视技术。在这个快速变化的时代,保持底层能力的持续积累。

基础数学

理解世界的语言,一切科学的基石

微积分

学习进度 40%

研究变化与运动的数学工具。极限、导数与积分构成了理解连续变化的核心框架,是物理学与工程学的语言基础。

核心概念

  • 极限与连续性 — ε-δ 语言的严格定义
  • 微分学 — 导数、微分与中值定理
  • 积分学 — 不定积分、定积分与微积分基本定理
  • 级数理论 — 泰勒展开与傅里叶级数

学习资源

  • 《普林斯顿微积分读本》
  • MIT 18.01 单变量微积分
  • 3Blue1Brown 微积分系列
极限 导数 积分 级数
𝕄

线性代数

学习进度 25%

向量空间与线性变换的理论。矩阵运算、特征分解与奇异值分解是现代数据科学和机器学习不可或缺的数学工具。

核心概念

  • 向量空间 — 基、维数与线性相关性
  • 矩阵理论 — 秩、逆矩阵与行列式
  • 特征分解 — 特征值、特征向量与对角化
  • SVD 分解 — 主成分分析与降维

学习资源

  • 《线性代数及其应用》David Lay
  • MIT 18.06 线性代数
  • 3Blue1Brown 线性代数本质
向量 矩阵 特征值 SVD

概率论

学习进度 15%

研究随机现象的数学理论。从古典概型到现代测度论框架,为不确定性建模提供了严格的数学基础。

核心概念

  • 概率空间 — 样本空间、事件与概率测度
  • 随机变量 — 离散型与连续型分布
  • 数字特征 — 期望、方差与协方差
  • 极限定理 — 大数定律与中心极限定理

学习资源

  • 《概率论基础》李贤平
  • Harvard Stat 110
  • 《概率论与数理统计》茆诗松
随机变量 分布 期望 大数定律
Σ

数理统计

学习进度 10%

从数据中提取信息的科学。参数估计、假设检验与回归分析是数据驱动决策的理论支撑。

核心概念

  • 参数估计 — 点估计与区间估计
  • 假设检验 — 显著性检验与 p 值
  • 回归分析 — 线性回归与逻辑回归
  • 贝叶斯统计 — 先验、似然与后验

学习资源

  • 《统计推断》Casella & Berger
  • 《数理统计学教程》陈希孺
  • Stanford CS229 机器学习数学基础
估计 检验 回归 贝叶斯

数据开发

构建数据驱动的技术基础设施

分布式存储

学习进度 60%

海量数据的可靠存储方案。HDFS、对象存储与分布式数据库解决了单机的容量与性能瓶颈,支撑 PB 级数据管理。

核心概念

  • HDFS — 主从架构、副本机制与容错
  • 对象存储 — S3 协议与数据分层
  • NoSQL 数据库 — HBase、Cassandra 的 LSM 树
  • 分布式文件系统 — Ceph 的 CRUSH 算法

实践经验

  • HDFS 集群搭建与调优
  • 冷热数据分层存储策略
  • 对象存储与 CDN 加速
HDFS S3 HBase Ceph

分布式计算

学习进度 55%

并行处理大规模数据的计算框架。MapReduce、Spark 与 Flink 分别代表了批处理与流计算的核心范式。

核心概念

  • Spark — RDD、DataFrame 与 Spark SQL
  • Flink — 事件时间、窗口与状态管理
  • MapReduce — 分治思想与 Shuffle 优化
  • Ray — 分布式机器学习框架

实践经验

  • Spark 性能调优与内存管理
  • Flink 实时数仓建设
  • 流批一体架构设计
Spark Flink MapReduce Ray

维度建模

学习进度 70%

数据仓库设计的核心方法论。星型模型与雪花模型通过事实表和维度表的组织,优化分析查询性能。

核心概念

  • 星型模型 — 事实表 surrounded by 维度表
  • 雪花模型 — 规范化维度减少冗余
  • 缓慢变化维 — SCD Type 1/2/3
  • 数据集市 — 主题域与总线架构

实践经验

  • 电商数据仓库建模实战
  • 用户行为事实表设计
  • 维度退化与桥接表处理
星型模型 事实表 维度表 Kimball

调度系统

学习进度 50%

数据管道的自动化编排。Airflow、DolphinScheduler 等工具实现了复杂依赖关系的任务调度与监控。

核心概念

  • Airflow — DAG 定义、Operator 与传感器
  • DolphinScheduler — 可视化工作流设计
  • 任务依赖 — 上游失败与重试策略
  • 监控告警 — SLA 与数据质量检查

实践经验

  • ETL 管道自动化编排
  • 数据血缘追踪与影响分析
  • 异常自动重试与告警
Airflow Dolphin Crontab DAG

人工智能

让机器拥有理解、学习与创造的能力

统计机器学习

学习进度 45%

从数据中学习的经典方法。监督学习、无监督学习与强化学习构成了机器学习的三大范式,SVM、随机森林与梯度提升树等算法至今仍在广泛应用。

核心概念

  • 监督学习 — 分类、回归与模型评估
  • 集成方法 — Bagging、Boosting 与 Stacking
  • SVM — 核技巧与最大间隔分类
  • 树模型 — 决策树、随机森林与 XGBoost

学习资源

  • 《统计学习方法》李航
  • 《机器学习》周志华(西瓜书)
  • Stanford CS229
监督学习 SVM 集成学习 XGBoost

深度学习

学习进度 35%

多层神经网络的表示学习。从 CNN 的图像理解到 RNN 的序列建模,再到 Transformer 的注意力机制,深度学习推动了 AI 的爆发式发展。

核心概念

  • CNN — 卷积、池化与经典网络架构
  • RNN/LSTM — 序列建模与梯度消失
  • Transformer — 自注意力与位置编码
  • 优化 — SGD、Adam 与学习率调度

学习资源

  • 《深度学习》Goodfellow(花书)
  • Stanford CS231n 卷积神经网络
  • 3Blue1Brown 神经网络系列
CNN RNN Transformer Attention

哲学

追问存在、知识与价值的根本问题

东方哲学

学习进度 20%

儒释道三家构成了东方思想的核心。儒家强调仁义礼智与社会伦理,道家追求自然无为与天人合一,佛家探讨缘起性空与心性觉悟。禅宗更是融合中印智慧,以顿悟直指人心。

核心经典

  • 儒家 — 《论语》《孟子》《大学》《中庸》
  • 道家 — 《道德经》《庄子》《列子》
  • 佛家 — 《金刚经》《心经》《六祖坛经》
  • 禅宗 — 公案、话头与顿悟法门

思考主题

  • 内圣外王 — 个人修养与社会责任
  • 天人合一 — 人与自然的和谐关系
  • 心性论 — 良知与本心的发现
儒家 道家 佛家 禅宗

西方哲学

学习进度 15%

从古希腊的本体论追问到近代的认识论转向,再到现代的语言分析。柏拉图的理念论、康德的批判哲学、维特根斯坦的语言游戏——西方哲学提供了严密的逻辑分析工具。

核心脉络

  • 古希腊 — 柏拉图、亚里士多德的本体论
  • 近代 — 笛卡尔、康德的认识论转向
  • 现代 — 分析哲学与语言转向
  • 当代 — 存在主义与后现代思潮

核心问题

  • 什么是真实的? — 实在论与反实在论
  • 我们如何知道? — 理性主义与经验主义
  • 语言与意义 — 指称与真理
本体论 认识论 语言哲学 存在主义