Ralph's Blog

正在加载...

TechStack

点击刷新

2.网络知识

网络基础知识目录点击展开目录网络基础知识目录网络设备与硬件网络设备与硬件常见网络设备光猫（ONU/ONT）路由器光猫与路由器的关系路由器与 MAC 地址全解析路由器的多重 MAC 结构 Wi-Fi 扫描到的 MAC 地址是谁？ Wi-Fi 连接过程中的 MAC 关系 Mesh 网络中的多 AP MAC 公司网络架构 MAC地址相关知识单播、组播、广播MAC地址基础知识组播MAC地址相关知识特殊MAC地址前缀解析网关与WIFI 网关基础知识网关（Gateway）概述网关类型详解网关工作原理 NAT与端口映射网关故障排查 Wi-Fi 基础知识 Wi-Fi（Wireless Fidelity）概述 Wi-Fi标准演进与技术对比频段分析与信道规划 Wi-Fi安全协议详解企业级Wi-Fi部署方案 Wi-Fi性能优化与监控 Wi-Fi与网关基础 Wi-Fi（无线局域网）网关（Gateway） IP地址与网络寻址 IP 基础知识 IP（Internet Protocol） IPv4 地址 IPv6 地址城域网IP与公网IP 局域网IP与公网IP关系常见IP地址段速查表局域网IP（私有IP）公网IP NAT（网络地址转换）与端口映射关系与通信流程典型应用场景安全注意事项 IP冲突相关问题什么是IP冲突？产生原因常见表现排查与解决方法进阶知识三、网络协议与通信机制 TCP/IP协议栈协议层次结构 TCP与UDP对比三次握手与四次挥手常见端口号与服务 HTTP/HTTPS协议 HTTP完整请求处理流程 AWDL相关知识什么是AWDL？ AirDrop 工作流程详解核心技术组件详解扩展：macOS 常见网络接口对比 DHCP相关知识什么是DHCP？工作原理主要优势常见应用场景进阶知识常见问题与排查 UPnP相关知识什么是UPnP？工作原理优势与局限性常见应用场景安全注意事项 ARP相关知识什么是ARP？工作原理优势与局限性常见应用场景安全注意事项 FDB(Forwarding Database) 什么是FDB? FDB工作原理 FDB表项结构 FDB表项类型 FDB与ARP的关系 DNS相关知识什么是DNS？ DNS的工作原理优势与局限性常见应用场景安全注意事项 CDN相关知识什么是CDN？ CDN的工作原理优势与局限性常见应用场景安全注意事项 NAT相关知识什么是NAT？ NAT的工作原理 NAT类型详解优势与局限性常见应用场景安全注意事项 NAT与IPv6 NAT工作流程图常用网络命令基础网络诊断命令网络接口配置命令高级网络分析工具性能测试工具实际问题排查流程 VPN与代理技术 VPN相关知识什么是VPN？工作原理主要用途常见类型进阶知识常见问题与排查安全注意事项翻墙（科学上网）原理补充主流翻墙协议补充主流翻墙协议优缺点对比从中国翻墙到国外从国外翻墙到国内安全与合规风险家庭网络结构与流程图家庭电脑上网浏览获取数据详细流程图手机翻墙获取网页信息详细流程图场景说明流程图详细说明国内用户在CF部署翻墙节点VLESS的时序图 GFW相关知识什么是GFW？工作原理优势与局限性常见应对方法安全与合规注意事项 GFW的实现方式技术细节应对技术网络安全网络安全基础常见网络攻击类型网络安全防护措施加密技术基础网络安全最佳实践网络安全防护措施加密技术基础网络安全最佳实践网络诊断与故障排查网络故障排查常见网络问题与解决方案网络诊断工具排查流程与方法论网络设备与硬件网络设备与硬件常见网络设备光猫（ONU/ONT）定义：光纤调制解调器（Optical Network Unit/Optical Network Terminal），是光纤到户（FTT案中的核心设备，将运营商的光信号转换为家庭/企业可用的以太网信号。主要功能：信号转换（光→电）：实现光纤信号与以太网信号的互通。宽带拨号（PPPoE）：部分光猫支持直接拨号上网。电话功能：部分型号集成语音端口，支持固话接入。简单 Wi-Fi：部分光猫自带基础无线功能，但信号覆盖和性能有限。进阶知识：光猫分为桥接模式（Bridge）和路由模式（Router），桥接模式下需外接路由器拨号，路由模式下光猫自身拨号并分配IP。部分运营商会对光猫进行定制和管理，用户更换或重置需注意兼容性和认证问题。常见问题：光猫故障会导致全网断网，常见表现为PON灯异常、LOS灯闪烁。光猫性能瓶颈可能影响带宽利用率，建议高带宽场景选用高性能路由器分流。路由器定义：路由器是连接不同网络、转发数据包的网络设备，家庭和企业网络的核心。主要功能：设备连接管理：支持多终端有线/无线接入。 Wi-Fi覆盖：提供无线网络接入，支持多频段、多SSID。网络优化与安全：如QoS带宽管理、家长控制、防火墙、VPN、访客网络等。 NAT转换：实现私有IP与公网IP的转换，支持端口映射、UPnP等。进阶知识：支持多种工作模式：路由、AP、桥接、中继、Mesh组网等。企业级路由器支持VLAN、静态/动态路由、ACL访问控制等高级功能。常见问题：路由器过载会导致掉线、卡顿，建议定期重启或升级固件。信号死角可通过Mesh、信号放大器等方式优化。 graph TD %% ================== Internet Layer =================== subgraph Internet["🌐 互联网"] ISP_DNS["🧭 公网DNS服务器（域名→公网IP）"] ISP_GW["🏢 ISP网关公网路由节点"] end %% ================== Modem Layer =================== subgraph Modem["💡 光猫（Modem）"] Modem_WAN["🌐 WAN接口连接ISP（公网IP）"] Modem_LAN["🔌 LAN接口192.168.0.1提供给路由器"] end %% ================== Router Layer =================== subgraph Router["📡 家用路由器"] Router_WAN["🌐 WAN口获取IP:192.168.0.2(由光猫DHCP分配)"] Router_LAN["🔌 LAN口（内网）192.168.1.1"] Router_DHCP["📦 DHCP服务器给设备分配IP"] Router_NAT["🔄 NAT转换内网IP→外网IP映射"] Router_DNS["🧭 本地DNS缓存加速解析"] Router_ARP["📘 ARP表记录内网IP↔MAC"] Router_Table["📗 路由表决定数据转发方向"] end %% ================== Devices Layer =================== subgraph Devices["🏠 家庭设备（LAN/Wi-Fi）"] Phone["📱 手机192.168.1.101MAC:AA-AA-AA"] PC["💻 电脑192.168.1.102MAC:BB-BB-BB"] TV["📺 电视192.168.1.103MAC:CC-CC-CC"] end %% ================== Connections =================== ISP_GW --> ISP_DNS ISP_GW --> Modem_WAN Modem_LAN --> Router_WAN Router_LAN --> Phone Router_LAN --> PC Router_LAN --> TV %% ================== Logical Flow =================== Phone -. 使用DHCP获取IP .-> Router_DHCP Phone -. 通过ARP解析网关MAC .-> Router_ARP Phone -. 请求域名DNS解析 .-> Router_DNS Router_DNS -. 若无缓存，转发到 .-> ISP_DNS Phone -. 出网访问 .-> Router_NAT Router_NAT -. 内网IP封装 .-> Router_WAN Router_WAN -. 发往上级 .-> Modem_WAN Modem_WAN -. 上传至 .-> ISP_GW 光猫与路由器的关系网络结构：光猫负责接入运营商网络，路由器负责内部网络管理和分发。连接方式：光纤→光猫→（网线）→路由器WAN口→家庭/企业终端。一体机与分体机：一体机集成光猫和路由器功能，适合简单场景；分体机便于灵活扩展和升级。进阶知识：桥接模式下，光猫仅做信号转换，路由器负责拨号和分配IP，便于网络管理和安全隔离。路由模式下，光猫和路由器均可分配IP，易出现双重NAT，影响端口映射和远程访问。实际案例：家庭宽带升级千兆后，建议光猫桥接+千兆路由器，充分发挥带宽优势。路由器与 MAC 地址全解析 MAC 地址（Media Access Control Address）是网络设备的物理地址，用于标识网络接口卡（NIC）。它工作在数据链路层（OSI 第二层），在同一局域网中唯一。 ...

计算机基础 #网络 #TCP/IP #HTTP #HTTPS #DNS

3.clickhouse

ClickHouse 目录点击展开目录 ClickHouse 目录 ClickHouse 基础概念 ClickHouse 简介核心优势应用场景 ClickHouse 架构设计整体架构核心组件 ClickHouse 核心特性列式数据库管理系统高效的数据压缩向量化执行引擎多核心并行处理实时数据写入完善的 SQL 支持分布式与水平扩展 ClickHouse 存储引擎 MergeTree 系列引擎 Log 系列引擎集成引擎引擎选择策略 ClickHouse 数据类型基础数据类型复合数据类型（tuple）特殊数据类型数据操作查询数据插入数据导出数据 JSON 数据写入与解析 Bitmap操作 Map操作数组操作数组基础操作数组集合操作数组排序与查找数组高阶函数与算法数组性能优化与Hive聚合函数对比字符串操作条件与控制函数 multiIf函数 if函数条件聚合函数空值处理函数数值比较函数复杂条件组合性能优化建议日期时间函数时间获取函数时间格式化函数时间计算函数实际应用示例数学函数基本数学运算三角函数随机函数统计函数实际应用示例 URL和编码函数 URL处理函数字符编码函数实际应用示例哈希和加密函数哈希函数实际应用示例地理函数系统管理系统表详解跨集群、节点查询查询监控系统表查询示例性能监控增删改查DDL 数据迁移与备份批量数据处理最佳实践 ClickHouse文件存储底层文件存储格式数据插入过程详解 ClickHouse 查询优化查询执行原理索引优化 JOIN GROUP BY 分区优化压缩优化内存优化 ClickHouse 集群管理集群架构分片策略复制机制负载均衡 ClickHouse 运维实践备份恢复数据迁移性能调优故障排查 ClickHouse 典型面试题与答疑基础概念面试题架构设计面试题性能优化面试题运维监控面试题实际应用面试题高频性能优化面试题架构设计高频面试题故障排查高频面试题实战经验面试题存储层面优化面试题数据库对比面试题 ClickHouse 高级特性物化视图字典功能 UDF 数据采样 TTL(Time To Live) ClickHouse 安全与权限管理用户管理权限控制网络安全 ClickHouse 监控与告警监控指标告警配置日志管理 ClickHouse 业务实践与案例实时数据分析平台日志分析系统时序数据存储 ClickHouse 故障排查与优化常见问题诊断性能调优策略集群运维集群配置 ClickHouse 基础概念 ClickHouse 简介 ClickHouse 是由俄罗斯搜索引擎巨头 Yandex 于 2016 年开源的列式数据库管理系统（DBMS），专门为在线分析处理（OLAP）场景设计。其名称来源于 “Click” 和 “House” 的组合，寓意为"点击数据仓库"，最初就是为了分析 Yandex.Metrica（网站分析平台）产生的海量点击流数据而诞生。 ...

大数据 #ClickHouse #OLAP #列式存储 #SQL #数据库

4.hadoop

目录目录 Hadoop 基础概念 Hadoop 生态系统 Hadoop 核心组件 Hadoop 生态系统组件 HDFS 分布式文件系统 HDFS 架构与原理 HDFS 设计目标 HDFS 架构图 HDFS 核心组件 1. NameNode（主节点） 2. DataNode（数据节点） 3. Secondary NameNode（辅助节点） HDFS 读写流程 HDFS 写流程 HDFS 读流程详细代码示例 HDFS 容错机制 1. 数据块复制 2. 故障检测与恢复 MapReduce 编程模型 MapReduce 原理与流程 MapReduce 编程模型 MapReduce 执行流程详细执行流程 MapReduce 核心组件 1. JobTracker（作业跟踪器） 2. TaskTracker（任务跟踪器） 3. Map Task（映射任务） 4. Reduce Task（归约任务） MapReduce 编程示例完整示例：单词计数 MapReduce 优化策略 1. 数据本地化优化 2. 内存优化 3. 压缩优化 YARN 资源管理器 YARN 架构与原理 YARN 设计目标 YARN 架构图 YARN 核心组件 1. ResourceManager（资源管理器） 2. NodeManager（节点管理器） 3. ApplicationMaster（应用程序主控器） YARN 资源调度 1. 调度器类型 2. Capacity Scheduler 配置 YARN 应用管理 1. 应用程序生命周期 2. 应用程序监控 Hadoop 核心组件详解 HDFS 源码解析 NameNode 源码分析 NameNode 启动流程 FSNamesystem 核心功能 DataNode 源码分析 DataNode 启动流程数据块读写实现 HDFS 客户端源码分析客户端写操作客户端读操作 MapReduce 源码解析 JobTracker 源码分析 JobTracker 启动流程作业调度实现 TaskTracker 源码分析 TaskTracker 启动流程任务执行实现 MapReduce 任务执行源码分析 Map任务执行 Reduce任务执行 YARN 源码解析 ResourceManager 源码分析 ResourceManager 启动流程资源调度实现 NodeManager 源码分析 NodeManager 启动流程容器管理实现 ApplicationMaster 源码分析 ApplicationMaster 实现 Hadoop 性能优化 HDFS 性能优化存储优化 1. 数据块大小优化 2. 复制因子优化 3. 存储类型优化网络优化 1. 网络拓扑优化 2. 数据传输优化配置优化 1. NameNode优化 2. DataNode优化 MapReduce 性能优化任务优化 1. Map任务优化 2. Reduce任务优化数据优化 1. 输入格式优化 2. 输出格式优化算法优化 1. 数据倾斜处理 2. 内存优化 YARN 性能优化资源调度优化 1. 调度器选择 2. Capacity Scheduler 优化 3. Fair Scheduler 优化内存管理优化 1. 内存分配策略 2. 内存监控队列管理优化 1. 队列配置优化 2. 队列监控性能监控与调优性能指标监控 1. HDFS性能指标 2. MapReduce性能指标 3. YARN性能指标性能调优工具 1. 性能分析工具 2. 性能测试工具 Hadoop 运维与监控集群部署环境准备 1. 系统要求 2. 环境配置 3. 网络配置安装配置 1. Hadoop下载安装 2. 核心配置文件 3. 集群配置集群启动 1. 启动流程 2. 启动脚本 3. 停止脚本监控管理系统监控 1. 系统资源监控 2. 集群状态监控应用监控 1. 作业监控 2. 任务监控日志管理 1. 日志配置 2. 日志分析故障排查常见问题 1. NameNode问题 2. YARN问题 3. MapReduce问题诊断方法 1. 系统诊断 2. 集群诊断解决方案 1. 性能问题解决 2. 故障恢复 Hadoop 高级特性高可用性 HDFS高可用 1. NameNode高可用架构 2. JournalNode配置 3. 自动故障切换 YARN高可用 1. ResourceManager高可用 2. 状态存储配置安全性 Kerberos认证 1. Kerberos配置 2. 服务主体配置 3. 用户认证访问控制 1. HDFS权限控制 2. YARN队列权限扩展功能 HDFS Federation 1. Federation架构 2. ViewFS配置数据压缩 1. 压缩编解码器 2. 压缩配置数据格式优化 1. 列式存储 2. 序列化格式 Hadoop 典型面试题与答疑基础概念面试题 1. Hadoop生态系统 2. HDFS架构 3. MapReduce原理高级特性面试题 4. HDFS高可用 5. YARN资源调度 6. 数据倾斜处理性能优化面试题 7. HDFS性能优化 8. MapReduce性能优化 9. 内存管理运维管理面试题 10. 集群监控 11. 故障排查 12. 安全配置实际应用面试题 13. 数据处理流程 14. 性能调优实践 15. 最佳实践面试技巧总结 1. 技术深度 2. 技术广度 3. 问题解决能力 4. 学习能力 Hadoop 基础概念 Hadoop 生态系统 Hadoop是一个开源的分布式计算平台，主要用于处理大规模数据集。它由Apache软件基金会开发，是大数据处理的基础框架。 ...

大数据 #Hadoop #HDFS #MapReduce #YARN #大数据

5.hive

Hive 参考指南目录点击展开目录 Hive 参考指南目录 Hive 基础概念 Hive简介 Hive核心特性 Hive应用场景 Hive架构核心组件 Hive工作原理查询执行流程 HQL转换为MapReduce Hive vs 传统数据库 Hive 安装与配置环境准备系统要求依赖软件安装步骤配置详解元数据库配置 Hive 数据类型基本数据类型复杂数据类型 ARRAY类型 MAP类型 STRUCT类型类型转换 1. SQL 函数与语法 1.1 日期与时间处理 1.2 字符串处理 1.3 聚合函数 1.4 数组与集合操作 1.5 JSON 处理 1.6 条件与判断 1.7 分组与聚合 1.8 窗口函数 1.9 WITH 语句 1.10 JOIN 操作 2. 表操作 2.1 建表与压缩格式存储格式对比压缩格式对比详细建表示例 2.2 分桶与分区分区策略详解分桶策略详解 2.3 优化配置详细优化配置 2.4 实用查询示例实际应用查询示例 3. UDF与自定义函数 3.1 地理位置函数更多地理位置UDF示例 3.2 数据验证函数更多数据验证UDF示例 3.3 字符处理函数更多字符处理UDF示例 3.4 布隆过滤器更多高级UDF示例 4. Hive 性能优化 4.1 查询优化查询计划分析查询优化技巧 4.2 存储优化存储格式选择压缩策略 4.3 配置优化内存配置并行配置 4.4 常见问题排查性能问题诊断常见错误解决 5. Hive 运维管理 5.1 元数据管理元数据库维护统计信息管理 5.2 权限管理用户权限管理角色管理 5.3 监控与日志日志配置监控指标 5.4 备份与恢复数据备份策略恢复策略 6. Hive 高级特性 6.1 ACID事务事务表创建与使用事务操作示例 6.2 流处理支持 Hive Streaming API 实时数据写入 6.3 向量化执行向量化配置性能提升效果 6.4 物化视图物化视图创建自动查询重写 7. Hive 与其他组件集成 7.1 Hive on Spark 配置与优化性能对比 7.2 Hive与Kafka集成实时数据接入流批一体架构 7.3 Hive与HBase集成外部表映射数据同步策略 7.4 Hive与Elasticsearch集成数据导入导出全文检索查询 8. Hive 面试题集锦 8.1 基础概念题 Hive原理机制 8.2 性能优化题 8.3 实战应用题 8.4 架构设计题 9. 参考链接与外部资源 Hive 基础概念 Hive简介 Apache Hive 是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive最初由Facebook开发，用于处理海量结构化日志数据。 ...

大数据 #Hive #数据仓库 #SQL #MapReduce #Hadoop

6.Java

Java 高级特性与核心概念目录点击展开目录 Java 高级特性与核心概念目录 Java 基础核心面向对象编程封装（Encapsulation）继承（Inheritance）多态（Polymorphism）异常处理机制异常体系结构异常处理最佳实践字符串处理泛型机制泛型基础使用枚举类型枚举高级用法 JVM 核心机制类加载机制详解分代收集算法详细说明 JVM 内存模型详解内存区域详细说明锁机制详解并发容器 ConcurrentHashMap实现原理与机制原子操作类集合框架集合框架概览 List集合 ArrayList实现原理与机制 LinkedList实现原理与机制线程安全的List实现 Set集合 HashSet实现原理与机制 TreeSet实现原理与机制特殊Set实现 Map集合 HashMap实现原理与机制 TreeMap实现原理与机制特殊Map实现 Queue集合基本队列实现阻塞队列实现集合性能对比时间复杂度对比表详细性能分析集合选择决策树场景化选择指南性能调优建议集合使用最佳实践函数式编程 Lambda表达式 Stream API 函数式接口方法引用反射与注解反射机制注解处理动态代理特殊Set实现函数式编程 Lambda表达式 Stream API 反射与注解反射机制注解处理垃圾回收机制垃圾回收基本原理垃圾回收算法标记-清除算法标记-复制算法标记-整理算法分代收集算法垃圾收集器新生代收集器老年代收集器混合收集器垃圾收集器选择性能优化性能优化策略多线程编程线程基础线程生命周期线程创建与使用线程池详解线程池工作流程线程池实现线程安全同步机制线程协作线程池最佳实践设计模式设计模式概述设计模式的优势设计原则模式分类创建型模式（5种）单例模式工厂方法模式抽象工厂模式建造者模式原型模式结构型模式（7种）适配器模式桥接模式组合模式装饰器模式外观模式享元模式代理模式行为型模式（11种）责任链模式命令模式解释器模式迭代器模式中介者模式备忘录模式观察者模式状态模式策略模式模板方法模式访问者模式设计模式对比与选择创建型模式对比结构型模式对比行为型模式对比设计模式实际应用场景 Spring框架中的设计模式 JDK中的设计模式实际开发建议常见面试题基础知识面试题 Java基础概念异常处理泛型机制 JVM面试题内存模型垃圾回收类加载集合框架面试题 List集合 Map集合多线程面试题线程基础线程同步线程池设计模式面试题创建型模式面试题结构型模式面试题行为型模式面试题设计模式综合面试题性能优化面试题高级特性面试题反射与注解函数式编程 I/O与NIO 框架与中间件面试题 Spring框架 MyBatis Redis 消息队列分布式系统面试题分布式理论微服务架构分布式事务项目实战面试题系统设计性能优化故障排查实战应用场景高并发系统设计秒杀系统设计限流策略实现缓存设计与实现多级缓存架构缓存穿透、击穿、雪崩解决方案分布式系统开发分布式事务解决方案分布式锁实现故障排查与调试内存问题排查内存泄漏排查步骤常见内存泄漏场景 CPU问题排查 CPU使用率过高排查 CPU使用率过高的常见原因线程问题排查死锁排查 GC调优实践 GC监控与分析 GC调优方法 Java 基础核心面向对象编程面向对象编程（OOP）是Java的核心特性，包含封装、继承、多态三大特性。 ...

编程语言 #Java #JVM #并发编程 #集合框架 #后端

7.python

Python 完整技术指南目录点击展开目录 Python 完整技术指南目录 1. Python 语言基础 1.1 Python 概述 1.1.1 Python 特点与优势 1.1.2 Python 解释器架构 1.2 数据类型深度解析 1.2.1 内置数据类型体系 1.2.2 数据类型详解与性能特性 1.3 控制流与逻辑结构 1.3.1 条件控制的高级用法 1.3.2 循环控制的高级技巧 1.4 函数与作用域 1.4.1 函数参数的高级特性 1.4.2 作用域与LEGB规则 1.5 模块与包管理 1.5.1 模块导入机制深度解析 1.5.2 包管理最佳实践 1.6 标准库常用操作 1.6.1 os模块 - 系统环境与文件操作 1.6.2 subprocess模块 - 系统命令执行 1.6.3 json模块 - JSON数据处理 1.6.4 datetime模块 - 日期时间处理 1.6.5 re模块 - 正则表达式 1.6.6 collections模块 - 特殊容器类型 1.6.7 itertools模块 - 迭代工具 1.6.8 urllib模块 - URL处理与HTTP请求 2. 面向对象编程 2.1 类与对象 2.1.1 类的定义与实例化 2.1.2 属性访问控制 2.2 继承与多态 2.2.1 单继承与方法重写 2.2.2 多重继承与MRO 2.3 特殊方法与运算符重载 2.4 属性与描述符 2.4.1 属性装饰器 2.4.2 描述符协议 3. Python 高级特性 3.1 装饰器 3.1.1 函数装饰器 3.1.2 类装饰器 3.1.3 装饰器应用场景 3.2 生成器与迭代器 3.2.1 迭代器协议 3.2.2 生成器函数 3.2.3 生成器表达式 3.3 上下文管理器 3.3.1 with语句 3.3.2 自定义上下文管理器 3.4 元类与反射 3.4.1 元类基础 3.4.2 反射机制 4. 内存管理与性能优化 4.1 Python 内存模型 4.1.1 对象内存结构 4.2 垃圾回收机制 4.3 性能分析与优化 5. 环境与工具 5.1 开发环境搭建 5.2 包管理工具 5.2.1 pip详细使用指南 5.3 虚拟环境管理 5.3.1 venv标准库 5.3.2 conda环境管理 5.3.3 virtualenv增强工具 5.3.4 pipenv项目管理 5.3.5 poetry现代包管理 5.3.6 pyenv版本管理 5.3.7 Docker环境隔离 5.3.8 环境管理最佳实践 5.4 常用开发工具 5.4.1 Jupyter Notebook详细使用指南 6. 数据处理与分析 6.1 NumPy 基础 6.2 Pandas 数据处理 6.2.1 数据结构与创建 6.2.2 数据读取与写入 6.2.3 数据基本信息与操作 6.2.4 数据清洗与处理 6.2.5 数据索引与选择 6.2.6 数据统计与分析 6.2.7 时间序列处理 6.2.8 数据变形与重塑 6.2.9 数据合并与连接 6.2.10 缺失数据处理 6.2.11 数据采样与过滤 6.2.12 数据库连接 6.2.13 显示设置与配置 6.3 Matplotlib 数据可视化 6.3.1 基础绘图 6.3.2 图形样式与美化 6.3.3 多子图与布局 6.3.4 实战案例 6.4 Bokeh 交互式可视化 6.4.1 Bokeh 基础 6.4.2 基本图表类型 6.4.3 交互式功能 6.4.4 布局与组合 6.4.5 Pandas-Bokeh 集成 6.4.6 高级应用 6.5 Tushare金融数据 6.5.1 安装与注册 6.5.2 基础数据获取 6.5.3 市场数据分析 6.5.4 财务数据获取 6.5.5 数据处理与分析 6.5.6 实战应用案例 6.6 HuggingFace Hub 6.6.1 安装与配置 6.6.2 模型下载与加载 6.6.3 数据集操作 6.6.4 模型上传与分享 6.6.5 实战应用 6.6.6 命令行操作 7. Python面试题集 7.1 基础语法题题目1：Python中的可变与不可变对象题目2：深拷贝与浅拷贝题目3：Python中的作用域 7.2 面向对象题题目4：类方法、静态方法和实例方法题目5：多重继承和MRO 7.3 高级特性题题目6：装饰器的实现原理题目7：生成器和迭代器题目8：上下文管理器 7.4 性能优化题题目9：Python性能优化技巧题目10：内存管理和垃圾回收 7.5 实战编程题题目11：实现LRU缓存题目12：单例模式的多种实现题目13：实现一个简单的线程池 8. 总结与进阶方向 Python学习路径总结专业方向选择持续学习建议 1. Python 语言基础 1.1 Python 概述 1.1.1 Python 特点与优势 Python核心特点： ...

编程语言 #Python #脚本 #数据分析 #后端 #爬虫

8.shell

目录点击展开目录目录文件操作文件查找与过滤文件处理文件压缩文件权限管理 HDFS操作文件查看文件大小统计文件上传文本处理文件读取文本过滤高级文本处理 sed 流编辑器 awk 文本处理工具 grep 文本搜索工具 cut 列提取工具 sort 排序工具 uniq 去重工具综合应用示例管道操作详解控制结构条件判断分支语句循环语句函数定义信号与异常处理字符串处理字符串基本操作字符串截取与替换字符串转换字符串比较与判断字符串切割生成数组正则表达式处理数组操作数组定义与初始化索引数组数组初始化技巧数组访问与修改基本访问操作数组切片操作数组修改操作数组遍历基本遍历方法高级遍历技巧数组操作方法数组搜索与查找数组排序数组去重与合并数组 Map 操作字符串分割与数组生成数组排错与兼容性关联数组关联数组基础关联数组操作关联数组高级应用数组实用示例命令行参数处理日志处理系统数据处理管道数学运算基本算术运算整数运算使用let命令使用expr命令高级数学运算浮点数运算使用awk进行数学运算数值比较与判断数值比较操作数值范围判断进制转换不同进制之间的转换随机数生成生成各种随机数数学运算实用示例统计计算器数学函数库单位转换器进程管理进程监控与控制组合查杀实战（精准定位与终止）后台任务管理时间处理日期格式化时间计算网络请求基本网络命令高级网络操作 curl 高级用法与变量传递 Shell 中向 curl 传递变量的核心原则基本原则：变量展开引号使用口诀不同场景下的变量传递方法 GET 请求（URL 参数） POST 请求（表单数据） POST 请求（JSON 数据） Header 中传递变量变量包含特殊字符 Shell 数组与 JSON 处理 Shell 数组与字符串的区分使用 jq 安全生成 JSON 数组与 JSON 的转换 Shell 数组的进阶操作计算数组交集判断数组是否"有效" 数组的清洗与过滤脚本执行环境与常见错误 Bash 与 sh 的关键区别常见错误：进程替换语法错误生产脚本的最佳实践实战案例：geohash 校验脚本链路完整流程与黄金模板关键陷阱与防御性编程 jq 常用操作 1. 基础用法 2. 字段提取与访问 3. 数组操作 4. 过滤与转换 (Map & Select) 5. 排序与去重 6. 构造与修改 JSON 7. 高级统计与计算 8. 格式转换 9. 处理 JSON 行文件 (NDJSON) 10. 常用实战场景终端代理配置 Windows PowerShell代理 Windows CMD代理 Git Bash代理 Mac终端代理 Linux终端代理代理测试与故障排除代理管理脚本 Windows 网络诊断常用命令行工具网卡信息解读实战多网卡路由优先级开发环境 Node.js 管理系统监控资源使用监控日志分析性能分析性能测试工具性能优化技巧安全操作权限管理加密与解密数据库操作 MySQL操作 PostgreSQL操作自动化脚本示例定时备份批量处理 Windows 常用操作 PowerShell 基础文件与目录操作网络操作进程与系统管理常用快捷键与技巧终端复用（tmux） Cloudflare Wrangler 安装与配置项目管理开发调试部署发布 Pages（静态站点/博客部署）常用资源操作配置文件 (wrangler.toml) Hugo 安装与版本本地开发内容编写构建发布配合 Cloudflare Pages（Direct Upload）主题与模块（常见维护）主题本地/远程不一致（排查与修复）文件操作文件查找与过滤 # 查找目录下以8位数字结尾的文件（YYYYMMDD格式） find /path/to/dir -type f -regextype posix-extended -regex '.*[0-9]{8}$' # 检查文件是否存在 if [ ! -f "$file" ]; then echo "File not found: $file" exit 1 fi # 查找最近7天修改过的文件 find /path/to/dir -type f -mtime -7 # 查找大于100MB的文件 find /path/to/dir -type f -size +100M # 查找并删除空文件 find /path/to/dir -type f -empty -delete # 查找特定权限的文件 find /path/to/dir -type f -perm 644 文件处理 # 分割大文件 split -b 10M large_file.txt output_ # 合并文件 cat output_* > combined_file.txt # 按行分割文件 split -l 1000 large_file.txt output_ # 批量重命名文件 rename 's/\.txt$/.md/' *.txt # 将所有.txt文件重命名为.md # 查找重复文件 fdupes -r /path/to/directory # 创建文件链接 ln -s /path/to/original /path/to/link # 软链接 ln /path/to/original /path/to/link # 硬链接 # 查看二进制文件 hexdump -C binary_file | head # 查看文件类型 file filename # 批量替换文件内容 find . -type f -name "*.txt" -exec sed -i 's/old_text/new_text/g' {} \; # 递归创建目录 mkdir -p path/to/nested/directory 文件压缩 # 压缩文件 gzip a.txt # 压缩并删除原文件 gzip -c a.txt # 压缩并保留原文件 # 解压文件 gunzip your_file.txt.gz # tar压缩 tar -czvf archive.tar.gz directory/ # 创建gzip压缩的tar归档 tar -cjvf archive.tar.bz2 directory/ # 创建bzip2压缩的tar归档 # tar解压 tar -xzvf archive.tar.gz # 解压gzip压缩的tar归档 tar -xjvf archive.tar.bz2 # 解压bzip2压缩的tar归档 # zip压缩 zip -r archive.zip directory/ # zip解压 unzip archive.zip 文件权限管理 # 修改文件权限 chmod 755 file.sh # 设置可执行权限 chmod -R 644 dir/ # 递归修改目录下所有文件权限 # 修改文件所有者 chown user:group file.txt chown -R user:group directory/ # 递归修改 # 设置SUID/SGID/Sticky位 chmod u+s file # 设置SUID chmod g+s directory # 设置SGID chmod +t directory # 设置Sticky位 # 复制权限 getfacl source_file | setfacl --set-file=- target_file # 添加ACL权限 setfacl -m u:user:rwx file.txt # 为特定用户添加权限 setfacl -m g:group:rx file.txt # 为特定组添加权限 HDFS操作文件查看 # 列出HDFS目录下以8位数字结尾的文件 hadoop fs -ls /path/to/dir | awk '$NF ~ /[0-9]{8}$/ {print $NF}' # 使用grep过滤HDFS目录 hadoop fs -ls /data/dept/bi/dim/data | grep -E "[0-9]{8}$" 文件大小统计 # 获取目录文件大小并选择最后一行 hadoop fs -du -h $line | tail -n 1 >> file_size_result.txt 文件上传 ### 多行文件上传 cat <<EOF | hdfs dfs -put - /path/in/hdfs/multiline.txt This is line 1 This is line 2 This is line 3 EOF 文本处理文件读取 # 遍历文件每一行 file="example.txt" while IFS= read -r line; do echo "$line" done < "$file" # 另一种读取方式 cat "$file" | while read line; do echo "$line" done 文本过滤 # 查看grep过滤结果的前100个字符 grep "关键词" file.txt | cut -c 1-100 # 显示匹配行及其后5行 curl -s "http://localhost:8080/hotsearch" | grep -A 5 "wallpaper-menu" 高级文本处理 sed 流编辑器基本语法 ...

运维与云原生 #Shell #Linux #脚本 #Bash #运维

9.k8s

9. Kubernetes 容器编排技术指南目录点击展开目录 Kubernetes 概述 - 什么是 Kubernetes - 核心特性 - 架构设计 - 与其他编排工具对比集群架构 - Master 节点 - Worker 节点 - 网络组件 - 存储组件核心对象 - Pod 详解 - Service 服务 - Deployment 部署 - ConfigMap 和 Secret 工作负载 - ReplicaSet 副本集 - DaemonSet 守护进程 - StatefulSet 有状态应用 - Job 和 CronJob 服务发现与负载均衡 - Service 类型 - Ingress 控制器 - DNS 解析 - 负载均衡策略存储管理 - Volume 卷 - PersistentVolume - StorageClass - CSI 驱动配置管理 - ConfigMap 配置 - Secret 密钥 - 环境变量 - 配置热更新网络管理 - 网络模型 - CNI 插件 - NetworkPolicy - Service Mesh 安全管理 - RBAC 权限控制 - Pod 安全策略 - 网络安全 - 镜像安全 ...

运维与云原生 #Kubernetes #K8s #容器编排 #Docker #云原生

10.markdown

10. Markdown完整语法指南目录点击展开目录 1. Markdown基础概念 1.1 Markdown简介与特点 1.2 Markdown发展历史 1.3 Markdown应用场景 1.4 Markdown编辑器推荐 2. 基础语法 2.1 标题语法 2.2 段落与换行 2.3 文本格式化 2.4 引用语法 3. 列表与链接 3.1 无序列表 3.2 有序列表 3.3 任务列表 3.4 链接语法 4. 图片与多媒体 4.1 图片插入 4.2 图片优化 4.3 多媒体嵌入 4.4 图片最佳实践 5. 代码与语法高亮 5.1 行内代码 5.2 代码块 5.3 语法高亮 5.4 代码最佳实践 6. 表格与数据展示 6.1 基础表格语法 6.2 表格对齐 6.3 复杂表格 6.4 表格最佳实践 7. 扩展语法 7.1 数学公式 7.2 图表与流程图 7.3 脚注与定义 7.4 高级功能 16进制颜色值对照表 8. Markdown最佳实践 8.1 文档结构规范 8.2 写作技巧 8.3 协作规范 8.4 版本控制 1.Markdown基础概念 1.1 Markdown简介与特点 Markdown是一种轻量级标记语言，由John Gruber在2004年创建，旨在让人们使用易读易写的纯文本格式编写文档。 ...

工具效能 #Markdown #文档 #写作 #语法 #工具

11.nebula

创建space CREATE SPACE saas_graph (partition_num = 3, vid_type = FIXED_STRING(35)) COMMENT = “gt数据” 添加 tag CREATE tag gid (ts timestamp NULL DEFAULT now() COMMENT “出现时间”) COMMENT = “点类型-gid”; CREATE tag mac (ts timestamp NULL DEFAULT now() COMMENT “出现时间”) COMMENT = “点类型-mac”; CREATE tag wifi () COMMENT = “点类型-wifi”; CREATE tag wg () COMMENT = “点类型-wg”; CREATE tag ip () COMMENT = “点类型-wg”; 添加edge type CREATE edge connect (ts timestamp NULL DEFAULT now() COMMENT “关联时间”) COMMENT = “边类型-连接”; CREATE edge scan (ts timestamp NULL DEFAULT now() COMMENT “关联时间”) COMMENT = “边类型-扫描”; CREATE edge bind (ts timestamp NULL DEFAULT now() COMMENT “绑定时间”) COMMENT = “边类型-绑定关系”; #写入数据 ...

数据库 #NebulaGraph #图数据库 #Graph #NoSQL #大数据

12.Spark

12. Spark 目录点击展开目录 12. Spark 目录 Spark 概述与环境 Spark简介 Spark特点与优势 Spark vs Hadoop MapReduce Spark应用场景 Spark生态系统核心组件 Spark 核心概念 RDD核心概念 RDD特性 RDD操作分类 RDD依赖关系 DataFrame与Dataset DataFrame概念 Dataset概念三者对比分析分区机制分区策略分区调优 Spark 架构与原理整体架构设计系统架构总览部署架构模式核心组件原理 SparkContext - 应用程序入口 Driver Program - 驱动程序 Cluster Manager - 集群管理器 Executor - 任务执行器任务调度机制调度框架总览 DAG调度器原理任务调度器实现本地性调度策略推测执行与容错存储与内存管理 BlockManager存储引擎统一内存管理缓存与持久化策略 Shuffle数据交换 Shuffle机制原理 Shuffle性能优化数据倾斜处理容错与可靠性血缘关系容错 Checkpoint检查点故障恢复机制资源管理与通信调度算法策略动态资源分配 RPC通信机制序列化与网络传输 Spark SQL与Catalyst Spark SQL概述主要特性 Catalyst优化器 Catalyst架构原理优化流程详解核心优化规则深入优化规则实现成本优化器（CBO）代码生成引擎自适应查询执行（AQE）优化器扩展与定制 SparkSQL 实用函数与语法数据采样与查看日期与时间处理字符串处理数组与集合操作 JSON处理条件与判断条件计数与聚合唯一ID生成方法窗口函数聚合函数 UDF/UDAF 注册与使用性能调优与优化写出排序优化查询与作业优化 Join优化缓存与持久化代码层面优化网络与I/O优化常见性能问题监控与诊断常见错误解决方案内存相关错误网络相关错误序列化相关错误资源相关错误数据相关错误调试和诊断工具预防措施关键参数与配置模板 JVM相关参数 Spark高频面试题基础概念题架构原理题性能调优题实战应用题深度技术原理题故障排查与运维题 Spark 概述与环境 Spark简介 Apache Spark 是一个快速、通用的大数据处理引擎，专为大规模数据处理而设计。它提供了高级API（Java、Scala、Python、R），并支持用于SQL查询、流处理、机器学习和图形处理的优化引擎。 ...

大数据 #Spark #RDD #DataFrame #流计算 #大数据

12.1 Spark 源码解析

12.1 Spark源码解析目录点击展开目录一、Spark核心架构与初始化 1.1 SparkContext初始化流程 1.2 运行环境构建二、RDD设计与实现 2.1 RDD核心抽象 2.2 RDD五大特性 2.3 RDD操作执行三、任务调度系统 3.1 DAGScheduler调度器 3.2 Stage划分算法 3.3 TaskScheduler任务调度 3.4 Task执行机制 3.5 任务分发与调度流程 3.6 容错与监控机制 3.7 失败重试机制 3.8 RDD血统恢复四、内存管理系统 4.1 统一内存管理 4.2 算子内存存储 4.3 内存监控与优化 4.4 内存管理系统（高级特性） 4.5 统一内存管理（详细实现）五、Shuffle机制实现 5.1 Sort Shuffle核心 5.2 UnsafeShuffleWriter 六、存储系统设计 6.1 BlockManager存储 6.2 缓存机制七、网络通信系统 7.1 网络传输服务 7.2 Block传输机制八、动态资源分配 8.1 资源分配策略 8.2 动态伸缩算法九、Spark SQL执行引擎 9.1 Catalyst优化器核心 9.2 代码生成与执行 9.3 列式存储与向量化 9.4 自适应查询执行(AQE) 9.5 窗口函数实现原理（以 Lag 为例）十、广播变量与累加器 10.1 广播变量实现机制 10.2 累加器源码分析十一、检查点与容错机制 11.1 检查点机制实现 11.2 失败重试与血统恢复十二、集群管理器集成 12.1 YARN集成源码 12.2 Kubernetes集成一、Spark核心架构与初始化 1.1 SparkContext初始化流程 SparkContext初始化流程图 graph TD A[SparkContext构造] --> B[创建SparkConf配置] B --> C[创建SparkEnv运行环境] C --> D[创建StatusTracker状态跟踪器] D --> E[创建TaskScheduler任务调度器] E --> F[创建DAGScheduler DAG调度器] F --> G[启动TaskScheduler] G --> H[设置默认并行度] H --> I[SparkContext初始化完成] C --> C1[创建SerializerManager] C --> C2[创建BlockManager] C --> C3[创建MemoryManager] C --> C4[创建MetricsSystem] E --> E1[根据master创建调度器] E1 --> E2[Standalone模式] E1 --> E3[YARN模式] E1 --> E4[Local模式] style A fill:#e1f5fe style I fill:#e8f5e8 style C fill:#fff3e0 style F fill:#f3e5f5 1.2 运行环境构建 SparkContext初始化源码分析 // SparkContext.scala 核心初始化流程 class SparkContext(config: SparkConf) extends Logging { // 1. 创建SparkEnv - 核心运行环境 private val env: SparkEnv = { SparkEnv.createDriverEnv(conf, isLocal, listenerBus, numCores, mockOutputCommitCoordinator) } // 2. 创建状态跟踪器 private val statusTracker = new SparkStatusTracker(this, sparkUI) // 3. 创建任务调度器 private val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode) private val taskScheduler = ts // 4. 创建DAG调度器 private val dagScheduler = new DAGScheduler(this) // 5. 启动任务调度器 taskScheduler.start() // 6. 设置默认并行度 private val defaultParallelism: Int = taskScheduler.defaultParallelism // 核心方法：创建RDD def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]()) } // 核心方法：提交作业 def runJob[T, U: ClassTag]( rdd: RDD[T], func: (TaskContext, Iterator[T]) => U, partitions: Seq[Int], resultHandler: (Int, U) => Unit): Unit = { dagScheduler.runJob(rdd, func, partitions, callSite, resultHandler, localProperties.get) } } 二、RDD设计与实现 2.1 RDD核心抽象 RDD五大特性实现流程 graph LR A[RDD实例化] --> B[getPartitions获取分区列表] B --> C[compute定义计算函数] C --> D[getDependencies设置依赖关系] D --> E[partitioner设置分区器] E --> F[getPreferredLocations位置偏好] F --> G[RDD创建完成] style A fill:#e1f5fe style G fill:#e8f5e8 2.2 RDD五大特性 RDD源码核心实现 // RDD.scala 核心抽象 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable with Logging { // 五大特性的具体实现 // 1. 分区列表 protected def getPartitions: Array[Partition] // 2. 计算函数 def compute(split: Partition, context: TaskContext): Iterator[T] // 3. 依赖关系 protected def getDependencies: Seq[Dependency[_]] = deps // 4. 分区器（可选） @transient val partitioner: Option[Partitioner] = None // 5. 位置偏好（可选） protected def getPreferredLocations(split: Partition): Seq[String] = Nil // Transformation操作实现 def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF)) } def filter(f: T => Boolean): RDD[T] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[T, T]( this, (context, pid, iter) => iter.filter(cleanF), preservesPartitioning = true) } def reduceByKey(func: (T, T) => T): RDD[T] = self.withScope { reduceByKey(defaultPartitioner(self), func) } // Action操作实现 def collect(): Array[T] = withScope { val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray) Array.concat(results: _*) } def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean(f) sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF)) } } 2.3 RDD操作执行 RDD操作执行流程图 graph TD A[RDD操作调用] --> B{操作类型} B -->|Transformation| C[创建新RDD] B -->|Action| D[触发作业执行] C --> C1[构建RDD血统] C1 --> C2[设置依赖关系] C2 --> C3[返回新RDD对象] C3 --> E[等待Action触发] D --> D1[调用SparkContext.runJob] D1 --> D2[DAGScheduler.runJob] D2 --> D3[构建DAG图] D3 --> D4[划分Stage] D4 --> D5[提交Task] D5 --> D6[Executor执行] D6 --> D7[返回结果] style C fill:#e8f5e8 style D fill:#ffebee style D3 fill:#fff3e0 style D6 fill:#e1f5fe 三、任务调度系统 3.1 DAGScheduler调度器 DAGScheduler作业提交流程图 graph TD A[用户调用Action] --> B[SparkContext.runJob] B --> C[DAGScheduler.runJob] C --> D[创建ActiveJob] D --> E[submitJob] E --> F[构建DAG图] F --> G[findMissingPartitions] G --> H[getMissingParentStages] H --> I{是否有父Stage} I -->|有| J[递归提交父Stage] I -->|无| K[submitMissingTasks] J --> L[等待父Stage完成] L --> K K --> M[创建TaskSet] M --> N[TaskScheduler.submitTasks] N --> O[分发Task到Executor] O --> P[Task执行完成] P --> Q[Stage完成] Q --> R[检查后续Stage] R --> S[Job完成] style A fill:#e1f5fe style F fill:#fff3e0 style K fill:#e8f5e8 style S fill:#c8e6c9 3.2 Stage划分算法 Stage划分算法流程图 graph TD A[开始Stage划分] --> B[从最终RDD开始] B --> C[遍历RDD依赖] C --> D{依赖类型} D -->|窄依赖| E[加入当前Stage] D -->|宽依赖| F[创建新Stage边界] E --> G[继续遍历父RDD] F --> H[创建ShuffleMapStage] G --> C H --> I[递归处理父RDD] I --> C C --> J{是否还有未处理RDD} J -->|是| C J -->|否| K[Stage划分完成] style A fill:#e1f5fe style F fill:#ffebee style H fill:#fff3e0 style K fill:#e8f5e8 DAGScheduler源码分析 // DAGScheduler.scala 核心调度逻辑 class DAGScheduler( private[scheduler] val sc: SparkContext, private[scheduler] val taskScheduler: TaskScheduler, listenerBus: LiveListenerBus, mapOutputTracker: MapOutputTrackerMaster, blockManagerMaster: BlockManagerMaster, env: SparkEnv, clock: Clock = new SystemClock()) extends Logging { // 事件处理循环 private val eventProcessLoop = new DAGSchedulerEventProcessLoop(this) // 提交作业的核心方法 def runJob[T, U]( rdd: RDD[T], func: (TaskContext, Iterator[T]) => U, partitions: Seq[Int], callSite: CallSite, resultHandler: (Int, U) => Unit, properties: Properties): Unit = { val start = System.nanoTime val waiter = submitJob(rdd, func, partitions, callSite, resultHandler, properties) ThreadUtils.awaitReady(waiter, Duration.Inf) waiter.value.get match { case scala.util.Success(_) => logInfo("Job %d finished: %s, took %f s".format (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) case scala.util.Failure(exception) => logInfo("Job %d failed: %s, took %f s".format (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) throw exception } } // Stage划分核心算法 private def getOrCreateShuffleMapStage( shuffleDep: ShuffleDependency[_, _, _], firstJobId: Int): ShuffleMapStage = { shuffleIdToMapStage.get(shuffleDep.shuffleId) match { case Some(stage) => stage case None => // 递归创建父Stage getMissingAncestorShuffleDependencies(shuffleDep.rdd).foreach { dep => if (!shuffleIdToMapStage.contains(dep.shuffleId)) { createShuffleMapStage(dep, firstJobId) } } createShuffleMapStage(shuffleDep, firstJobId) } } // 查找缺失的父依赖 private def getMissingAncestorShuffleDependencies( rdd: RDD[_]): ArrayStack[ShuffleDependency[_, _, _]] = { val ancestors = new ArrayStack[ShuffleDependency[_, _, _]] val visited = new HashSet[RDD[_]] val waitingForVisit = new ArrayStack[RDD[_]] waitingForVisit.push(rdd) while (waitingForVisit.nonEmpty) { val toVisit = waitingForVisit.pop() if (!visited(toVisit)) { visited += toVisit toVisit.dependencies.foreach { case shuffleDep: ShuffleDependency[_, _, _] => if (!shuffleIdToMapStage.contains(shuffleDep.shuffleId)) { ancestors.push(shuffleDep) waitingForVisit.push(shuffleDep.rdd) } case narrowDep: NarrowDependency[_] => waitingForVisit.push(narrowDep.rdd) } } } ancestors } // 提交Stage private def submitStage(stage: Stage): Unit = { val jobId = activeJobForStage(stage) if (jobId.isDefined) { if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) { val missing = getMissingParentStages(stage).sortBy(_.id) if (missing.isEmpty) { submitMissingTasks(stage, jobId.get) } else { for (parent <- missing) { submitStage(parent) } waitingStages += stage } } } } } 3.3 内存监控与优化内存存储状态监控 // 内存使用监控组件 class MemoryMonitor { // 监控Map的内存使用 def monitorMapMemory(map: SizeTrackingAppendOnlyMap[_, _]): MemoryUsage = { val estimatedSize = map.estimateSize() val currentMemory = map.currentMemory val maxMemory = map.maxMemory MemoryUsage( estimatedSize = estimatedSize, currentMemory = currentMemory, maxMemory = maxMemory, utilization = currentMemory.toDouble / maxMemory ) } // 监控Spill状态 def monitorSpillStatus(externalMap: ExternalAppendOnlyMap[_, _, _]): SpillStatus = { val spillCount = externalMap.spills.size val totalSpillSize = externalMap.spills.map(_.size).sum SpillStatus( spillCount = spillCount, totalSpillSize = totalSpillSize, averageSpillSize = if (spillCount > 0) totalSpillSize / spillCount else 0 ) } } case class MemoryUsage( estimatedSize: Long, currentMemory: Long, maxMemory: Long, utilization: Double) case class SpillStatus( spillCount: Int, totalSpillSize: Long, averageSpillSize: Long) 内存存储监控流程图 graph TD A[输入数据] --> B[PartitionedAppendOnlyMap] B --> C{内存是否足够?} C -->|是| D[内存聚合] C -->|否| E[Spill到磁盘] D --> F[返回结果] E --> G[ExternalAppendOnlyMap] G --> H[合并内存和磁盘数据] H --> F I[MemoryMonitor] --> B I --> G J[SpillMonitor] --> E 内存存储优化策略 // 内存分配优化 class MemoryOptimizer { // 动态调整内存阈值 def adjustMemoryThreshold( currentMemory: Long, maxMemory: Long, spillCount: Int): Long = { val utilization = currentMemory.toDouble / maxMemory if (utilization > 0.8 && spillCount > 0) { // 内存使用率高且有Spill，降低阈值 (maxMemory * 0.6).toLong } else if (utilization < 0.5 && spillCount == 0) { // 内存使用率低且无Spill，提高阈值 (maxMemory * 0.9).toLong } else { // 保持当前阈值 (maxMemory * 0.8).toLong } } // 优化Map初始容量 def optimizeInitialCapacity(dataSize: Long): Int = { val estimatedSize = (dataSize * 1.2).toInt math.max(64, math.min(estimatedSize, 1024 * 1024)) } } 3.4 TaskScheduler任务调度 DAG的生成与依赖分析任务提交完整流程图： ...

大数据 #Spark #源码分析 #Scala #内核 #大数据

13.html

13. HTML完整技术指南目录点击展开目录 1. HTML基础概念 1.1 HTML简介与特点 1.2 HTML发展历史 1.3 HTML文档结构 1.4 HTML语法规则 2. 基础HTML标签 2.1 文档结构标签 2.2 文本内容标签 2.3 链接与导航标签 2.4 列表标签 3. 表单与交互元素 3.1 表单基础结构 3.2 输入控件类型 3.3 表单验证 3.4 表单最佳实践 4. 多媒体与嵌入内容 4.1 图片处理 4.2 音频视频 4.3 响应式媒体 4.4 嵌入内容 5. 语义化HTML与无障碍 5.1 语义化标签 5.2 文档结构语义化 5.3 无障碍设计 5.4 ARIA属性 6. 表格与数据展示 6.1 表格基础结构 6.2 复杂表格设计 6.3 响应式表格 6.4 数据展示最佳实践 7. HTML5新特性与API 7.1 HTML5新增标签 7.2 Canvas与SVG 7.3 Web存储技术 7.4 现代Web API 8. 性能优化与最佳实践 8.1 页面加载优化 8.2 资源优化策略 8.3 渲染性能优化 8.4 SEO优化 9. HTML面试题集 9.1 基础概念题 9.2 语义化与标准题 9.3 性能优化题 9.4 实战应用题 10. 总结与进阶方向 1. HTML基础概念 1.1 HTML简介与特点 **HTML（HyperText Markup Language）**是超文本标记语言，是创建网页的标准标记语言。 ...

前端开发 #HTML #Web #前端 #DOM #基础

14.iterm2

命令 📚 切换光标格式切换为竖线光标 echo -e "\e[5 q" # 切换为块状光标 echo -e "\e[1 q" # 切换为下划线光标 echo -e "\e[3 q"

工具效能 #iTerm2 #Mac #终端 #效率 #工具

15.SpringBoot注解指南

Spring Boot 注解指南目录点击展开目录 Spring Boot 注解指南目录核心注解应用程序相关组件注解配置相关注解配置属性 Bean配置 Web相关注解请求映射请求参数响应处理数据库相关注解 JPA注解 MyBatis注解缓存相关注解安全相关注解测试相关注解其他常用注解依赖注入切面编程异步处理定时任务验证注解并发与异步处理注解异步执行线程池配置异步事件处理重试机制并发控制异步任务配置示例异步任务使用示例最佳实践建议注意事项高级注解使用指南条件注解配置属性绑定日志配置参数验证缓存注解事务管理安全注解监控和度量最佳实践建议 JPA注解详解实体映射注解关联关系注解继承策略注解查询注解审计注解验证注解复合主键注解二级缓存注解最佳实践建议核心注解应用程序相关 @SpringBootApplication // 包含@Configuration、@EnableAutoConfiguration和@ComponentScan // 标记主类，Spring Boot应用程序的入口 @EnableAutoConfiguration // 启用Spring Boot的自动配置机制 @ComponentScan // 自动扫描并注册符合条件的组件 @Configuration // 标记配置类，通常与@Bean结合使用组件注解 @Component // 通用组件注解，标记类为Spring组件 @Service // 标记服务层组件 @Repository // 标记数据访问层组件 @Controller // 标记控制器组件（Spring MVC） @RestController // @Controller和@ResponseBody的组合，用于RESTful Web服务配置相关注解配置属性 @ConfigurationProperties(prefix = "app") // 绑定外部配置到类属性 @Value("${property.name}") // 注入配置属性值 @PropertySource("classpath:custom.properties") // 指定配置文件位置 Bean配置 @Bean // 声明一个Bean，通常在@Configuration类中使用 @Scope("singleton") // 指定Bean的作用域（singleton/prototype/request/session） @Conditional // 条件化地创建Bean @Profile("dev") // 指定Bean在特定Profile下创建 Web相关注解请求映射 @RequestMapping("/path") // 通用请求映射 @GetMapping("/path") // GET请求映射 @PostMapping("/path") // POST请求映射 @PutMapping("/path") // PUT请求映射 @DeleteMapping("/path") // DELETE请求映射 @PatchMapping("/path") // PATCH请求映射请求参数 @RequestParam // 绑定请求参数 @RequestParam(value = "id", required = false, defaultValue = "0") private String id; @PathVariable // 绑定URL路径变量 @GetMapping("/users/{id}") public User getUser(@PathVariable Long id) @RequestBody // 绑定请求体 @PostMapping("/users") public User createUser(@RequestBody User user) @RequestHeader // 绑定请求头 @CookieValue // 绑定Cookie值响应处理 @ResponseBody // 将返回值序列化为响应体 @ResponseStatus(HttpStatus.OK) // 指定响应状态码 @ExceptionHandler(Exception.class) // 处理特定异常 @ControllerAdvice // 全局控制器增强，通常用于全局异常处理数据库相关注解 JPA注解 @Entity // 标记JPA实体类 @Table(name = "users") // 指定数据库表名 @Id // 标记主键字段 @GeneratedValue // 主键生成策略 @Column // 指定列属性 @Transactional // 声明事务 MyBatis注解 @Mapper // 标记MyBatis映射器接口 @Select("SELECT * FROM users") // SQL查询语句 @Insert("INSERT INTO users(name) VALUES(#{name})") // SQL插入语句 @Update("UPDATE users SET name = #{name}") // SQL更新语句 @Delete("DELETE FROM users WHERE id = #{id}") // SQL删除语句缓存相关注解 @Cacheable // 缓存方法返回值 @Cacheable(value = "users", key = "#id") public User getUser(Long id) @CacheEvict // 清除缓存 @CacheEvict(value = "users", allEntries = true) public void clearCache() @CachePut // 更新缓存 @CachePut(value = "users", key = "#user.id") public User updateUser(User user) @EnableCaching // 启用缓存支持安全相关注解 @Secured("ROLE_ADMIN") // 基于角色的安全控制 @PreAuthorize("hasRole('ADMIN')") // 方法执行前的权限检查 @PostAuthorize("returnObject.username == authentication.name") // 方法执行后的权限检查 @RolesAllowed({"USER", "ADMIN"}) // 指定允许访问的角色测试相关注解 @SpringBootTest // Spring Boot测试类 @Test // 测试方法 @MockBean // 模拟Bean @AutoConfigureMockMvc // 配置MockMvc @WebMvcTest // MVC测试 @DataJpaTest // JPA测试其他常用注解依赖注入 @Autowired // 自动注入依赖 @Qualifier("beanName") // 指定注入的Bean名称 @Resource // 按名称注入 @Inject // JSR-330依赖注入切面编程 @Aspect // 声明切面 @Before("execution(* com.example.service.*.*(..))") // 前置通知 @After // 后置通知 @Around // 环绕通知 @AfterReturning // 返回通知 @AfterThrowing // 异常通知异步处理 @EnableAsync // 启用异步处理 @Async // 标记异步方法定时任务 @EnableScheduling // 启用定时任务 @Scheduled(fixedRate = 5000) // 定时执行，固定速率 @Scheduled(cron = "0 0 12 * * ?") // 使用cron表达式定时执行验证注解 @Valid // 触发验证 @NotNull // 非空验证 @Size(min = 2, max = 30) // 字符串长度验证 @Email // 邮箱格式验证 @Pattern(regexp = "^[0-9]{10}$") // 正则表达式验证并发与异步处理注解异步执行 @EnableAsync // 在配置类上使用，启用异步功能 @Configuration @EnableAsync public class AsyncConfig implements AsyncConfigurer { @Override public Executor getAsyncExecutor() { ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor(); executor.setCorePoolSize(5); executor.setMaxPoolSize(10); executor.setQueueCapacity(25); executor.initialize(); return executor; } } @Async // 标记方法为异步执行 @Async public CompletableFuture<String> asyncMethod() { // 异步处理逻辑 return CompletableFuture.completedFuture("result"); } @Async("specificExecutor") // 指定使用特定的执行器 @Async("threadPoolTaskExecutor") public void asyncMethodWithExecutor() { // 使用指定执行器的异步处理 } 线程池配置 @EnableScheduling // 启用定时任务调度功能 @Scheduled // 配置定时任务 @Scheduled(fixedRate = 5000) // 固定速率执行 @Scheduled(fixedDelay = 5000) // 固定延迟执行 @Scheduled(initialDelay = 1000, fixedRate = 5000) // 初始延迟后固定速率执行 @Scheduled(cron = "0 0 12 * * ?") // 使用cron表达式 // 自定义线程池配置 @Configuration public class ThreadPoolConfig { @Bean public ThreadPoolTaskExecutor threadPoolTaskExecutor() { ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor(); executor.setCorePoolSize(10); // 核心线程数 executor.setMaxPoolSize(20); // 最大线程数 executor.setQueueCapacity(200); // 队列容量 executor.setKeepAliveSeconds(60); // 线程空闲时间 executor.setThreadNamePrefix("async-"); // 线程名前缀 executor.setRejectedExecutionHandler(new ThreadPoolExecutor.CallerRunsPolicy()); // 拒绝策略 executor.initialize(); return executor; } } 异步事件处理 @EventListener // 标记方法为事件监听器 @EventListener public void handleContextStart(ContextStartedEvent event) { // 处理事件 } @TransactionalEventListener // 在事务上下文中处理事件 @TransactionalEventListener(phase = TransactionPhase.AFTER_COMMIT) public void handleAfterCommit(CustomEvent event) { // 事务提交后处理事件 } @Async @EventListener // 异步事件处理 public void handleAsyncEvent(CustomEvent event) { // 异步处理事件 } 重试机制 @EnableRetry // 启用重试机制 @Configuration @EnableRetry public class RetryConfig { } @Retryable // 配置方法重试 @Retryable( value = {SQLException.class}, // 指定异常类型 maxAttempts = 3, // 最大重试次数 backoff = @Backoff(delay = 1000) // 重试延迟 ) public void retryableOperation() { // 可能失败的操作 } @Recover // 重试失败后的恢复方法 @Recover public void recover(SQLException e) { // 处理最终失败的情况 } 并发控制 @Lock // 分布式锁注解（需要集成相关实现，如Redisson） @Lock(key = "#userId", timeout = 10) public void processUserData(String userId) { // 需要加锁的处理逻辑 } // 自定义并发限制注解示例 @Target(ElementType.METHOD) @Retention(RetentionPolicy.RUNTIME) public @interface ConcurrencyLimit { int value() default 10; // 并发数限制 long timeout() default 1000; // 超时时间 } 异步任务配置示例 @Configuration public class AsyncTaskConfig { @Bean public AsyncTaskExecutor taskExecutor() { ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor(); // 核心线程配置 executor.setCorePoolSize(10); executor.setMaxPoolSize(20); executor.setQueueCapacity(100); // 线程配置 executor.setThreadNamePrefix("Async-Task-"); executor.setRejectedExecutionHandler(new ThreadPoolExecutor.CallerRunsPolicy()); // 等待任务完成配置 executor.setWaitForTasksToCompleteOnShutdown(true); executor.setAwaitTerminationSeconds(60); return executor; } } 异步任务使用示例 @Service public class AsyncService { @Async public CompletableFuture<String> asyncMethodWithResult() { try { Thread.sleep(1000); return CompletableFuture.completedFuture("Async result"); } catch (InterruptedException e) { return CompletableFuture.failedFuture(e); } } @Async public void asyncMethodWithException() throws Exception { throw new Exception("Async method exception"); } // 异步方法组合示例 public CompletableFuture<String> combinedAsyncMethods() { CompletableFuture<String> future1 = asyncMethodWithResult(); CompletableFuture<String> future2 = asyncMethodWithResult(); return CompletableFuture.allOf(future1, future2) .thenApply(v -> future1.join() + " " + future2.join()); } } 最佳实践建议 // 1. 异常处理 @Async public CompletableFuture<String> asyncWithExceptionHandling() { try { // 异步处理逻辑 return CompletableFuture.completedFuture("result"); } catch (Exception e) { return CompletableFuture.failedFuture(e); } } // 2. 超时处理 @Async public CompletableFuture<String> asyncWithTimeout() { return CompletableFuture.supplyAsync(() -> { // 处理逻辑 return "result"; }).orTimeout(5, TimeUnit.SECONDS); } // 3. 异步任务进度跟踪 @Async public void asyncWithProgress(ProgressTracker tracker) { tracker.start(); // 处理逻辑 tracker.progress(50); // 更多处理 tracker.complete(); } 注意事项 @Async方法的返回类型： ...

后端开发 #SpringBoot #Spring #注解 #Java #后端

16.react

React 技术完整指南目录点击展开目录 React 技术完整指南目录 1. React 概述与核心概念 1.1 React 简介 1.1.1 React 特点与优势 1.1.2 React 生态系统 1.2 核心概念 1.2.1 虚拟DOM原理 1.2.2 组件化思想 1.2.3 单向数据流 1.3 React 架构演进 1.3.1 从类组件到函数组件 1.3.2 Fiber 架构原理 2. 组件基础与生命周期 2.1 组件定义与使用 2.1.1 函数组件 2.1.2 类组件 2.1.3 组件通信 2.2 生命周期详解 2.2.1 挂载阶段 2.2.2 更新阶段 2.2.3 卸载阶段 2.3 事件处理机制 2.3.1 合成事件系统 2.3.2 事件委托机制 3. React Hooks 深度解析 3.1 基础Hooks 3.1.1 useState 3.1.2 useEffect 3.1.3 useContext 3.2 高级Hooks 3.2.1 useReducer 3.2.2 useMemo 和 useCallback 3.2.3 useRef 和 useImperativeHandle 3.3 自定义Hooks 3.3.1 设计原则 3.3.2 常用自定义Hooks 4. 状态管理与数据流 4.1 本地状态管理 4.1.1 组件内状态 4.1.2 状态提升 4.2 Context API 4.2.1 Context基础用法 4.2.2 Context最佳实践 4.3 第三方状态管理 4.3.1 Redux 4.3.2 Zustand 4.3.3 状态管理方案对比 5. 路由与导航 5.1 React Router基础 5.1.1 路由配置 5.1.2 路由参数 5.2 高级路由特性 5.2.1 嵌套路由 5.2.2 路由守卫 5.2.3 代码分割与懒加载 6. 性能优化与最佳实践 6.1 React性能优化 6.1.1 React.memo 6.1.2 useMemo和useCallback 6.1.3 Concurrent Mode 6.2 代码分割与懒加载 6.2.1 动态导入 6.2.2 Suspense与ErrorBoundary 6.3 最佳实践 6.3.1 组件设计原则 6.3.2 性能监控 7. 测试与质量保证 7.1 测试基础 7.1.1 测试环境配置 7.1.2 测试类型 7.2 单元测试 7.2.1 Jest测试框架 7.2.2 React Testing Library 7.3 集成测试与E2E测试 7.3.1 组件集成测试 7.3.2 Cypress E2E测试 8. React 生态系统 8.1 UI组件库 8.1.1 Ant Design 8.1.2 Material-UI 8.1.3 组件库选择 8.2 构建工具 8.2.1 Create React App 8.2.2 Vite 8.2.3 Webpack配置 8.3 全栈框架 8.3.1 Next.js 8.3.2 Remix 8.3.3 Gatsby 9. 实战项目案例 9.1 待办事项应用 9.1.1 项目架构 9.1.2 功能实现 9.2 电商购物车 9.2.1 状态设计 9.2.2 组件拆分 9.3 实时聊天应用 9.3.1 WebSocket集成 9.3.2 消息管理 10. React 面试题详解 10.1 基础概念类 Q1: 什么是React？React有哪些特点？ Q2: 什么是虚拟DOM？虚拟DOM的工作原理是什么？ Q3: 解释React的生命周期方法 Q4: 什么是JSX？JSX的原理是什么？ Q5: React中的key属性有什么作用？ 10.2 组件与生命周期类 Q6: 类组件和函数组件有什么区别？ Q7: 什么是高阶组件(HOC)？如何实现？ Q8: 什么是Render Props模式？ 10.3 Hooks 深度理解类 Q9: useEffect的依赖数组是如何工作的？ Q10: 为什么useState的更新是异步的？ 10.4 性能优化类 Q11: React中有哪些性能优化技术？ Q12: 什么是React Fiber？它解决了什么问题？ 10.5 实战应用类 Q13: 如何在React中实现状态管理？ Q14: 如何处理React中的错误边界？ Q15: React中如何实现条件渲染？ 📚 总结 🎯 核心内容 ✅ 技术特色 1. React 概述与核心概念 1.1 React 简介 1.1.1 React 特点与优势 React是由Facebook开发的用于构建用户界面的JavaScript库，于2013年开源。它采用组件化开发模式，通过虚拟DOM提升性能，是现代前端开发的核心技术之一。 ...

前端开发 #React #JavaScript #前端 #组件化 #Hooks

17.SpringBoot

SpringBoot 核心知识体系目录点击展开目录 SpringBoot 核心知识体系目录 SpringBoot基础概念 SpringBoot简介 SpringBoot核心理念 SpringBoot优势核心特性起步依赖（Starter Dependencies）常用Starter对比表版本演进 SpringBoot版本历史版本选择建议与Spring Framework关系架构关系图关系说明快速入门环境搭建开发环境要求 Maven配置创建第一个应用主启动类第一个Controller 运行应用项目结构详解标准项目结构包结构最佳实践配置文件详解 application.yml配置多环境配置自动配置机制条件注解配置属性注解体系核心注解 Web开发 REST接口异常处理数据访问 JPA配置事务管理安全框架 Spring Security配置 JWT支持微服务服务注册熔断降级最佳实践项目结构配置最佳实践启动流程与原理启动流程详解自动配置原理条件注解详解 META-INF/spring.factories配置配置属性绑定配置属性绑定示例配置属性使用常见面试题基础概念面试题自动配置面试题 Web开发面试题测试框架单元测试集成测试切片测试切片测试高级特性缓存机制异步处理事件机制异步处理事件机制监控与管理部署与运维打包与部署 Dockerfile示例 Docker Compose示例生产级Dockerfile Kubernetes部署配置 CI/CD Pipeline配置监控和日志配置运维脚本常见问题与解决方案配置问题依赖问题性能问题 Debug 模式性能卡顿排查安全问题部署问题性能问题参考资源官方文档社区资源书籍推荐入门级书籍进阶级书籍源码分析书籍学习路径建议实践项目推荐初级项目中级项目高级项目认证考试技术社区持续学习建议文档总结 📚 知识覆盖范围 🎯 文档特色 🚀 使用建议 📈 持续更新 SpringBoot基础概念 SpringBoot简介 SpringBoot是由Pivotal团队提供的全新框架，其设计目的是用来简化Spring应用的初始搭建以及开发过程。SpringBoot采用了约定优于配置的理念，大量的自动配置减少了开发人员的工作量。 ...

后端开发 #SpringBoot #Spring #微服务 #Java #Web开发

18.Logback

Logback 日志框架详解目录点击展开目录简介核心组件 Logger Appender Layout 配置文件基本结构配置加载顺序常用配置日志级别输出到控制台输出到文件滚动策略异步日志日志模式 PatternLayout 常用转换符与框架集成 Spring Boot集成 Web应用集成最佳实践性能优化日志分类 MDC使用常见问题简介 Logback 是由 log4j 创始人设计的另一个开源日志组件，是 log4j 的继任者。它与 slf4j 结合使用，性能比 log4j 更好，是目前 Java 社区中最流行的日志框架之一，也是 Spring Boot 的默认日志实现。主要特点更快的实现更少的内存占用自动重新加载配置文件条件处理配置文件自动压缩归档日志文件优雅地从 I/O 错误中恢复自动删除旧的日志文件支持 Prudent 模式（多进程安全）核心组件 Logback 架构图： graph TD A[Logback架构] --> B[Logger] A --> C[Appender] A --> D[Layout] B --> B1[Root Logger] B --> B2[Named Logger] C --> C1[ConsoleAppender] C --> C2[FileAppender] C --> C3[RollingFileAppender] C --> C4[AsyncAppender] C --> C5[DBAppender] D --> D1[PatternLayout] D --> D2[HTMLLayout] D --> D3[JSONLayout] C2 --> C21[日志文件] C3 --> C31[滚动策略] C3 --> C32[触发策略] C31 --> C311[TimeBasedRollingPolicy] C31 --> C312[SizeAndTimeBasedRollingPolicy] C31 --> C313[FixedWindowRollingPolicy] Logger Logger 是 Logback 的核心组件，用于记录日志。每个 Logger 都有一个名称，通常使用类的全限定名作为 Logger 的名称。 ...

后端开发 #Logback #日志 #Java #SLF4J #配置

19.Git

Git 使用指南目录点击展开目录 Git 使用指南目录 Git 简介主要特点基本概念安装与配置安装 Git 基本配置代理配置 Git 代理配置环境变量代理配置检查代理设置基本操作创建仓库提交更改查看历史撤销更改撤销工作区修改撤销暂存区修改撤销提交操作撤销合并提交恢复已删除的提交撤销操作的比较最佳实践分支管理创建与切换分支合并分支解决冲突远程操作 GitHub 访问令牌克隆仓库推送更改拉取更改远程仓库管理远程分支管理高级操作标签管理子模块 Cherry-Pick 基本用法高级选项实际应用场景处理冲突最佳实践变基储藏 Git 工作流集中式工作流功能分支工作流 Gitflow 工作流 Forking 工作流最佳实践提交规范分支命名规范 Git Hooks 常见问题与解决冲突解决撤销操作性能优化连接不上远程仓库 Git 简介 Git 是一个开源的分布式版本控制系统，由 Linus Torvalds（Linux 内核的创始人）在 2005 年创建，用于管理 Linux 内核的开发。Git 的设计目标是速度、数据完整性和对分布式工作流的支持。 ...

工具效能 #Git #版本控制 #GitHub #协作 #命令

20.hbase

20. HBase 分布式列存储数据库技术指南目录点击展开目录 HBase基础概念什么是HBase HBase vs 关系型数据库 HBase应用场景 HBase架构原理整体架构核心组件数据存储模型 Region分片机制 HBase核心特性数据模型存储引擎一致性保证故障恢复 HBase安装部署环境要求单机模式集群模式配置优化 HBase操作指南 Shell命令 Java API 表设计最佳实践数据读写操作 HBase性能优化读写性能优化内存管理压缩策略监控与调优 HBase运维实践集群监控故障排查备份恢复版本升级 HBase面试题基础概念类架构原理类性能优化类实战应用类 HBase源码解析启动流程读写流程 Compaction机制负载均衡 HBase基础概念什么是HBase HBase（Hadoop Database）是一个分布式、可扩展、支持海量数据存储的NoSQL数据库，构建在Apache Hadoop的HDFS（Hadoop Distributed File System）之上。HBase采用了Google BigTable的设计思想，提供了对大型表的实时读写访问能力。 HBase的核心特点：列存储：数据按列族存储，支持稀疏、动态的列无模式：不需要预定义表结构，支持动态添加列强一致性：提供行级别的ACID特性自动分片：表会自动分割成多个Region进行分布式存储容错性：基于HDFS的多副本机制保证数据可靠性水平扩展：支持在线增加节点扩展存储和计算能力 HBase vs 关系型数据库特性维度 HBase 关系型数据库(MySQL/Oracle) 数据模型列族模型，稀疏表关系模型，固定schema 扩展性水平扩展，支持PB级数据垂直扩展，扩展能力有限一致性行级强一致性 ACID事务，表级一致性查询能力简单的增删改查，无SQL 复杂SQL查询，关联查询索引只有行键索引支持多种索引类型数据类型字节数组丰富的数据类型存储成本相对较低相对较高适用场景大数据量，简单查询复杂业务逻辑，事务处理 HBase应用场景 1. 时序数据存储物联网传感器数据：设备ID+时间戳作为行键，存储传感器读数日志分析系统：存储应用日志、访问日志等时间序列数据金融交易记录：存储股票价格、交易流水等历史数据 2. 内容存储系统 ...

大数据 #HBase #NoSQL #列式存储 #Hadoop #大数据