Yume Shoka = Hexo

2025-07-01

Reinforcement learning

# RL 强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，主要研究智能体（Agent）如何在一个环境中通过与环境交互来学习策略，以最大化某种累积奖励。强化学习的核心思想是通过试错（Trial and Error）来学习，智能体通过执行动作（Action）来影响环境，并从环境中获得反馈（Reward），进而调整其策略（Policy）以优化长期奖励。 # Math x$$ 代表观测值，$$X $$代表随机变量 #### 概率密度函数是描述连续型随机变量概率分布，随机变量 X 落在某一点附近的可能性密度有多大单点概率...

more...

2025-06-01

transformer

# transformer 天才在左 (BERT)，疯子在右 (GPT) transformer 最初由 Google 于 2017 年提出，并且发了一篇经典论文 (attention is all you need)，最开始用于机器翻译任务，后续发现在图像，视频，音频上都十分有效。是继 CNN，RNN 后另一 nb 模型。对于 RNN 来说，计算隐藏状态 $$h_t$$ 必须依赖于上一个状态 $$h_{t-1}$$, 使得并行度较差。可能会丢弃很早期的 ht...

more...

2025-05-01

Deep learning

# Deep learning # NN # 向量化 [1] 神经网络层，a [1] 神经网络第一层，a [0] 神经网络输入层 a^{[1]}_1$$第一层第一个节点 input layer hidden layer：training set中中间数值不可见 output kayer ![image-20250701011612042](https://kbshire-1308981697.cos.ap-shanghai.myqcloud.com/img/image-20250701011612042.png) 上图有两层，一般不算输入层。双层神经网络 $$...

more...

2025-04-01

Machine learning

# ML # Machine Learning algorithms Supervised learning Unsupervised learning # Supervised learning 算法通过分析这些训练样本，学习从输入到输出的映射关系，然后利用这个映射关系对新的、未见过的样本进行预测。监督学习算法：回归 (regression)、分类 (classification) 回归：从无数可能得数字中预测数字。房价预测分类：只预测一小部分可能的输出，可能有多种输出。输入可能有多个肿瘤诊断 # Unsupervised learning 数据仅带有输入 X，没有输出标签...

more...

2025-03-02

MCP

# MCP # Introduction https://modelcontextprotocol.io/introduction MCP 是一种开放协议，它对应用程序如何向大语言模型（LLMs）提供上下文进行了标准化。可以把 MCP 想象成人工智能应用程序的 USB - C 接口。正如 USB - C 为将设备连接到各种外围设备和配件提供了一种标准化方式一样，MCP 也为将人工智能模型连接到不同数据源和工具提供了一种标准化方式。通过 MCP 协议，开发者不用为每个外部工具编写复杂的接口，应用也能够接入海量第三方工具。阿里云 MCP...

more...

2025-03-01

微调

# 微调 # 开源基础大模型闭源 **** 模型局限性缺乏灵活性：无法定制，限制业务创新与优化。依赖供应商：受制于第三方，存在价格波动和服务中断风险。隐私风险：数据需上传外部，可能不符合法规要求。成本高昂：按量计费，长期使用成本较高。开源大模型的优势可定制：灵活调整，满足业务需求。低成本：减少对高费用 API 的依赖。数据安全：私有部署防止数据泄露，符合合规要求。国外开源大模型：Llama，Mistral 国内开源大模型：Qwen，ChatGLM，Deepseek 微调最好在通用模型是做微调，不在行业 /...

more...

2025-02-01

Deepseek汇总

# Deepseek 汇总 NVIDIA GPU info # 开源模型 DeepSeek 官方开源的 R1 内容仅限于模型权重（DeepSeek-R1-0528），并提供标准接口支持调用，完整训练体系仍属非公开状态。 DeepSeek-R1 未开源的内容：训练代码（Training Code）和完整训练流程； RLHF（强化学习）框架；原始训练数据；配套的底层系统如 FlashMLA、DeepGEMM、3FS 等（这些属于独立开源项目，归在 2 月 “开源周” 系列发布）。 DeepSeek-R1 已开源内容：模型权重（Model...

more...

2025-01-01

大模型基础

# 大模型大模型是指具有大规模参数和复杂计算结构的机器学习模型。 # LLM，AI，AGI AI（人工智能）：先说说 AI，这个大家可能都不陌生。AI，就是人工智能，它涵盖了各种技术和领域，目的是让计算机模仿、延伸甚至超越人类智能。想象一下，你的智能手机、智能家居设备，这些都是 AI 技术的应用。 AIGC（AI 生成内容）：接下来是 AIGC，即 AI Generated Content。这就是利用 AI 技术生成的内容：又称生成式 AI，被认为是继专业生产内容（PGC）、用户生产内容（UGC）之后的新型内容创作方式。 AGI**（通用人工智能）：** 然后我们来看 AGI，即...

more...

2024-12-01

Redis

# redis Redis 是一种基于 key-value 的 NoSQL 数据库 Redis 的全称是 REmote Dictionary Server，是一个开源（BSD 许可）的内存数据存储系统，它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构，如字符串（string）、哈希（hash）、列表（list）、集合（set）、有序集合（sorted set），同时在这些基础数据结构的基础之上演变出了位图（bitmap）、HyperLogLog、GEO 等数据结构。Redis 内置了复制（replication），LUA 脚本（Lua scripting），LRU 淘汰策略（LRU...

more...

2024-11-01

大数据生态概论

# 大数据生态概论大数据通常指的是规模巨大、类型多样、增长速度快的数据集合，这些数据集合难以使用传统的数据处理应用软件进行管理。大数据的特点通常被概括为 “4V”： Volume（体量）：数据量巨大，从 TB 级别跃升至 PB...

more...

Post List