目录

一、混淆矩阵

(1)、基本概念

(2)、矩阵结构

(3)、关键衍生指标

(4)、关于精确率和召回率的应用场景

1.精确率(Precision)

2.召回率(Recall)

(5)、例1

问题描述​编辑

解题步骤

二、朴素贝叶斯

(1)、基本概念

(2)、核心公式​

(3)、朴素独立性假设​

(4)、例1

题目描述

解题步骤

三、基尼指数

(1)、基本概念

(2)、公式​

(3)、作用​

(4)、例1

题目描述

解题步骤

(5)、例2

题目描述

解题步骤 

四、论述题

题目描述

论述内容

①计算机视觉与图像理解​​

②大语言模型的应用​

③提示词工程(Prompt Design)​​

回归

线性回归​

梯度下降​

正则化​

回归的评价指标​

着重线性回归​

逻辑回归

分类问题​

二分类与多分类​

Sigmoid函数​

逻辑回归求解​

着重线性回归​

朴素贝叶斯

贝叶斯方法基础​

朴素贝叶斯原理​

朴素贝叶斯案例​

着重朴素贝叶斯​

KNN算法

距离度量(KNN核心基础)

KNN算法原理与流程​

KD树划分(高效实现KNN的核心)

KD树搜索流程(核心考试点)​

着重KNN算法​编辑

决策树

决策树原理​

ID3算法​

C4.5算法

CART算法​

着重决策树

支持向量机(SVM)

支持向量机概述​

线性可分支持向量机​

线性支持向量机(软间隔SVM)

性不可分支持向量机(核技巧)​

着重SVM​

聚类

无监督学习概述​

K-means 聚类

密度聚类与层次聚类​

着重聚类​

人工神经网络

神经网络发展历史​

感知机算法​

BP算法(反向传播)​

着重人工神经网络​


一、混淆矩阵

(1)、基本概念

        混淆矩阵(Confusion Matrix)是机器学习中用于评估分类模型性能的重要工具,它以一种清晰直观的方式展示了模型预测结果与实际结果的对比情况。

(2)、矩阵结构

实际 \ 预测 预测为正 预测为负 
实际为正  TP FN
实际为负 FP TN

​​TP(真正例)​​:模型预测为正,实际也为正(模型预测正确)
​​FP(假正例)​​:模型预测为正,但实际为负(模型预测错误,误报)
​​FN(假负例)​​:模型预测为负,但实际为正(模型预测错误,漏报)
​​TN(真负例)​​:模型预测为负,实际也为负(模型预测正确)

(3)、关键衍生指标

(4)、关于精确率和召回率的应用场景

1.精确率(Precision)

核心目标​​:​​最小化误报(FP)​,即“宁可漏掉一千,绝不错杀一个”。
记忆方法:比如垃圾邮件检测,模型预测为正例(是垃圾邮件),但实际上不是垃圾邮件,即预测错误,为了不让用户错过重要邮件,即使模型预测为垃圾邮件,也要给用户看。

2.召回率(Recall)

核心目标​​:​最小化漏报(FN)​​,即“宁可错杀一千,绝不漏掉一个”。
记忆方法:比如疾病检测,模型预测为负例(患者没病),但实际上患者有病,即预测错误,为了保证患者的健康,即使模型预测为无病,也要去看医生。

(5)、例1

问题描述

解题步骤

①构建混淆矩阵​

②计算关键指标​

二、朴素贝叶斯

(1)、基本概念

朴素贝叶斯是一种基于贝叶斯定理的分类算法。之所以叫“朴素”,是因为它假设特征之间相互独立(即:特征条件独立性假设)。

(2)、核心公式

(3)、朴素独立性假设

(4)、例1

题目描述

解题步骤

①先验概率计算 P(Y)

②计算条件概率


③代入公式计算后验概率

④比较大小判断结果

三、基尼指数

(1)、基本概念

基尼指数(Gini Index):是用来衡量一个集合中数据的“纯度”或“不确定性”的指标。
简单理解:
        基尼指数越小,集合越纯净(越倾向于属于同一个类别
        基尼指数越大,集合越混乱(不同类别样本混杂在一起)

(2)、公式

(3)、作用

(4)、例1

题目描述

请对属性“年龄=青年”进行划分的基尼指数计算

样本ID 年龄 有工作 有房子 信用 类别
0 青年 一般
1 青年
2 青年
3 青年 一般
4 青年 一般
5 中年 一般
6 中年
7 中年
8 中年 非常好
9 中年 非常好
10 老年 非常好
11 老年
12 老年
13 老年 非常好
14 老年 一般

解题步骤

①取出年龄=青年的样本

②取出年龄 ≠ 青年(即中年+老年)的样本

整体加权基尼指数

(5)、例2

题目描述

(1)以年龄A1作为划分特征
(2)以信誉贷款A2作为划分特征

ID 年龄 有工作 有自己的房子 信贷情况 类别
1 青年 一般
2 青年
3 青年
4 青年 一般
5 青年 一般
6 中年 一般
7 中年
8 中年
9 中年 非常好
10 中年 非常好
11 老年 非常好
12 老年
13 老年
14 老年 非常好
15 老年 一般

解题步骤 

(1)

(2)

四、论述题

题目描述

在这个项目:https://github.com/abi/screenshot-to-code中,请论述机器学习的相关知识,结合你学习的机器学习知识谈一谈。

论述内容

这个"screenshot-to-code"项目是一个将设计截图转换为前端代码的工具,它巧妙地运用了多种机器学习技术。下面我将结合机器学习知识分析这个项目的工作原理和相关技术。

①计算机视觉与图像理解​​

核心任务​​:将像素级输入转换为结构化UI元素描述
​​关键技术​​:
​​        (1)目标检测与分割​​
        使用CNN或Vision Transformer识别截图中的UI组件(按钮、输入框、导航栏等)
        示例:通过YOLO或Mask R-CNN标注元素边界框和类别

# 伪代码:基于OpenCV的组件检测
contours = cv2.findContours(image, mode=cv2.RETR_TREE)
for contour in contours:
    if is_button(contour): 
        add_to_json(type="button", position=contour.boundingRect())

        (2)布局分析​​
        通过Graph Neural Networks (GNN) 构建UI元素的层级关系树
        输出结构示例:

{
  "type": "container",
  "children": [
    {"type": "text", "content": "Login", "font-size": "16px"},
    {"type": "input", "placeholder": "Username"}
  ]
}

        (3)视觉到结构的映射​​
        使用对比学习(如CLIP)对齐视觉特征与代码标签(如Tailwind的bg-blue-500) 

大语言模型的应用​

模型选择​​:GPT-4o/Claude 3(多模态LLM)
​​处理流程​​:
        ​​(1)多模态输入编码​​
        图像通过ViT编码为patch embeddings
        文本指令通过tokenizer编码,与图像embeddings拼接

        (2)​​跨模态理解

​        (3)代码生成机制
        
基于自回归生成(Autoregressive Decoding)逐步输出代码
        关键技巧:​​
                约束解码​​:强制生成闭合标签(如</div>)
​​                温度采样​​:temperature=0.3平衡创造性与准确性

③提示词工程(Prompt Design)​​

​​分层提示结构​​:

回归

线性回归

梯度下降

正则化

回归的评价指标

着重线性回归

逻辑回归

分类问题

二分类与多分类

Sigmoid函数

逻辑回归求解

着重线性回归


朴素贝叶斯

贝叶斯方法基础

朴素贝叶斯原理

朴素贝叶斯案例

着重朴素贝叶斯


KNN算法

距离度量(KNN核心基础)

KNN算法原理与流程

KD树划分(高效实现KNN的核心)

KD树搜索流程(核心考试点)

着重KNN算法

决策树

决策树原理

ID3算法

C4.5算法

CART算法

着重决策树

支持向量机(SVM)

支持向量机概述

线性可分支持向量机

线性支持向量机(软间隔SVM)

性不可分支持向量机(核技巧)

着重SVM

聚类

无监督学习概述

K-means 聚类

密度聚类与层次聚类

着重聚类

人工神经网络

神经网络发展历史

感知机算法

BP算法(反向传播)

着重人工神经网络

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐