基于神经网络的二分类问题

在之前的文章中，介绍了神经网络的概念和算法思想，甚至给出了公式推导。但依然没有掌握神经网络的精髓，于是打算进一步学习就在网上观看了吴恩达大佬的《神经网络和深度学习》这门课程，觉得收获很大。目前只学习了单个神经元的原理及应用，下面简单总结一下。1. 损失函数的定义与之前介绍的单个神经元的工作原理不同之处在于损失函数的定义，这里把损失函数定义为：推导思路：利用

jingyi130705008

24912人浏览 · 2017-12-06 21:46:44

jingyi130705008 · 2017-12-06 21:46:44 发布

在之前的文章中，介绍了神经网络的概念和算法思想，甚至给出了公式推导。但依然没有掌握神经网络的精髓，于是打算进一步学习就在网上观看了吴恩达大佬的《神经网络和深度学习》这门课程，觉得收获很大。目前只学习了单个神经元的原理及应用，下面简单总结一下。

1. 损失函数的定义

与之前介绍的单个神经元的工作原理不同之处在于损失函数的定义，这里把损失函数定义为：

推导思路：利用最大似然估计。先表达出p(y|x)，然后求其最大值。大致推导过程如下：

课程中另一个重点是“消除for循环”，也就是说用向量来代替显示的for循环，这样做的好处是提高计算效率。实验测试100万条测试数据，向量化要比循环快上300倍。因此在以后的编码中，尽量把数据初始化成一个矩阵来处理。在这里值得注意的是，构造的矩阵应该每一列表示一个测试样例。

2. 代码实现

下面给出基于神经网络的二分类代码（python）：

import numpy as np
import h5py
import math    
    
def load_dataset():
    train_dataset = h5py.File('datasets/train_catvnoncat.h5', "r")
    train_set_x_orig = np.array(train_dataset["train_set_x"][:]) # your train set features
    train_set_y_orig = np.array(train_dataset["train_set_y"][:]) # your train set labels

    test_dataset = h5py.File('datasets/test_catvnoncat.h5', "r")
    test_set_x_orig = np.array(test_dataset["test_set_x"][:]) # your test set features
    test_set_y_orig = np.array(test_dataset["test_set_y"][:]) # your test set labels

    classes = np.array(test_dataset["list_classes"][:]) # the list of classes
    
    train_set_y_orig = train_set_y_orig.reshape((1, train_set_y_orig.shape[0]))
    test_set_y_orig = test_set_y_orig.reshape((1, test_set_y_orig.shape[0]))
    
    return train_set_x_orig, train_set_y_orig, test_set_x_orig, test_set_y_orig, classes

def train_model(learning_rate=0.1):
    train_data_x, train_data_y, test_data_x, test_data_y, classes = load_dataset()  # 获取数据集  
    
    train_data_x = train_data_x.reshape(209, 64*64*3).T # 把训练数据构造成二维矩阵，行数为X的维度，列值为训练样本的个数
    
    row_count = 64*64*3 # 表示一个样例的维度
    examples_count = 209 # 表示样例的数量
    
    weight = np.zeros((64*64*3, 1)) # 初始化权值向量为0
    b = 0 # 初始化阈值为0
    dw = 0
    db = 0
    for i in range(1000):
        z = np.dot(weight.T, train_data_x) + b # 计算z
        y_hat = 1.0 / (1 + math.e**(-z)) # 计算预测值
        result = np.sum(abs(y_hat - train_data_y )) # 以累加y_hat-y的值来表示预测效果，result越小越好
        if result == 0:
            break
        print '%d:%d' %(i, result)
        
        dz = y_hat - train_data_y # 计算dL/dz
        dw = np.dot(train_data_x, dz.T) # 计算dL/dw
        db = np.sum(dz)
        dw = dw * 1.0 / examples_count
        db = db * 1.0 / examples_count
        weight = weight - learning_rate * dw
        b = b - learning_rate * db        
    
    return weight, b

def predict_data(weight, b):
    train_data_x, train_data_y, test_data_x, test_data_y, classes = load_dataset()  # 获取数据集
    
    row_count = 64 * 64 * 3 # 一个样例的维度
    example_count = 50 # 测试样例个数
    
    test_data_x = test_data_x.reshape(example_count, row_count).T # 转换成对应格式的矩阵
    z = np.dot(weight.T, test_data_x) + b
    predict_y = 1.0 / (1 + math.e**(-z)) # 计算预测值
    print 'correct rate:',np.sum(predict_y == test_data_y)* 1.0 / example_count
    print predict_y
    
    
if __name__ == '__main__':
    train_data_x, train_data_y, test_data_x, test_data_y, classes = load_dataset()  # 获取数据集
    weight, b = train_model(learning_rate = 0.1) # 训练参数
    predict_data(weight, b) # 根据训练的参数进行预测

这里有一点需要注意，在构造矩阵的时候"test_data_x = test_data_x.reshape(example_count, row_count).T"并不等价于"test_data_x = test_data_x.reshape(row_count,example_count)"，如果直接用第二个语句，则会打乱原来每个样例的数据，构造的矩阵毫无实际意义。

在该测试样例中，训练时大概需要迭代600多次即可收敛，最后预测的准确率约为：72%。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

从快照到电影：哈佛流等变神经网络开启AI运动理解新时代

脑启社区

生物计算提示工程薪资报告：提示工程架构师平均薪资曝光，技能溢价有多高？

生物计算提示工程架构师的高薪，不是偶然的市场泡沫，而是技术革命与产业需求碰撞的必然结果。他们是连接生命科学奥秘与AI算力的桥梁，用精准的提示策略让AI真正"理解"生物学，从而加速药物研发、优化基因治疗、推动合成生物学产业化——这种工作的价值，不仅体现在薪资数字上，更在于对人类健康和生命科学的深远影响。对于求职者，这是一个"窗口期"——未来3-5年，随着生物AI模型进一步成熟和普及，人才供给将逐步增

脑启社区

AGI真的需要“实体可调神经元”吗？从冯·诺依曼瓶颈到类脑硬件的三条出路

AGI之争，早已不是“能不能推出来”的线性竞赛，而是“以什么代价、用何种路径、在多大规模上普惠”的系统工程。存算分离是今天的瓶颈之一，类脑的“就地存算、事件驱动、可塑性”提供了重要方向；但更现实的未来，可能是数字与类脑的握手言和：让每一份比特尽量少走冤枉路，让每一次学习尽量就地发生。你的看法呢？你更看好哪条路：持续演进的数字加速器、从头重塑的类脑/存内，还是两者的异构融合？在你的业务或研究里，最痛