在机器学习中使用pickle

1. Python之pickle的用法(用于序列化和反序列化数据)

该pickle模块实现了二进制协议,用于对Python对象结构进行序列化和反序列化Pickling是将Python对象层次结构转换为字节流的过程,而 “ unpickling”是逆运算,将字节流(来自二进制文件或类似字节的对象)转换回对象层次结构的过程。

  • python2.7导入import cPickle;

  • python3导入import pickle

  • 序列化指的是将对象的状态信息转化为可以存储或传输的形式的过程。(简单理解即将数据存储到相应存储过程,如dict存储到json文件中)

  • 常用的四个方法:dump()、load()、dumps()、loads()

  • dump(): 将数据序列化到文件中

  • import pickle
    file = open(filedir,'w+')#以二进制式打开
    myData = [{"key": value},[1,2,3,4,5],'str',123]
    pickle.dump(myData, file)

    load(): 将序列化后的数据读出(反序列化)

    import pickle
    file = open(fileDir, 'r+')
    print(pickle.load(file)) #假设此处的fileDir是前面dump()的
    #打印出来的是[{"key": value},[1,2,3,4,5],'str',123]
    #type:list

    dumps()和loads()与上述的区别:无需读入文件,实现str和数据类型的转化

  • Python中 pickle 模块的 dump() 和 load() 方法详解:

  • cPickle和pickle的区别:cPickle是C语言编写的类,执行速度上更快一些

2.Python中训练模型的保存和加载

  •  可以使用pickle的方法:
  • 模型保存:
    import pickle
    model.fit(x_data, y_data)
    s = pickle.dumps(model)
    with open('myModel.model','wb+') as f:#注意此处mode是'wb+',表示二进制写入
    	f.write(s)

    模型加载

  • import pickle
    f = open('myModel.model','rb') #注意此处model是rb
    s = f.read()
    model = pickle.loads(s)
    # 之后就可以使用model了

    3.Python交叉验证时划分训练集和验证集的方法

           主要是使用了numpy中的slice和np.delete()

# data是完整的数据
v_rate = 0.2 #验证集比例
v_size = train_data.shape[0]*v_rate #验证集大小
for v_index in range(int(1/v_rate)):
    verify_data = data[v_index*v_size:(v_index+1)*v_size]
    train_data = data.delete(data, np.s_[v_index*v_size:(v_index+1)*v_size], axis = 0)

 

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐