一种基于迁移softmax的文本分类方法
在互联网信息技术日渐提高的过程中,人们所能够接受到的数据和信息越来越多增多。其中,文本信息相较声音信息和图像信息,有占用网络内容少,并且方便上传和下载,内容方便读取等优势,这使得网络中的大部分的资源和信息都是文本的形式。为了更加有效地进行文本分类,提出本文主要研究的目标,重点解决文本信息提取问题,在大量文本信息数据,通过滤除无效文本,进而获得有用文本信息。基于现有的机器学习文本分类系统能够获悉,文
系统简介
在互联网信息技术日渐提高的过程中,人们所能够接受到的数据和信息越来越多增多。其中,文本信息相较声音信息和图像信息,有占用网络内容少,并且方便上传和下载,内容方便读取等优势,这使得网络中的大部分的资源和信息都是文本的形式。
为了更加有效地进行文本分类,提出本文主要研究的目标,重点解决文本信息提取问题,在大量文本信息数据,通过滤除无效文本,进而获得有用文本信息。基于现有的机器学习文本分类系统能够获悉,文本分类的实现是基于相应算法规则条件下展开的,或是借助数学建模思想来进行。所以文本分类精确度与分类模型有着密不可分的关系。
本课题在研究中首先介绍文本分类研究的背景,再对其来源展开分析,在学习相应知识,为本问研究奠定理论基础。
本文还介绍了迁移学习的相关知识, softmax回归模型的原理,通过介绍上述模型的特性,再结合计算机技术的合理应用,分别对两组相似特性的文本内容进行自动分类,分别规划至已设定好的数据集程序中。并对其进行分组,分别为源领域数据集和目标领域数据集;接着再通过缩小领域间分布差异与其softmax模型进行组合,从而得出另一种结构分类模型,对所研究的文本数据集通过标签形式分类;最后,在利用matlab来对分类模型进行效果严重。通过比较这种文本分类算法与其他算法特性的不同,验证其是否在文本分类方面具有优势。
关键词:文本分类;迁移学习;softmax回归模型
第1章 绪论
§1.1 课题研究背景
以知识工程作基础的文本分类法是人们在十九世纪九十年代前普遍采用的一种文本分类方法,这种方法是由专业人员手工进行分类。人工分类的缺点就是耗费人力以及效率不高。自九十年代往后,越来越多的技术人员从事着关于分类技术的研究与创新工作,也更加注重对文本自动分类技术的探究,由此也诞生出了许多优良的统计方法以及机器自动分类法。
在我国社会发展的现阶段,国内同样也在持续进行着对文本分类的研究工作,并已成功实现在文本分类多个方面的初步应用,如:在图书馆中对图书的管理与检索、机器对文本的自动分类、单词语义的辨析以及文本信息的过滤等等。
二十一世纪以来,随着互联网技术的快速发展,各种各样类型的数据和信息呈指数增长,包括文本信息、声音信息、图像信息等也、呈现出了爆发的形式。
文本形式的数据较图形图像以及声音数据而言,文件占用空间更小,方便存储与上传、信息加载速度更快,因此,文本数据占据着目前网络资源中的主要地位。对信息进行处理主要是为了在大量的文本数据中快速找出有价值的信息。机器自动分类系统是先系统性设计文本的分类模型,然后再对不同内容的文本进行自动分类,这为帮助人们快速整理文本以及查找文本信息带来了很大的便利,因此,这种自动分类方法越来越受到人们的关注与推崇,目前已经成为技术人员在信息处理领域进行研究的重要方向。本文确定的研究对象为文本归档,研究其在可用标记样本缺少情形下的分类问题。
§1.2研究意义
迁移学习在认知理论中的一个基本概念,即为将已经开发过并学习到的任务模型作为开发下一任务模型的初始模型,增强对旧知识的应用性。换言之,就是“举一反三”的能力。人类往往都是具有迁移学习能力的。传统机器学习的特性大都基于统计学习,因此不具备迁移学习能力,但随着科学技术发展,迁移学习也被运用至分类器算法中。然而在传统的迁移学习分类算法中,无法真正建立起知识迁移过程与分类器训练过程之间的有效联系,始终处于一种相对分离的状态,进而分类器在运算过程中难以得到标准参数。针对此种情形,可以采用另一种迁移学习分类模型,即迁移softmax回归。这个模型的原理是将具有一定迁移特征的学习信息导入到softmax回归函数中,通过使特征提取过程与分类模型进行有机统一,以得到一种能实现知识迁移的新分类器。
§1.3 研究现状
文本分类技术目前已经被广泛运用在社会生活的方方面面,如数字图书管理、信息检索以及新闻等方面。定义是按照一定的分类模型或是规则,将具有相似特征内容的文本自动划归到一类的过程。文本分类一般包括文本预处理[2]、分词、模型构建和分类几个过程。随着互联网技术的快速发展,文本和词汇呈现出多元化、更新快的特点,这给文本分类带来了巨大的挑战。因此,对高效文本分类算法的研究,目前已经成为目前一个热点。
最常用到的文本分类算法模型有:支持向量机、k近邻、朴素贝叶斯等等。然而,上述分类算法都存在一个训练数据与测试数据必须遵循相同的概率分布的前提假设。人们在实践应用中,会发现在测试数据与训练数据所对应的场景出现一定差异性的前提下,上面的算法明显不再适用,因此上面的假设也就不再成立。而迁移学习作为解决这个问题的关键方法,它利用大量与当前目标数据集分布相关但不相同的源领域数据集,帮助目标任务训练处更好的模型,提高分类效果[9]。
在经过一系列的研究与尝试之后,涌现出了很多不同的迁移学习方法。如文本分类的迁移学习,即是将采样数据源通过知识迁移的方式,建立起一个系统的迁移知识库,从而达到数据分类的目的;通过Softmax Regression利用参数函数的形式来对文本任务进行分类;图像聚类方法首次出现在社交网络上,是一种特殊的异构迁移学习方法,主要应用在社交网络平台上对目标图片的精准搜索;针对迁移学习的分类算法,则是根据目标数据域与源数据域之间的关联性,择取源数据域中能支持分类超平面的向量以及目标数据域,然后在分类模型的训练中提高精准度;跨领域分类算法一种基于迁移框架下的一种数据集成算法,先引入、筛选源域数据,然后再学习混合数据集,进而在此集成算法的基础上建立起分类模型,并最终得到预测结果。
logistic回归模型在推广多分类问题的处理方法上可以采用softmax逻辑回归模型。softmax逻辑回归模型不同于类别标签只能取两个回归分类逻辑,它更像是对类别标签的延伸,增强了类别标签的多种可能性,适用于多分类问题。Softmax 分类器将输入矢量从 N 维空间映射到类别,将多分类的结果以概率的形式展现出来,则最大概率值对应类别即为该文本样例的判定类别。
§1.4本文主要思路和工作
首先在计算机技术的帮助下,将两组具有不同分布但相近特征的文本信息数据集根据文本内容自动划分到预先设定好的文本类别体系中作为训练数据集。其中一组作为源领域数据集,另一组作为目标领域数据集;其次,加入一种领域间分布差异缩小机制与softmax模型相结合,构建一种新的分类模型,对目标领域文本数据集进行标签分配,最后,为验证分类模型的有效性,可以采用matlab进行仿真实验。
§1.5本文结构
第一章为前言部分,即对课题研究的背景、意义、应用领域以及现状作简要论述。通过绪论部分,使读者了解到文本分类研究的意义,并指明本论文所需要做工作和本篇文章的详细结构。
第二章为文本分类的综述部分,包简要介绍了文本预处理的过程,表示文本的方法以及常用算法
第三章则是研究迁移学习过程中的特征,主要对迁移学习的内容、方向、技术以及应用作简单阐述。
第四章主要介绍了softmax模型的原理和特征迁移的相关知识,并以此为基础,介绍了迁移softmax回归模型。
第五章为实验内容,先统计本实验所涉及到的各项数据集,再对其数据集以及所用到的相关软件进行介绍,然后通过实验比对不同算法下仿真的不同实验结果,最后,对新算法的性能做出评估。
第2章 文本分类综述
§2.1 文本分类简介
自动文本分类(Auto Text Classification),即为文本分类(Text Classification),主要是为了满足现今社会发展所带来的大量数据处理需求,旨在将待分类文本内容按照某种特定的分类算法以及分类体系,自动划分为某个类别或是某几个类别。在目前语言、文本信息处理方面,文本分类技术已经成为一个重要的研究方向。
§2.2文本分类过程
文本分类的一般过程:如果我们在浏览网络文本时较为细心,我们不难发现很多的文档都是HTML格式,经过资料的查询,可以发现一般文本内容在被等待分类的Web网页显示中都是以HTML格式的文档储存方式为主,这一形式也是当前因特网中文本信息的主要组织形式。文本分类首先要文本知识挖掘,这是一种以发掘文本内在规则为目的的挖掘方式,要想使Internet数据挖掘智能化,就必须以文本挖掘为基础。在此,如下图1所示过程为最常采用的一种文本知识挖掘方法,即一种基于文档特征向量空间模型(Characteristic Vector Space Model,CVSM)的知识挖掘方法。我们首先需要做的第一步是使文本结构化:
图1.文本知识挖掘的一般过程
其一,预处理过程:文本预处理首先是要除去文档中的没有实意词,例如“的、虽然、the、as”等,这就要运用禁用词集来进行文本的过滤;接着,再对文本语句进行分词,如“计算机操作系统”这个词集,可以拆分成“计算机”、“操作系统”和“计算机操作系统”这三个分词,这就是用到特征词典集的一个基本举例。如果我们在某篇文本中发现特征词典集中没有的词,那就要注意特征词典集的维护,实时对典集进行更新
其二,概念映射与概念消歧。有些词名称写法不同但所指意义和内涵一致,例如“计算机”和“电脑”,这时我们应把这些词归为一类,需要运用概念集进行概念映射,消除这些词的歧义,如映射为“计算机”。对于有些词汇存在有多概念的现象,在对其进行分类时,应当择其出现概率最大的那个概念。
其三,在选取一般特征项时可以从日期、数字等项进行数据提取,然后将结果存储在文档矢量库里。虽然有很多种一般特征抽取的方法,但目前最常使用的方法是TFIDF 法,是具有一定文档特征的一种矢量,表现的是区分某特征区间内文档属性的能力,而且它的区分能力会随着这个属性在此文档库中出现的范围大小变化而变化,即范围越小,则区分能力越高;再者,这个属性若是出现在文档中的频率越高,则表示它的区分能力也越强。在抽取日期、数字等项目特征时,采取的也是类似于此种一般特征的抽取方法,只是两者的特点属性存在些微不同。
其四,缩减特征数据集。按照上述方法得到的是一个庞大的特征数据集,因此对其进行缩减很有必要。具体方法是利用某个评价函数对特征向量进行评估,再根据得到值的大小对特征向量子集的范围或数量进行选取,其结果仍然存储在文档矢量库中。最常见的评估函数有:信息增益、机率比、词频等。
通过查找相关资料,可以了解到如下信息:
其一,文本内容:统计文本中表现主旨思想的句子,这些句子往往包含许多的特征或是存在位置比较特殊。文本在设计句子权重时,可以以下面大致的标准来:标题作为文本的眼,应给予较高权重;结论性的句子,如一般出现在锻炼的开头与结尾,因其具有很多特征,因此也应保持较高权重;包含检索词的句子,权重自然也应较高。
其二,文本分类:对文本知识进行挖掘的主要目的即是为了进行文本分类,具体是对训练集、矢量集和文本矢量集进行相互比较,主要方法有朴素贝叶斯分类算法和 K-最近邻居分类算法等。
其三,文本评价模型:主要包含训练集与测试集这两种数据集评价模型。通过“学习-测试-学习”这种循环往复的过程,为更好衡量文本分类模型的质量来确定出一个评价指标。一般模型评价指标有:分类正确率、查准率、查全率等。
§2.3常用文本分类算法
对文本进行分类时,往往离不开一个良好的分类器模型,因此良好分类器模型的构建应是人们该重点研究的内容。目前偏统计理论的分类算法比较多,而且也已在国内外的各项研究中取得了良好的进展。
§2.3.1Rocchio算法
在1971年的时候,学者Rocchio曾研究出一种较为简单分分类方法——线形分类器。是指通过用户在信息查询中所反馈过来的数据予以修改,并针对不同类别取其全部文档特征项的平均。其中学者Mun也给出了不同的修正方法。在1979奶年的时候, van Rijsbergen针对信息检索范围进行了总结,提出了与信息检索有关的概念及其描述,包括空间模型、回召率等等,在后来的文本分类研究中都有运用到这些方法,这意味着后续大多数文本分类研究都是在此基础之上完成新的模型构建的。
§2.3.2K最邻近法(KNN)
作为机器学习算法,K最邻近法也被叫作KNN法,它不但十分简单,而且通过长时间的发展,已经拥有了十分成熟的理论。KNN法指的是在特征空间里,以一个样本为中心,在其周围的样本数量记为k,若是这些样本中大部分都来自同一类别,那么就表示中心样本也来自此类别。
通过上图能够发现,三角形和正方形分别代表的是两类样本数据,中心样本,也就是需要进行分类的样本则为图中心的圆。当前需要判断圆属于何种类别,是和三角形为同一类别,还是和正方形为同一类别,为了获得答案,需要开始对圆,也就是中心样本进行分类。
常言道,要想了解一个人的品性,可以先了解他朋友的品性。所以在对圆的类别进行判断时,也可以从它周围的数据着手,然而在展开具体判断工作时,应当看多少个数据呢,此处将需要观察的待判断样本周围的样本个数记为k,
在上图中,如果观察的数据位于第一个黑色圆圈中,那么此时K=3,在这三个周围的样本中,只有一个正方形,其他都是三角形,此时以统计方法为基础,得到这样的结论:圆和三角形为同一类别。
若是观察的数据位于虚线圆圈中,那么此时K=5,在这五个周围的样本中,只有两个三角形,其他都是正方形,此时以统计方法为基础,得到这样的结论:圆和正方形为同一类别。
能够发现,KNN法的核心思想为:当在已知分类中,无法明确需要判断分类的样本的类别时,通过统计学理论明确样本具体位置之后,就可以对其附近样本权重情况进行衡量,在明确权重最大的类别之后,将待判断样本归入此类中,而把它归为(或分配)到权重更大的那一类。
需要看到的是,在此算法中,所选邻居都有一个共同点那就是它们已经完成了分类工作。所以此方法是根据邻近样本类别情况来对待分样本类别情况进行明确的方法。
作为lazy-learning 算法,K最邻近法不但十分简单,而且能够获得有效结果,因为它并不需要通过训练集来展开训练,零为它的训练时间复杂度,当它的计算复杂度越高时,其训练集样本数量越多,若将后者用n来表示,那么此时可以用O(n)来表示此算法的分类时间复杂度。
尽管K最邻近法是以极限定理为基础的,但是在明确样本类别时,只会涉及到上述邻近样本。因为它主要是根据邻近样本来对样本类别进行判定,而不是按照类域来对样本类别进行判定,所以K最邻近法十分适合用来判断存在较多重叠的待分样本集的样本类别。
在展开具体判断工作时,KNN法模型和特征空间划分情况相对应,同时,它的基本要素有3个:
首先是K 值的选择这一要素,它能够影响到算法结构。如果K值并不大,就说明,要想令预测结果起作用,输入的训练实例必须距待分样本够近,然而在这样的情况下,就容易出现过拟合现象。如果 K 值并不小,虽然能够令学习估计误差大大降低,但是却会提升学习近似误差,此时即使训练实例距待分样本很远,也能够产生预测作用,此时预测就容易失误。在实际情况中,通常不会将K 值选为较大的值,而且会通过交叉验证手段来对最优 K 值进行明确。如果训练实例数量为无穷,当 K值为1时,贝叶斯误差率的二倍高于它的误差率,当K值为无穷时,这两类误差率相差不大。
其次是分类决策规则这一要素,它通常都是由多数表决决定的,也就是说在 K 个邻近样本中,输入实例的类别和多数样本所属类别一致。
最后是距离度量这一要素,此处通过用Lp 距离,当p的值为2的时候,在开始度量前,需要规范个属性值,如此才能够避免初始值域较低的属性权重低于初始值域较高的属性。
需要看到的是,KNN算法的回归和分类中都十分适用。当明确最近邻居之后,将其属性平均值赋于待分类的样本,如此就能够知道此样本具体属性。当然还有一种手段更加有效,那就是将样本受到各种距离的邻居的影响给予相应权值,此时权值和样本距离之间为负相关。此算法存在一个缺陷,那就是如果样本不平衡状态较为严重,也就是说在各类样本中,某类样本拥有较大容量,但是其余样本却只有较小的容量,此时当输入新样本之后,在K个邻居里,大部分样本都属于大容量类别,而此算法只对距离最近的邻居进行计算,此时不管它和样本的距离是远还是近,它的数量都不会令运行结果受到影响,因此可以通过权值手段来对其进行优化。
KNN算法还存在一个缺陷,那就是需要进行较多计算,因为需要对待分类样本到其他已知样本的距离进行分别计算,如此才能够知道哪些属于K个最近邻点。要想解决这一缺陷,如今使用较多的手段是先剪辑已知样本点,将那些并不会对分类引起较大影响的样本去掉。能够发现,当类域拥有较大容量,而且能够进行自动分类时,就很适合这一算法,但是如果类域并没有多大的容量,那么在划分时就很容易出现错误。
§2.3.3支持向量机(SVM)
自从20世纪60年代,SVM出现之后,经过多年的发展已经变得十分成熟,同时还由此算法出现了许多扩展算法,这类算法被充分应用在了各种模式识别中比如文本分类等。
作为一种机器学习手段,SLT理论是SVM的基础,此理论在小样本情况里机器学习规律的研究中发挥着十分重要的作用。同时,它根据小样本统计问题来完成了新理论体系的构建工作,在此体系中形成的统计推理规则既对监禁性能进行了充分考虑,而且还致力于通过对有限信息的运用从而获得最好的结果。
作为一种数据挖掘手段,SVM基于统计学习理论,不但能够对分类问题等模式识别问题进行处理,而且还能够对时间序列分析等回归问题进行处理。同时在综合评价等领域它也能够发挥极大作用。通过对SVM机理进行分析嫩巩固发现,它是在明确优分类超平面,并确保分类精度满足要求之后,令此超平面两边拥有更多空白区域,从理论上讲,SVM在对线性可分数据进行分类时能够实现最优分类目的。
支持向量机算法流程图
§2.3.4朴素贝叶斯(native Bayes)
通过贝叶斯理论来展开分类工作的就是朴素贝叶斯算法,它是利用贝叶斯公式来对需要进行分类的样本类别归属判断的后验概率进行预测[32]。接着确定拥有最高概率的类别,并将样本归入其中。然而要使用这一算法,就必须以两类假设作为基础,这两类假设首先是各类别拥有独立的属性;其次是能够预先了解到各类别先验概率具体情况。正是为此上述两个假设的存在,才令此算法的应用领域受到极大限制。其原因是,第一,样本各特征项存在关联,并无法独立存在,而且大多数时候,要想第二个假设成立,就必须需要人的参与,而这就会增加人力成本。然而因为贝叶斯分类算法存在两大优点,第一是拥有较高的工作效率;第二是十分准确,所以能够进行较少计算就获得精确的分类,它的计算公式为:
上式里,Ci和D分别代指的是类别和文档, D∈Ci的概率则用 P(Ci|D)来表示,而Ci 涵盖 D的概率则用P(D|Ci)来表示,当完成计算工作之后,拥有最高P(Ci|D)的类别是 D的类别。
§2.3.5决策树算法
作为非参数分类器,决策树模型不但并不复杂,而且使用起来也十分方便,在机器学习里,此模型通过进行和树模型差不多的模型的构建,从而来实现对分类问题的处理,具体而言,它主要是通过训练数据集手段来进行决策树的创建工作,在决策树中,其分枝指的是各分类条件,当完成创建工作之后,便能够利用此模型来预测未知数据分类i情况了。如果决策问题十分复杂,那么在进行决策树的构建时,需要进行多层次的建立,当完成一个阶段的决策后,就会出现许多新的自然状态,如果将这些状态个数用m来表示,那么在各自然状态中,可以选择的策略也就有m个,完成选择工作后,会出现许多结果,此时又会出现许多新的自然状态,就需要继续进行决策,此决策通常被叫作多级决策。
通过对决策树模型进行分析能够发现,它的优点有很多,首先它使用起来十分方便,而且工作效率也很高,不但构建容易,而且解释起来也不困难。其次,它能够进行扩展,数据库大小并不会对其算法复杂度产生影响,不需对数据的结构和分布做假设;接着,它能够捕捉住变量间的相互作用。
当然,决策树模型也存在一些不足:其一,如处理数据缺失困难,其二,决策树对样本量的需求较大,其三,在深层决策树难以解释和看懂。其四,决策树模型的稳定性有时无法得到保证
下图是一个决策树的很简单的例子,
§2.4本章总结
在本章内容中,我们介绍了文本分类的意义及一般流程,从知识挖掘到知识发现,通过了解过程,我们可以学习到文本分类的一般原理及算法要求。我们还介绍了文本分类在历史研究中的成就,进一步肯定了上一章中文本分类的意义,在下一章中,我们将介绍文本分类的一些实例。
第3章 迁移学习
§3.1迁移学习简介
基于同一分布的大量训练与测试的数据的假设,是想要进行传统的机器学习所进行的必须前提。所以,在以往,往往传统的机器学习只能被限制在一个单一的领域,不能向任何领域进行拓展延伸。并且,单一的学习领域很容易受到外界因素的影响,在外界环境变动时,经常会完全破坏原有的学习模式,更改为新的学习模型。想要将这种脆弱的学习方式进行改良或革新,就势必要进行学习方法新类型的引进。
现实生活中经常会出现在一个陌生的领域可以对之前熟悉领域所获得的知识进行使用,即举一反三的现象的出现等都是迁移学习在现实生活中的应用。比如:当你对某种车辆已经使用的十分娴熟时,在其他类型不同的车辆的使用学习中,你也会更迅速地掌握车辆行驶的方法。日常生活中,这种在陌生领域对旧知识的活学活用十分普遍,迁移学习的出现也十分普遍。
作为十分新颖的学习方式,迁移学习能够在进行学习新领域目标任务的同时,在大量标注数据于相似领域中的帮助下,快速对任务进行完成。而且具有着数据要求不严苛,数据量要求少特点的迁移学习能够在对已有的学习模型以及已经使用甚久的数据的利用下,加快在新领域新知识的学习。
在本次论文中,仅仅只对单一目标域以及单一的源域进行研究和分析。在下列是一个源自于文献[26】的对于迁移学习的理解:首先对源领域眈进行设置,并且设置Ts为学习任务;设置Df为目标领域,并且给定前提,任意两个同类型的设定值并不相等。并且在进行迁移学习的最后,对预测函数的性能进行提升。
§3.2迁移学习类型
由于迁移学习出现的时间较晚,类型较为新颖,故而学术界针对此类型的学习方法研究地还不够深入,故而仍然缺乏一个完全具体的定义。在进行迁移学习的过程中,基于对标注样本数据的包含于源领域以及目标领情况的不同,能够得到三种类型不同的迁移学习方式,即分为归纳式、直推式以及无监督式迁移学习。本论文的图3.4是对这三种类型方式的内在关系的简略呈现。
由上图可知,有着自学习的应用场景以及多任务的应用场景的具备着目标域标注样本可应用特性的归纳式迁移学习具有着不能对源领域的标注数据进行应用的劣势,但是也可以通过不使用自学习模式而应用多任务学习模式的方法,来应用位于源领域的标注数据,并且具备着学习方式的同时性;并且由上图可得,另一种方式中的直推式迁移学习也具有着其独有的特性,即仅可以应用位于源领域中的标注样本,并且可以划分目标任务,依据源领域以及目标领域的不同,来进行区别,并且在进行相同任务时,可以依据不同类型的域来进行学习方式的选择。并且该种类型类似于领域适应与文本数据中的性质的表现。并且如果是执行一个任务于一个固定的领域之中,那么该种情况的出现偏置样本选择有关。在三种方法中,无监督迁移学习则是一种极为类似于前两种方法的学习方法,对于标注样本于源领域以及目标域中的应用均有广泛涉及,并且依据不同类型的任务及完成目标,可以进行更多的类型选择。
并且如果想要采取更加专门化的方法来对目标任务等进行完成,则可以对以上三种方法进行改良,并且继续区别为更多分类的迁移学习方式,比如:具有知识迁移能力较强的基于实例,具有知识迁移能力较为普遍的基于特征,具有迁移能力较特别的基于参数,具有学习与扩展能力较强的基于关系知识的迁移学习方式等。
§3.3迁移学习与传统机器学习的比较
图3.3是学习过程于迁移学习与学习过程于传统的机器学习中的具体对比图。并且在进行传统机器学习时,最为普遍的方法就是仅仅依据一个领域的固定数据来对该领域的某项特定情况进行处理和分析。这种情况的弊病就在于如果在特定的情况发生变动时,就必须重新对数据和模型进行设置,极为麻烦。而迁移学习则在这个缺点上进行了更为详细具体的分析操作,不再对一个领域进行依据固定数据的该领域的某项特定情况进行处理和分析,不再局限于单一的数据与单一的领域,而是对更多的任务进行联合,互相处理。
并且能够使得学习的效率得到巨大的提升,在对模型进行更强泛化能力的处理以及对训练数据进行更大量的获取的同时,更好地学习目标任务。
§
3.4本章总结
在本章内容中,我们介绍了几种可用于文本分类的分类模型,使我们对文本分类的规则有所了解,在下一章中,我们将着重介绍softmax模型的原理和分类模型的构建。
第4章 Softmax模型原理及分类模型构建
§4.1Softmax模型原理
作为指数函数中归一化类型函数的Softmax函数,并且在推广回归模型Logistics的时候,其中的类别标签是类别标签数量。对于一个测试样本,其属于每个类别的假设函数如下:
其中,是这一项对概率分布进行归一化,使得所有概率之和为 1,是模型参数。
给定一个含有个训练样本的数据集,可到softmax回归的代价函数如下:
(2)其中,是一个指示函数,取值规则为: 1{表示式为真}=1,1{表示式为假}=0。回归模型参数,可以通过最小化获得。
获得模型参数后,对于待测样本属于类别的概率为:
(3)通过式(3)计算出属于所以类别的概率,取最大概率所对应的类别即为的分类类别。


第5章 实验及仿真
§5.1实验
为验证算法是否有效,本次实验均采用计算机实验,实验程序为matlab2015a。
§5.2Matlab软件
Matlab,是当前国内进行数学研究的主要软件之一,并且是本次实验所用的最主要软件。
并且处理数值时,可以计算数值,符号以及设计绘制工程与科学图标,处理数字图像与数学信号,设计仿真的通讯系统,设计处理财务与金融工程。
在该软件中,其具有的迅速的计算功能,简单的处理问题的操作,帮助其得到了更为普遍的应用;有图形处理功能,计算结果可以直观地展现;软件工具种类丰富多样,为用户处理问题提供极大的方便。
下图为Matlab的主要工作界面,位于中间位置的是command Window,命令窗口:主要用于输入命令,可用于调用函数;位于主界面上方的是功能栏:在功能栏中,具有着可以对m文件进行新建操作;并且软件中含有的搜索栏,可用于函数的搜索主界面右侧为Workspace:这里存放着文档的数组信息,在计算机中,一切形式的文档都可以化为矩阵的形式。
§5.3数据收集
图像实验数据集采用如表1所示的MSRC、VOC2007、Office、Caltech显示屏等4个图片数据集。
对于图片数据集Office+Caltech的简单了解:作为数据集中普遍应用于Office的视觉跨领域的广泛的含有3个汇总集的数据集。并且在它所包含的三个集中,所完全含有的有超过30个类别,4000多个详细图片。并且其中最多的类别达到了接近300个,超过30000幅不同类型的图片。在实验进行时,对目标
对于图片数据集20_newsgroups的简单了解:对于含有超过10000文档,超过10个子类的具有众多分类的数据集来说,它的应用十分具体。在表2中,将之分为两组。在通过对以往文献的详细查阅之后
对于图片数据集Reuters-21578的简单了解:作为被普遍应用的含有超过20000个文档的数据集Reuters-21578,它具有着众多的类型,以及众多的分类,可以对众多类型的任务进行完成。本文在6个分类任务上进行了更为完整的评测。
结 论
本次毕业设计的内容为一种文本分类方法。在设计之前,我在网上寻找了一些关于文本分类的知识进行学习。并且在毕业设计指导老师臧老师的指导下,选择迁移学习的方法,将softmax迁移至文本分类的模型中,构成新型算法,在对其进行仿真分析。
为了实现该设计的功能与完成论文, 我做了下面几点工作:
在这一段时间内,我查阅大量与文本系统原理和发展情况相关的文献资料,了解了文本分类模型中共通的原理和当前文本分类中存在的问题,明白了老师让我研究这个课题的意义所在,也让我对完成这个算法的完成有了较为流畅的思路。
在老师的指导下,首先学习了新算法的原理,然后通过对数据集的处理和在matlab软件上用新算法对数据集的仿真实验,得出了一系列结论。通过对比得出新算法确实较原来的算法更为优良。
更多推荐


所有评论(0)