支持向量机(jī)算法和软(ruǎn)件ChemSVM是(shì)一款教学软件(jiàn),它是(shì)支持向量机(jī)算法和软件,可以解决(jué)小样本难题。体积小,但功能(néng)强(qiáng)大。界面非常清爽,简单易操(cāo)作。
支持向量机算法和软件(jiàn)ChemSVM由于(yú)计算机技术的发展,机器学习(包括线性和非线(xiàn)性回归、人工神经网络、模式(shì)识别算法等)已成为处理化学化工数据,总(zǒng)结经验规律,据以预报未知或控制生产(chǎn)过程的常规手段。但是,传统的机器(qì)学习算法都以经典(diǎn)统计数学的渐(jiàn)近理论为(wéi)依据。该理论的大数定理(lǐ)规定:统计规律只有在已知样本数无限多时才显露出来。但化学化工(gōng)实际工作中已知样本总是有限的(de)。忽视这一矛盾是造成实际计算中过拟合(hé)弊病的重(chóng)要原因。针对经(jīng)典统计数学这一弱点(diǎn),Vapnik学派(pài)提出了“统计学习(xí)理论”和(hé)“支持(chí)向量机算法”。新(xīn)算法既能处理非线性问题,又能抑制传统算法(如(rú)人工神经网(wǎng)络等)常遇到的过拟合(hé)弊病。本(běn)专刊中的论文系列(liè)工作表明(míng):支持(chí)向量机算法在(zài)分析化学的多变量校正、数据处(chù)理、商品检验、相(xiàng)图和新(xīn)化合物的计算机预报、新(xīn)材料制备的实验(yàn)设计、环境污染的建模和预报,以及分(fèn)子设(shè)计(jì),药物设(shè)计等领域的应用(yòng)都有良好效(xiào)果。在多数情(qíng)况(kuàng)下所建的(de)数学模型(xíng)较(jiào)传统算法的(de)结果有更好的预报正确率。这一新算法将(jiāng)会(huì)成(chéng)为化学、化工领域数据(jù)处理广泛应用的新计(jì)算工具。
1、不需要很多样(yàng)本,不需要有(yǒu)很多样(yàng)本并(bìng)不意味着训练样本(běn)的绝对量(liàng)很少,而是说相对于(yú)其他训练分类算法比起来,同样的问(wèn)题复杂度下,SVM需求的样本相(xiàng)对(duì)是(shì)较少的。并且由于SVM引入了核函数(shù),所以对于高维的样本,SVM也能轻松应对。
2、结构风险最小。这种风险是指(zhǐ)分类器(qì)对问(wèn)题真实模(mó)型的逼近与问题真(zhēn)实解之间(jiān)的(de)累积误差。
3、非线性,是指SVM擅(shàn)长应付样本数据线性不可分的情况,主要(yào)通过松弛变量(也叫惩罚变量)和核函(hán)数技术来实现(xiàn),这一部分也(yě)正是SVM的精髓(suǐ)所在。
Vladimir N.Vapnik等提出的统计学习(xí)理(lǐ)论(lùn)(statistical learning theory,简称(chēng)SLT)和(hé)支持向量(liàng)机(support vector machine,简称SVM)算法已取得令人鼓舞的研究成果(guǒ)。本文旨(zhǐ)在对这一新(xīn)理论和(hé)新算法的原理作一介绍,并展望这一计算机(jī)学(xué)界的新(xīn)成果在化学(xué)化工领域的应(yīng)用前景。
