① 基于无监督生成模型的图像异常定位方法研究
摘要 亲亲,我们目前这边查询到的资料是异常检测,简单地说就是让学习到的模型能够区分开正常样本和异常样本。比如在医学领域,根据CT影像学习的癌症检测模型也可以说是异常检测,正常样本就是正常人地CT影像,异常样本就是癌症患者的CT影像。再比如在智能监控领域,要求模型能够检测高速公路上出现的影响通行的阻挡物,那么这也是异常检测。总之,异常检测就是根据任务的需求定义好正常样本(比如正常人的CT影响,干净的路面),并 在测试阶段能够检测出异常样本(可疑的癌症患者,公路上的阻碍物)。
② 样本量的计算公式
(1)重复抽样方式下:n为样本容量、d为抽样误差范围、σ为标准差,一般取0.5。
变量总体重复抽样计算公式:
(2)样本不均衡评测方法视频扩展阅读
合理确定样本容量的意义:
1、样本容量过大,会增加调查工作量,造成人力、物力、财力、时间的浪费;
2、样本容量过小,则样本对总体缺乏足够的代表性,从而难以保证推算结果的精确度和可靠性;
3、样本容量确定的科学合理,一方面,可以在既定的调查费用下,使抽样误差尽可能小,以保证推算的精确度和可靠性;另一方面,可以在既定的精确度和可靠性下,使调查费用尽可能少,保证抽样推断的最大效果。
③ 机器学习中非均衡数据集的处理方法
不管是在学术界还是工业界,不平衡学习已经吸引了越来越多的关注,不平衡数据的场景也出现在互联网应用的方方面面,如搜索引擎的点击预测(点击的网页往往占据很小的比例),电子商务领域的商品推荐(推荐的商品被购买的比例很低),信用卡欺诈检测,网络攻击识别等等。
问题定义
那么什么是不平衡数据呢?顾名思义即我们的数据集样本类别极不均衡,以二分类问题为例,假设我们的数据集是$S$,数据集中的多数类为$S_maj$,少数类为$S_min$,通常情况下把多数类样本的比例为$100:1$,$1000:1$,甚至是$10000:1$这种情况下为不平衡数据,不平衡数据的学习即需要在如此分布不均匀的数据集中学习到有用的信息。
为什么不平衡学习
传统的学习方法以降低总体分类精度为目标,将所有样本一视同仁,同等对待,如下图1所示,造成了分类器在多数类的分类精度较高而在少数类的分类精度很低。机器学习模型都有一个待优化的损失函数,以我们最常用最简单的二元分类器逻辑回归为例,其损失函数如下公式1所示,逻辑回归以优化总体的精度为目标,不同类别的误分类情况产生的误差是相同的,考虑一个$500:1$的数据集,即使把所有样本都预测为多数类其精度也能达到$500/501$之高,很显然这并不是一个很好的学习效果,因此传统的学习算法在不平衡数据集中具有较大的局限性。
④ 如何提高机器学习算法的召回率
最近在做文本分类,遇到了一些问题,想问问大家有没有好的方法。为了节省时间,我只采取了部分数据来跑算法(全部数据跑了之后的结果和这个差不多)
训练集:4837 documents
测试集:2074 documents
样本比例:正样本:负样本 = 1:3
预测结果中,有的算法在正样本中预测的精确率还行(0.95-1.00之间),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精确率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比较平均,但是也没有到0.8。
问题:我查了一下那些召回率较低(0.01)的算法,475个样本中(正样本),实际上只有5个被预测正确了的,但是具体原因没有查出来。
我想请问一下:1.召回率低是因为样本极度不平衡造成的吗?(虽然我认为1:3的比例不算极度不平衡。)2.在这种样本不平衡的问题上,有没有什么好的方法可以提高召回率?我试过SMOTE方法(过采样和欠采样都有试过),但对于我的数据集并没有什么好的效果,不止到有没有有什么好的方法可以解决这个问题?谢谢!
添加评论
分享
查看全部 11 个回答
0赞同反对,不会显示你的姓名
Elvin 全是细枝末节,做一个乐于分享的人
两个问题一并回答一下,根据你的描述,我觉得问题应该不是出在正负样本比上,1比3这个比例不但不是非常不均衡,相反在我看来已经是非常均衡了。以前做比赛有处理过正负比1比10000的数据,我觉得这才叫不平衡,才需要使用类似上采样,下采样,以及SMOTE算法(都用过),而且这样的情况下recall,F1等指标的提升是显着的。我觉得正负比例在1:1至1:100间差别都不会太大,需要根据具体问题做离线交叉验证去找到最好的比例。
所以我建议你不用再纠结正负样本比的问题,可以再回头看一看你的数据集,一方面看一看代码是否有误?数据集是否太小?(总觉得你的数据集太小,而且测试集相对于训练集太大)另外训练集,测试集的划分是否正确?或者重新划分一下训练测试集做一下交叉验证看一看各项指标再具体研究。
⑤ SPSS样本不均衡会造成什么
分类时,由于训练集合中各样本数量不均衡,导致模型训偏在测试集合上的泛化性不好。解决样本不均衡的方法主要包括两类:(1)数据层面,修改各类别的分布;(2)分类器层面,修改训练算法或目标函数进行改进。还有方法是将上述两类进行融合。
_裳?
_“姹镜墓裳核婊裳盗费局惺勘冉仙俚氖荩蝗钡悖菀坠夂希?
_凡裳?
_牍裳椒ㄏ喽粤⒌氖乔凡裳椒ǎ饕且瞥萘拷隙嗬啾鹬械牟糠质荨U飧龇椒ǖ奈侍庠谟冢_荽吹男畔⑷笔АN朔庖蝗钡悖梢远粢恍├啾鸨呓绮糠值氖荨?
⑥ 样本为什么不能低于30
因为样本量低于30,不具备普遍性,统计结果不科学。
一般来说,样本的容量大的话,样本的误差就小。反之则大。通常样本单位数大于30的样本可称为大样本,小于30的样本则称为小样本。样本容量的大小涉及到调研中所要包括的单元数。确定样本容量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。
从定性的方面考虑样本量的大小,其考虑因素有:决策的重要性,调研的性质,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本。
样本抽样方法的选择:
选择适当的抽样方法要考虑可行性,例如一个教师要研究珠三角地区的教师职业倦怠问题,需要在珠三角的不同地区选取样本,研究者应该考虑是否有能力获得可靠的样本信息。考虑抽样的可行性也是考虑抽样的经济性,开展一项研究的人、财、时间是有限的。
必须考虑充分运用有限资源获得最有价值的信息。再次,好的抽样设计应该具有可测性,也就是说样本提供的信息可以有效推断出总体特征。最适当的抽样设计应该是既充分包含了所要研究的问题,又是可行的,研究者通过努力可以完成。
⑦ 机器学习中训练样本不均衡问题
机器学习中训练样本不均衡问题
在实际中,训练模型用的数据并不是均衡的,在一个多分类问题中,每一类的训练样本并不是一样的,反而是差距很大。比如一类10000,一类500,一类2000等。解决这个问题的做法主要有以下几种:
欠采样:就是把多余的样本去掉,保持这几类样本接近,在进行学习。(可能会导致过拟合)
过采样:就是增加比较少样本那一类的样本数量,比如你可以收集多一些数据,或者对数据增加噪声,如果是图像还可以旋转,裁剪,缩放,平移等,或者利用PCA增加一些样本,等方法
第三种:就是直接采用不均衡数据进行训练,可以在代价函数那里需要增加样本权重,用来平衡这个问题,也就是类别数量少的那一类代价就高,权重就比较大。在评价模型好坏的时候也需要考虑样本权重问题。
⑧ 什么是平衡忽略如何进行评定
杠杆不平衡,会直接影响结果,杠杆两边自身的重力和它两边挂的钩码一样,属于动力及阻力的一部分,只有调平衡以后,它本身的动力乘以动力臂才等于阻力乘以阻力臂,这样才能用于实验,所以是为了忽略自重,使它的自身重力不影响实验结果。
给予人视觉平衡感最强的大概就是水平线了,平衡的首要前提是让照片上的主体与地平线保持水平,且主要景物距离边框的距离应该大致相等。
水平线明显倾斜的照片会让人一看就觉得不怎么样,就感觉像是随手拍。
这里举个栗子:
修正后的画面明显比上一张图片看起来舒服很多,这是因为与海平面是持水平状态,从而给整个画面加分了不少。
(2)利用几何图形进行平衡构图
善于观察的人都会发现,日常生活中充斥着各式各样的几何图案。小到布制品上的花纹,大到建筑物的外观设计,往往能带给人们特殊的视觉感,有时若再加上特别的拍摄角度,更能让人有别样的感受。
上班的路上不要只顾着看手机,不妨多留心观察四周是否存在有趣的几何图案,可用手机纪录下来,再思考是否可用其他视角,甚至结合光线变化来呈现不一样的效果。久而久之,或许就连无意间地向窗外一瞥,也能发现与众不同的风景。
⑨ 如何解决样本不均衡的问题
简单。加大样本数量就可以了。
⑩ 做差异分析的时候如果两个组样本量差太多,会有影响吗
影响是肯定有的,两组样本量一致,误差会更小。不一致的话,软件分析肯定会出结果,但有没有意义。
1、差距分析是战略分析方法之一。对企业制定的目标与企业预期可取得的结果进行比较,或者对企业制定的目标与企业实际取得的结果进行比较,分析两者之间是否存在差距。若存在差距,进一步分析造成差距的原因并制定措施(如改变目标、改变战略等)减少或消除差距。
差异化分析的作用:
(1)差异分析指标可反映现象分布或发展的均衡性、稳定性和节奏性。一般来说,某现象所表现出来的差异越小,说明该现象分布或发展得越均衡;否则,该现象分布或发展得越不均衡。
(2)差异分析指标可说明平均指标的代表性大小。用平均指标来代表某种现象的一般水平时,其代表性的大小与总体各单位标志值的差异程度有直接关系。一般说来,某一总体内部的差异越小,其平均数的代表性就越大;反之,其平均数的代表性就越小。因此,在研究平均数的代表性时,差异分析就显得非常重要了。
(3)差异分析指标可以用来评价两个总体或两个个体之间的差距程度,以说明工作的好坏。
(4)差异分析指标是科学地进行抽样推断、统计预测应考虑的重要因素。