1. 对数据进行分组时,有没有什么好的方法(公式)确定组数
组数k的确定,一般建议是5~15组,如果数据有50~1000个的话。
组数k的计算, 一般是使用Sturger 公式, K=1+3.3log(N), 其中N是数据样本数;或者用改进的Sturger公式, K=1+3.3log(N^2/100)。
第二个(改进的Sturger公式)更好一些。也就是,如果样本数是200,那么分组数10组是比较合理的。
定义
数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。
为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。
换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。