SMOTE相关研究 By xu fly 发表于 2016-09-19 Borderline-SMOTE:Borderline-SMOTE: A New Over-Sampling Method inImbalanced Data Sets Learning 阅读更多
特征选择 By xu fly 发表于 2016-08-01 概念特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程,是模式识别的关键问题之一。样本中是否含有不相关或冗余信息直接影响着分类器的性能,因此研究有效的特征选择算法至关重要。 阅读更多
不平衡数据 By xu fly 发表于 2016-07-28 概念类别数据不均衡是分类任务中一个典型的存在的问题。简而言之,即数据集中,每个类别下的样本数目相差很大。例如,在一个二分类问题中,共有100个样本(100行数据,每一行数据为一个样本的表征),其中80个样本属于class 1,其余的20个样本属于class 2,class 1:class2=80:20=4:1,这便属于类别不均衡。当然,类别不均衡问同样会发生在多分类任务中。它们的解决方法是一样的。 阅读更多
稀疏矩阵的存储格式 By xu fly 发表于 2016-05-30 对于很多元素为零的稀疏矩阵,仅存储非零元素可使矩阵操作效率更高。现有许多种稀疏矩阵的存储方式,但是多数采用相同的基本技术,他们的核心思想是存储矩阵所有的非零元素到一个线性数组中,并提供辅助数组来描述原数组中非零元素的位置。 阅读更多