分类不平衡是属于一个类别的观察数量显着低于属于其他类别的观测数量的场景。 例如,在我们需要识别罕见疾病,银行欺诈性交易等情况下,这个问题非常突出。
成都创新互联是专业的淮安网站建设公司,淮安接单;提供成都网站建设、成都做网站,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行淮安网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!
不平衡分类的例子 让我们考虑一个欺诈检测数据集的例子来理解不平衡分类的概念 -
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
解决 平衡类的行为,解决不平衡的类问题。 平衡类的主要目标是增加少数类的频率或减少多数类的频率。 以下是解决失衡类问题的方法 -
重采样 重新采样是用于重建样本数据集的一系列方法 - 包括训练集和测试集。 重新抽样是为了提高模型的准确性。 以下是一些重新抽样技术 -
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
在这种情况下,我们将 10% 的样本从非欺诈实例中取而代之,然后将它们与欺诈实例相结合 - 随机抽样后的非欺诈性观察:4950 的 10% = 495 将他们与欺诈观察结合后的总观测值: 50 + 495 = 545
因此,现在,低采样后新数据集的事件率为: 9%
这种技术的主要优点是可以减少运行时间并改善存储。 但另一方面,它可以丢弃有用的信息,同时减少训练数据样本的数量。
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
如果复制 50 次欺诈性观察 30 次,那么在复制少数类别观察值后欺诈观察值将为 1500。然后,在过采样后新数据中的总观察值将为:4950 + 1500 = 6450
。因此,新数据集的事件率是:1500/6450 = 23%
。
这种方法的主要优点是不会丢失有用的信息。 但另一方面,由于它复制了少数族群的事件,因此它有更多的过度机会。
新闻标题:创新互联AI教程:AI人工智能分类失衡问题
文章转载:http://www.gawzjz.com/qtweb2/news40/28090.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联