教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

Python培训之数据预处理:通过duplicated()方法处理重复值

更新时间:2022年07月11日13时57分 来源:传智教育 浏览次数:

好口碑IT培训

  duplicated()方法的语法格式如下:

  上述方法中参数的含义如下:

  (1)subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签。

  (2)keep:删除重复项并保留第一次出现的项,取值可以为first、last或False,它们代表的含义如下:

  (1)first:从前向后查找,除了第一次出现外,其余相同的被标记为重复。默认为此选项。

  (2)last:从后向前查找,除了最后一次出现外,其余相同的被标记为重复。

  (3)False:所有的相同的都被标记为重复。

  duplicated()方法用于标记Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False,所以该方法返回一个由布尔值组成的Series对象,它的行索引保持不变,数据则变为标记的布尔值。

  注意:对于duplicated()方法,这里有如下两点要进行强调:

  第一,只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。除此之外,duplicated()方法也可以单独对某一列进行重复值判断。

  第二,duplicated()方法支持从前向后(first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。

0 分享到:
和我们在线交谈!