Python使用Pandas库清理/删除重复列表数据

发表时间:2020-03-02

1. 安装Pandas库

可以用Pycharm安装

Snipaste_2020-03-02_17-03-00.png

或者代码安装:

import pandas as pd


2. duplicated函数和drop_duplicates函数

先建立一个DataFrame

 C=pd.DataFrame({'a':['dog']*3+['fish']*3+['dog'],'b':[10,10,12,12,14,14,10]})

Snipaste_2020-03-02_17-10-32.png


判断是否有重复项,用duplicated( )函数判断

Snipaste_2020-03-02_17-11-53.png

有重复项,则可以用drop_duplicates()移除重复项

Snipaste_2020-03-02_17-12-51.png

Duplicated( )和drop_duplicates( )方法是以默认的方式判断全部的列。

我们也可以对特定的列进行重复项判断:

 C.duplicated(['a'])      C.drop_duplicates(['a'])

Snipaste_2020-03-02_17-20-11.png

 C.duplicated(['b'])      C.drop_duplicates(['b'])

Snipaste_2020-03-02_17-20-43.png

文章来源互联网,尊重作者原创,如有侵权,请联系管理员删除。邮箱:417803890@qq.com / QQ:417803890


Python Free

邮箱:417803890@qq.com
QQ:417803890

皖ICP备19001818号
© 2019 copyright www.pythonf.cn - All rights reserved

微信扫一扫关注公众号:

联系方式

Python Free