列表

详情


DA26. 解决牛客网用户重复的数据

描述

现有一个Nowcoder.csv文件,它记录了牛客网的部分用户数据,包含如下字段(字段与字段之间以逗号间隔):
Nowcoder_ID:用户ID
Level:等级
Achievement_value:成就值
Num_of_exercise:刷题量
Graduate_year:毕业年份
Language:常用语言
Continuous_check_in_days:最近连续签到天数
Number_of_submissions:提交代码次数
Last_submission_time:最后一次提交题目日期
牛牛拿到这份文件的时候一脸懵逼,因为系统错误将很多相同用户的数据输出了多条,导致文件中有很多重复的行,请先检查每一行是否重复,然后输出删除重复行后的全部数据。

输入描述:

数据集直接从当前目录下的Nowcoder.csv文件中读取。

输出描述:

先输出每一行是否重复,再输出去重后的文件全部数据。

原站题解

上次编辑到这里,代码来自缓存 点击恢复默认模板

Python 3 解法, 执行用时: 789ms, 内存消耗: 524288KB, 提交时间: 2022-07-23

import pandas as pd

Nowcoder = pd.read_csv('Nowcoder.csv', sep=',', dtype=object)
pd.set_option('display.width', 1000)
pd.set_option('display.max_rows', None)
print(Nowcoder.duplicated())
print(Nowcoder.drop_duplicates(0))

Python 3 解法, 执行用时: 799ms, 内存消耗: 524288KB, 提交时间: 2022-07-25

import pandas as pd

Nowcoder = pd.read_csv('Nowcoder.csv', sep=',', dtype=object)
pd.set_option('display.width', 1000)
pd.set_option('display.max_rows', None)

print(Nowcoder.duplicated())
print(Nocoder.drop_duplicated())

Python 3 解法, 执行用时: 800ms, 内存消耗: 524288KB, 提交时间: 2022-07-26

import pandas as pd

Nowcoder = pd.read_csv('Nowcoder.csv', sep=',', dtype=object)
pd.set_option('display.width', 1000)
pd.set_option('display.max_rows', None)
print(Nowcoder.duplicated())
Nowcoder.drop_duplicates()
print(Nowcoder)

Python 3 解法, 执行用时: 802ms, 内存消耗: 524288KB, 提交时间: 2022-07-23

import pandas as pd

Nowcoder = pd.read_csv('Nowcoder.csv', sep=',', dtype=object)
pd.set_option('display.width', 1000)
pd.set_option('display.max_rows', None)

print(Nowcoder.duplicated())
print(Nowcoder.drop_duplicates())

Python 3 解法, 执行用时: 810ms, 内存消耗: 524288KB, 提交时间: 2022-07-21

import pandas as pd

df = pd.read_csv('Nowcoder.csv', sep=',', dtype=object)
pd.set_option('display.width', 1000)
pd.set_option('display.max_rows', None)
a=df.duplicated()
b=df.drop_duplicates()
print(a)
print(b)

上一题