如何用python实现两个文件重复数据筛选并统计

文件1：MD5码，名字，IP
文件2：MD5码，ID，名字
我想把两个文件的MD5码做对比，看看文件1的MD5码在第二个文件中是否存在，若存在输出到文件3，然后输出统计总数，请问该怎么做？求大神指导，本人一直用excel，但数据量太大（5000万），想用Python·解决，谢谢！！！！我的分全拿出来悬赏了，希望大家能给代码让我自己运行试试看。久一点无所谓。谢谢

举报该问题

推荐答案 2017-11-14

本文实例展示了Python统计列表中的重复项出现的次数的方法，是一个很实用的功能，适合Python初学者学习借鉴。具体方法如下：
对一个列表，比如[1,2,2,2,2,3,3,3,4,4,4,4]，现在我们需要统计这个列表里的重复项，并且重复了几次也要统计出来。
方法1：
?

1234

mylist = [1,2,2,2,2,3,3,3,4,4,4,4]myset = set(mylist) #myset是另外一个列表，里面的内容是mylist里面的无重复项for item in myset: print("the %d has found %d" %(item,mylist.count(item)))

方法2:
?

123456

List=[1,2,2,2,2,3,3,3,4,4,4,4]a = {}for i in List: if List.count(i)>1: a[i] = List.count(i)print (a)

利用字典的特性来实现。
方法3：
?

123

>>> from collections import Counter>>> Counter([1,2,2,2,2,3,3,3,4,4,4,4])Counter({1: 5, 2: 3, 3: 2})

这里再增补一个只用列表实现的方法：

?

12345678910

l=[1,4,2,4,2,2,5,2,6,3,3,6,3,6,6,3,3,3,7,8,9,8,7,0,7,1,2,4,7,8,9] count_times = []for i in l : count_times.append(l.count(i)) m = max(count_times)n = l.index(m) print (l[n])

其实现原理就是把列表中的每一个数出现的次数在其对应的位置记录下来，然后用max求出出现次数最多的位置。
只用这段代码的话，有一个缺点，如果有多个结果，最后的现实的结果只是出现在最左边的那一个，不过解决方法也很简单

温馨提示：答案为网友推荐，仅供参考

当前网址：http://88.wendadaohang.com/zd/Mc1KMK1aVtBBBcgKKga.html

其他回答

第1个回答 2017-10-09

5000w建议你还是用数据库~如果你打算长久用的话.

单单是下面的代码, 就要好几秒

for i in range(100000000):
a = 1
else:
print("ok")

最坏的5000w*5000w=2500000000000000

可能需要几个月的时间...

第2个回答 2017-11-12

#!/usr/bin/env python3

file_ip = 'a.txt'
file_id = 'b.txt'
file_result = 'c.txt'

f2 = set()
with open(file_id) as f:
    for line in f.readlines():
        s = line.strip()
        if s:
            md5 = s.split(',')[0]
            f2.add(md5)

total = 0
with open(file_ip) as f, open(file_result, 'w') as wf:
    for line in f.readlines():
        s = line.strip()
        if s and s.split('\n')[0] in f2:
            total += 1
            wf.write(s)

print('total:', total)

第3个回答 2015-11-17

我没看到悬赏分

悬赏分不如RMB有吸引力

本回答被网友采纳

相似回答

如何统计两行表格里相同图像的个数?答：确定表格的结构：了解表格的布局和图像的位置。确定每行的图像所在的列数。获取图像数据：根据表格结构，逐行读取每个图像的数据。这可能涉及到使用适当的库或工具来读取表格，例如Python中的pandas库。进行比较：将每行的图像数据进行比较，以确定是否相同。可以使用图像的特征向量或哈希值进行比较。常用的图...

如何使用python或者宏对excel中数据进行统计重复次数答：在Python中pandas库用于数据处理，我们从1787页的pandas官网文档中总结出最常用的36个函数，通过这些函数介绍如何通过Python完成数据生成和导入，数据清洗，预处理，以及最常见的数据分类，数据筛选，分类汇总，透视等最常见的操作。

python如何去除重复行并分别统计重复的行数?已有去除重复的代码答：if flag==1: #如果前面的比对没有一个相等的，即该行是第一次出现：b.append([n,1]) #那么在列表b中添加改行为新的一项 f2=file("2.txt", "w") #打开2.txt文件，用于输出 for n in b: #输出格式为：行信息（tab）出现次数（回车）f2.write(str(n[0][0:-1]) + "\t")...

python实现删除重复行并计数答：回答：Leetcode上:从排序数组中删除重复项 // nums 是以“引用”方式传递的。也就是说,不对实参做任何拷贝int len = removeDuplicates(nums);// 在函数里修改输入数组对于调用者是可见的。// 根据你的函数返回的长度, 它会打印出数组中该长度范围内的所有元素。for (int i = 0; i < len; i+...

python如何分析excel数据python怎么分析excel数据答：在Python中，可以使用第三方库pandas来分析Excel数据。首先，使用pandas的read_excel函数读取Excel文件，并将其转换为DataFrame对象。然后，可以使用DataFrame对象的各种方法和函数来进行数据分析，如筛选、排序、计算统计指标等。此外，还可以使用其他库如xlrd、openpyxl来处理Excel文件的特定需求，如写入数据、创建...

Python 如何比较两个文件中的重复字符串并输出统计数字答：这5000W 数据有点大光读写文件就要好长时间有没有hadoop 平台 http://blog.csdn.net/zhaoyl03/article/details/8657031/ 这个统计很快

如何使用python中的concat函数?答：1、连接运算 concat(s1,s2,s3…sn) 相当于s1+s2+s3+…+sn.例：concat(‘11’,'aa’)='11aa’;2、求子串。 Copy(s,I,I) 从字符串s中截取第I个字符开始后的长度为l的子串。例：copy(‘abdag’,2,3)=’bda’3、删除子串。过程 Delete(s,I,l) 从字符串s中删除第I个字符开始后的...

Python数据处理:筛选、统计、连表、拼接、拆分、缺失值处理答：使用loc函数筛选-str.contains函数-筛查'崔'姓的人 new=file1.loc[file1['收件人姓名'].str.startswitch('崔')]print(new)df = df[(df['DEPOSIT_PAY_TIME_x'] .notnull() ) & (df['DEPOSIT_PAY_TIME_x'] != "" )]print("during_time(number)=0的个数：",newdata[newdata['...

大家正在搜

python如何筛选数据 excel中如何筛选出重复数据如何找出文件夹中重复的文件 word文档如何筛选重复两张表格重复数据筛选文件重复怎么筛选电脑筛选重复文件批量筛选文件夹里的文件电脑自动筛选重复的文件