Python适合大数据量的处理吗?

如题所述

第1个回答  2018-01-22



python可以处理大数据,但是python处理大数据不一定是最优的选择

百万级别数据是小数据,python处理起来不成问题,python处理大数据还是有些问题的
Python的劣势:

绝大部分的大公司,用java处理大数据不管是环境也好,积累也好,都会好很多

python线程有gil,通俗说就是多线程的时候只能在一个跑道上跑,浪费了多跑道服务器。在一种常见的场景下是要命的:并发单元之间有巨大的数据共享或者共用,多进程会导致内存闪红,多线程则解决不了数据共享的问题,单独的写一个进程之间负责维护读写这个数据不仅效率不高而且麻烦

python执行效率不高,在处理大数据的时候,效率不高。

Python的优势:

python的优势不在于运行效率,而在于开发效率和高可维护性。针对特定的问题挑选合适的工具,本身也是一项技术能

异常快速的开发速度,代码量非常的少
丰富的数据处理包,用起来非常方便,不管正则也好,html解析,xml解析等
内部类型使用成本低,不需要额外怎么操作

公司中,很大量的数据处理工作工作是不需要面对非常大的数据的

第2个回答  2018-03-30

题主所谓的大数据量,不知到底有多大的数据量呢?按照我的经验,Python处理个几亿条数据还是绰绰有余的。但,倘若题主想要处理PB级别的数据,单纯依靠Python是不行的,还需要一些分布式算法来进行辅助。

其实,大多数公司的数据量并不大,就拿我们数据分析师行业来说。大多数的数据分析师所处理的数据,很少有上百万的数据量。当然,也有一些数据分析师是要处理上万上亿的数据量的,但占比是没有前者多的。

因此,当今数据分析领域中最活跃的工具并不是Python,反而是Excel。当然,Excel作为数据的处理工具是有其独到之处。灵活的函数功能+一力降十会的数据透视表能让用户对Excel如视珍宝。

但很遗憾,Excel就有数据量大小的限定,Excel记录数事不能超过105万的。超过这个数据限制,要么分表统计,要么就使用sql或者Python来进行数据分析。

通常在工作中,我就经常将几百个表用python进行合并,做简单的清洗工作。而一旦清洗完毕,用抽样工具一抽我们就可以进行抽样以及数据分析了。

希望对你有所帮助,欢迎评论。

相似回答