NumPy 代表数值 Python。 NumPy 最强大的功能是 n 维数组。该库还包含基本的线性代数函数、傅立叶变换、高级随机数功能以及用于与 Fortran、C 和 C 等其他低级语言集成的工具
SciPy 代表科学 Python。 SciPy 构建于 NumPy 之上。它是各种高级科学和工程模块(如离散傅里叶变换、线性代数、优化和稀疏矩阵)最有用的库之一。
Matplotlib 用于绘制各种图形,从直方图到线图再到热图。您可以使用 ipython 笔记本中的 Pylab 功能(ipython 笔记本 –pylab = 内联)来内联使用这些绘图功能。如果忽略 inline 选项,那么 pylab 会将 ipython 环境转换为与 Matlab 非常相似的环境。您还可以使用 Latex 命令将数学添加到绘图中。
用于结构化数据操作和操作的 Pandas。它广泛用于数据处理和准备。 Pandas 是最近才添加到 Python 中的,对于提高 Python 在数据科学家社区中的使用发挥了重要作用。
用于机器学习的 Scikit Learn。该库基于 NumPy、SciPy 和 matplotlib 构建,包含许多用于机器学习和统计建模的有效工具,包括分类、回归、聚类和降维。
用于统计建模的Statsmodels。 Statsmodels 是一个 Python 模块,允许用户探索数据、估计统计模型并执行统计测试。描述性统计、统计检验、绘图函数和结果统计的广泛列表可用于不同类型的数据和每个估计器。
Seaborn 用于统计数据可视化。 Seaborn 是一个用 Python 制作有吸引力且信息丰富的统计图形的库。它基于 matplotlib。 Seaborn 旨在使可视化成为探索和理解数据的核心部分。
Bokeh,用于在现代网络浏览器上创建交互式绘图、仪表板和数据应用程序。 它使用户能够生成 D3.js 风格的优雅简洁的图形。此外,它还具有对非常大的数据集或流数据集进行高性能交互的能力。
Blaze 将 Numpy 和 Pandas 的功能扩展到分布式和流数据集。 它可用于访问来自多种来源的数据,包括 Bcolz、MongoDB、SQLAlchemy、Apache Spark、PyTables 等。与 Bokeh 一起,Blaze 可以充当非常强大的工具,用于在大量数据上创建有效的可视化和仪表板。
Scrapy 用于网络抓取。它是获取特定数据模式的非常有用的框架。它能够从网站主页 URL 开始,然后挖掘网站内的网页来收集信息。
SymPy 用于符号计算。它具有从基本符号算术到微积分、代数、离散数学和量子物理学的广泛功能。另一个有用的功能是将计算结果格式化为 LaTeX 代码的能力。
访问网络的请求。它的工作原理与标准 python 库 urllib2 类似,但更容易编码。你会发现与 urllib2 的细微差别,但对于初学者来说,Requests 可能更方便。
其他库,您可能需要:
os 用于操作系统和文件操作
networkx 和 igraph 用于基于图形的数据操作
用于在文本数据中查找模式的正则表达式
BeautifulSoup 用于抓取网页。它不如 Scrapy,因为它只能在运行中从单个网页中提取信息。
数据科学资源:https://t.me/DataScienceResourcesTP
以上是适用于数据科学的有用 PYTHON 库的详细内容。更多信息请关注PHP中文网其他相关文章!