数据科学与生成报告
Wolfram 语言可满足您处理数据和发布专业报告的需求。
数据采集
从文件导入数据
您需要数据进行数据科学研究,Wolfram 语言提供了多种方法,让您轻松获取所需数据。内置的 Import 函数可导入数百种常用文件格式。
1. 用默认设置导入数据。
Import 将自动导入大多数常见的文件格式作为合适的表达式:
若 Import 无法确定文件格式,那么您可以明确指定文件格式:
将数据导入 Dataset 对象也很便捷,Dataset 对象是一个基于列表和关联层次结构的结构化数据集。这样就可以轻松(快速)地遍历大型数据集。
2. 以数据集形式导入数据。
面向数据的格式,如 CSV、TSV、XLS 和 XLSX,将作为数据集导入。将 "Dataset" 指定为 Import 的第二个参数。
Import 自动将大多数常见的文件格式导入为合适的表达式:
通常情况下,您可以从数据集中提取特定元素,而不必先导入整个数据集,然后再提取。使用附加参数,Import 函数可以直接提取特定元素。
3. 从数据文件或网页中导入特定元素。
许多文件和网页都包含 Import 默认返回数据以外的元素。将 "Elements" 作为 Import 的第二个参数可获取元素列表。
Import 自动将大多数常见的文件格式导入为合适的表达式:
指定要导入的元素:
从 API 导入数据
Wolfram 语言可以轻松连接外部服务。下面的例子中,我们通过 API 访问伦敦共享单车位置的数据:
分析与可视化
自动化分析
Wolfram 语言拥有数以千计的内置函数,让你可以专注于你的项目,而无需担心具体操作的技术问题。虽然您可以指定每个细节,但函数的默认设置几乎在所有情况下都能发挥最佳效果,即使是非常复杂的任务,也能产生简短易读的代码。在本例中,使用 FindClusters 函数自动对二元数据进行聚类。
查找二元数据中的聚类并将其可视化:
FindDistribution 等高阶函数可以分析您的数据,并使用各种统计方法查明超过 35 个的分布中,哪一个最适合您的数据。
生成从指数分布中采样的数据:
根据数据找出最佳分布:
比较原始分布和估计分布的 PDF:
云部署
当您希望与他人共享程序时,Wolfram 语言可以轻松地将您的代码转化为独立的交互式网页。使用 CloudDeploy 函数可将您的代码发布到 Wolfram Research 服务器上,供所有人或您授权的任何人访问。此例将一个用于识别分子图像的交互式程序转换为一个公共网页。
1. 制作待发布的内容:
开始使用
学习资源
学习路径
进一步使用数据科学
如果您想了解 Wolfram 为数据科学提供的更多内容,请阅读有关 Wolfram 处理数据科学和人工智能的方法。您将看到:
- 可下载的范例
- 参考资料的链接
- 座谈、报告和讲座
- 在线课程
- 技术信息