数据挖掘程序员指南

原文：http://guidetodatamining.com/

关于计算天才的古代艺术

Ron Zacharski撰写的实用数据挖掘，集体情报和建筑推荐系统指南。

可根据知识共享许可免费下载。您可以自由分享，翻译或混音。

本作品已根据“知识共享署名-非商业4.0国际许可”获得许可。

关于这本书

在您之前，是学习基本数据挖掘技术的工具。大多数数据挖掘教科书都侧重于为数据挖掘提供理论基础，因此，似乎很难理解。别误会，这些书中的信息非常重要。但是，如果您是一名程序员，想对数据挖掘有所了解，那么作为第一步，您可能会对初学者的动手指南感兴趣。这就是本书所提供的。本指南遵循“边做边学”的方法。建议您不要被动地阅读本书，而是鼓励您完成练习并尝试使用提供的Python代码。我希望您会积极参与尝试和编程数据挖掘技术。教科书是由一系列相互衔接的小步骤构成的，直到完成本书时为止，您已经为理解数据挖掘技术奠定了基础。

本书的内容可以PDF格式免费提供。当您单击下面的章节标题时，您将被带到该章节的网页。该页面包含PDF链接，用于该章的Python代码以及该章的样本数据集。如果您在书中发现错误，书的某些部分令人困惑或有其他评论，请告诉我。我将使用它们来修改各章。

下载整本书

您还可以在https://github.com/zacharski/pg2dm-python上以大（约150MB）的pdf格式下载本书以及所有源代码。

第1章简介

找出什么是数据挖掘及其解决的问题。读完这本书后，您将能做什么。

第2章：推荐系统入门

社交过滤简介。基本距离度量包括曼哈顿距离，欧几里得距离和明可夫斯基距离。皮尔逊相关系数。在Python中实现基本算法。

第3章：隐式评级和基于项目的过滤

关于我们可以使用的用户等级类型的讨论。用户可以明确给出评分（竖起大拇指，不满意，5星或其他任何内容），也可以隐式地对产品进行评分-如果从亚马逊购买mp3，我们可以将该购买视为“喜欢”评分。

第4章分类

在前面的章节中，我们使用人们对产品的评分来提出建议。现在，我们转向使用产品本身的属性来提出建议。 Pandora等使用了这种方法。

第5章：分类的进一步探索

讨论如何评估分类器，包括10倍交叉验证，留一法和Kappa统计信息。还介绍了k最近邻算法。

第六章：朴素的贝叶斯

朴素贝叶斯分类方法的探索。使用概率密度函数处理数值数据。

第7章：朴素的贝叶斯和非结构化文本

本章探讨了如何使用朴素贝叶斯对非结构化文本进行分类。我们可以将有关电影的Twitter帖子分类为正面评论还是负面评论？

第8章：聚类

集群–层次集群和kmeans集群。

归因

为了保持书的娱乐性，其中包括许多图片。我依靠大量的人慷慨地将其照片提供给知识共享许可或公共领域。我要感谢这些摄影师的慷慨。 Google电子表格列出了本书中每张图片的来源。

关于计算天才的古代艺术

关于这本书​

目录​

下载整本书​

第1章简介​

第2章：推荐系统入门​

第3章：隐式评级和基于项目的过滤​

第4章分类​

第5章：分类的进一步探索​

第六章：朴素的贝叶斯​

第7章：朴素的贝叶斯和非结构化文本​

第8章：聚类​

归因​