数据挖掘程序员指南
关于计算天才的古代艺术
Ron Zacharski撰写的实用数据挖掘,集体情报和建筑推荐系统指南。
可根据知识共享许可免费下载。 您可以自由分享,翻译或混音。
本作品已根据“知识共享署名-非商业4.0国际许可”获得许可。
关于这本书
在您之前,是学习基本数据挖掘技术的工具。大多数数据挖掘教科书都侧重于为数据挖掘提供理论基础,因此,似乎很难理解。别误会,这些书中的信息非常重要。但是,如果您是一名程序员,想对数据挖掘有所了解,那么作为第一步,您可能会对初学者的动手指南感兴趣。这就是本书所提供的。本指南遵循“边做边学”的方法。建议您不要被动地阅读本书,而是鼓励您完成练习并尝试使用提供的Python代码。我希望您会积极参与尝试和编程数据挖掘技术。教科书是由一系列相互衔接的小步骤构成的,直到完成本书时为止,您已经为理解数据挖掘技术奠定了基础。
目录
本书的内容可以PDF格式免费提供。当您单击下面的章节标题时,您将被带到该章节的网页。该页面包含PDF链接,用于该章的Python代码以及该章的样本数据集。如果您在 书中发现错误,书的某些部分令人困惑或有其他评论,请告诉我。我将使用它们来修改各章。
下载整本书
您还可以在https://github.com/zacharski/pg2dm-python上以大(约150MB)的pdf格式下载本书以及所有源代码。
第1章简介
找出什么是数据挖掘及其解决的问题。读完这本书后,您将能做什么。
第2章:推荐系统入门
社交过滤简介。基本距离度量包括曼哈顿距离,欧几里得距离和明可夫斯基距离。皮尔逊相关系数。在Python中实现基本算法。
第3章:隐式评级和基于项目的过滤
关于我们可以使用的用户等级类型的讨论。用户可以明确给出评分(竖 起大拇指,不满意,5星或其他任何内容),也可以隐式地对产品进行评分-如果从亚马逊购买mp3,我们可以将该购买视为“喜欢”评分。
第4章分类
在前面的章节中,我们使用人们对产品的评分来提出建议。现在,我们转向使用产品本身的属性来提出建议。 Pandora等使用了这种方法。
第5章:分类的进一步探索
讨论如何评估分类器,包括10倍交叉验证,留一法和Kappa统计信息。还介绍了k最近邻算法。
第六章:朴素的贝叶斯
朴素贝叶斯分类方法的探索。使用概率密度函数处理数值数据。
第7章:朴素的贝叶斯和非结构化文本
本章探讨了如何使用朴素贝叶斯对非结构化文本进行分类。我们可以将有关电影的Twitter帖子分类为正面评论还是负面评论?
第8章:聚类
集群–层次集群和kmeans集群。
归因
为了保持书的娱乐性,其中包括许多图片。我依靠大量的人慷慨地将其照片提供给知识共享许可或公共领域。我要感谢这些摄影师的慷慨。 Google电子表格列出了本书中每张图片的来源。