[转]Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

发表于 2015年03月6日 | 分类于数据挖掘，工具 |

作者：@52nlp

曾经因为NLTK的缘故开始学习Python，之后渐渐成为我工作中的第一辅助脚本语言，虽然开发语言是C/C++，但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后，第一个作品课程图谱也是选择了Python系的Flask框架，渐渐的将自己的绝大部分工作交给了Python。这些年来，接触和使用了很多Python工具包，特别是在文本处理，科学计算，机器学习和数据挖掘领域，有很多很多优秀的Python工具包可供使用，所以作为Pythoner，也是相当幸福的。其实如果仔细留意微博，你会发现很多这方面的分享，自己也Google了一下，发现也有同学总结了“Python机器学习库”，不过总感觉缺少点什么。最近流行一个词，全栈工程师（full stack engineer），作为一个苦逼的创业者，天然的要把自己打造成一个full stack engineer，而这个过程中，这些Python工具包给自己提供了足够的火力，所以想起了这个系列。当然，这也仅仅是抛砖引玉，希望大家能提供更多的线索，来汇总整理一套Python网页爬虫，文本处理，科学计算，机器学习和数据挖掘的兵器谱。

阅读全文 »

[转]预测建模、监督机器学习和模式分类概览

发表于 2015年03月6日 | 分类于数据挖掘，分类 |

本文全面地介绍了机器学习里的监督学习的主要概念，并对监督学习的典型工作流程进行了详细的解析，具有很好的实践指导意义。

模式分类（pattern classification）和机器学习（machine learning）是非常热的话题，几乎在所有的现代应用程序中都得到了应用：例如邮局中的光学字符识别（OCR），电子邮件过滤，超市条形码扫描，等等。

在这篇文章中，我会简要描述一个典型的监督学习任务的主要概念，这些概念将作为将来的文章和实现各种学习算法的基础。

机器学习和模式分类

预测建模是建立一个能够进行预测的模型的通用概念。通常情况下，这样的模型包括一个机器学习算法，以便从训练数据集中学习某些属性做出这些预测。

预测建模可以进一步分成两个子集：回归和模式分类。回归模型基于变量和趋势之间的关系的分析，以便做出关于连续变量的预测，如天气预报的最高温度的预测。

与回归模型不同，模式分类的任务是分配离散的类标签到特定的observation作为预测的结果。回到上面的例子：在天气预报中的模式分类任务可能是一个晴天、雨天或雪天的预测。

抛开所有的可能性，本文的重点将放在“模式分类”，分配预先定义的类标签到特定实例将它们分成不同的类别的一般方法。“实例”是“observation”或“样本”的同义词，描述由一个或多个特征（或称为“属性”）组成的“对象”。

阅读全文 »

[转]从决策树学习谈到贝叶斯分类算法、EM、HMM

发表于 2015年03月2日 | 分类于数据挖掘，分类 |

引言

最近在面试中，除了基础 & 算法 & 项目之外，经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然，这完全不代表你将来的面试中会遇到此类问题，只是因为我的简历上写了句：熟悉常见的聚类 & 分类算法而已)，而我向来恨对一个东西只知其皮毛而不得深入，故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用，甚至以备将来常常回顾思考。行文杂乱，但侥幸若能对读者起到一点帮助，则幸甚至哉。

本文借鉴和参考了两本书，一本是Tom M.Mitchhell所著的机器学习，一本是数据挖掘导论，这两本书皆分别是机器学习 & 数据挖掘领域的开山 or 杠鼎之作，读者有继续深入下去的兴趣的话，不妨在阅读本文之后，课后细细研读这两本书。除此之外，还参考了网上不少牛人的作品(文末已注明参考文献或链接)，在此，皆一一表示感谢(从本质上来讲，本文更像是一篇读书 & 备忘笔记)。

说白了，一年多以前，我在本blog内写过一篇文章，叫做：数据挖掘领域十大经典算法初探(题外话：最初有个出版社的朋友便是因此文找到的我，尽管现在看来，我离出书日期仍是遥遥无期)。现在，我抽取其中几个最值得一写的几个算法每一个都写一遍，以期对其有个大致通透的了解。

阅读全文 »

[转]四层和七层负载均衡的区别

发表于 2015年02月16日 | 分类于负载均衡 |

四层和七层负载均衡简单概念

所谓四层就是基于IP+端口的负载均衡；七层就是基于URL等应用层信息的负载均衡；同理，还有基于MAC地址的二层负载均衡和基于IP地址的三层负载均衡。换句换说，二层负载均衡会通过一个虚拟MAC地址接收请求，然后再分配到真实的MAC地址；三层负载均衡会通过一个虚拟IP地址接收请求，然后再分配到真实的IP地址；四层通过虚拟IP+端口接收请求，然后再分配到真实的服务器；七层通过虚拟的URL或主机名接收请求，然后再分配到真实的服务器。
所谓的四到七层负载均衡，就是在对后台的服务器进行负载均衡时，依据四层的信息或七层的信息来决定怎么样转发流量。比如四层的负载均衡，就是通过发布三层的IP地址（VIP），然后加四层的端口号，来决定哪些流量需要做负载均衡，对需要处理的流量进行NAT处理，转发至后台服务器，并记录下这个TCP或者UDP的流量是由哪台服务器处理的，后续这个连接的所有流量都同样转发到同一台服务器处理。七层的负载均衡，就是在四层的基础上（没有四层是绝对不可能有七层的），再考虑应用层的特征，比如同一个Web服务器的负载均衡，除了根据VIP加80端口辨别是否需要处理的流量，还可根据七层的URL、浏览器类别、语言来决定是否要进行负载均衡。举个例子，如果你的Web服务器分成两组，一组是中文语言的，一组是英文语言的，那么七层负载均衡就可以当用户来访问你的域名时，自动辨别用户语言，然后选择对应的语言服务器组进行负载均衡处理。
负载均衡器通常称为四层交换机或七层交换机。四层交换机主要分析IP层及TCP/UDP层，实现四层流量负载均衡。七层交换机除了支持四层负载均衡以外，还有分析应用层的信息，如HTTP协议URI或Cookie信息。

阅读全文 »

[转]基于LedisDB，谈谈分布式Replication实现

发表于 2015年02月16日 | 分类于 nosql |

对于使用SQL或者NoSQL的童鞋来说，replication都是一个避不开的话题，通过replication，能极大地保证你的数据安全性。毕竟谁都知道，不要把鸡蛋放在一个篮子里，同理，也不要把数据放到一台机器上面，不然机器当机了你就happy了。

在分布式环境下，对于任何数据存储系统，实现一套好的replication机制是很困难的，毕竟 CAP的限制摆在那里，我们不可能实现出一套完美的replication机制，只能根据自己系统的实际情况来设计和对CAP的取舍。

对于replication更详细的说明与解释，这里推荐Distributed systems，后面，我会根据LedisDB的实际情况，详细的说明我在LedisDB里面使用的replication是如何实现的。

阅读全文 »