TF-IDF算法介绍及应用

TF-IDF算法介绍

TF-IDF(Term Frequency–Inverse Document Frequency),一种词频计算算法,等于某词在文档中出现概率 x 该词在所有文档中出现的概率的对数,即TF x IDF。

其中:TF和IDF的具体计算公式如下

上式中n(ij)是该词在文件d(j)中出现的次数,而分母则是在文件d(j)中所有字词的出现次数之和。

[……]

继续阅读

CGI协议介绍

CGI简介
在计算机行业,CGI是Common Gateway Interface 的缩写,它为Web服务器提供了一套标准的协议(参看RFC3875),以便Web服务器能够像执行终端应用程序(也成为命令行程序)一样来执行程序,这些运行在Web服务器上的程序,通常用于动态的生成Web页面。这些程序通常被成为CGI脚本或者直接简称为CGI。

举例来说,来自客户端的HTTP POST请求会将通过标[……]

继续阅读

软件安全设计的10个原则

原则1 最小攻击面

在一些web安全防护建议中经常会提到“关闭不必要对外开放的端口”,这就是最小攻击面的一项措施。在网络攻击的生命周期中一个重要环节就是信息收集,这个环节往往也是黑客耗费时间精力最大的一个环节,对最终黑客的攻击成果起了至关重要的影响,越是有经验的黑客,会花更多的时间和精力在信息收集上面,这步做的好,后面就能一击命中。

当我们最小化攻击面这个安全原则做的好,就会大大影响黑[……]

继续阅读

Docker kubernetes基础教程

Docker kubernetes基础教程

什么是kubernetes

Kubernetes 这个名字源自希腊语,意思是“舵手”,也是“管理者”,“治理者”和“cybernetic”的源头。k8s 是Kubernetes的简称(用数字『8』替代中间的8个字母『ubernete』)。

对于现代Web服务,用户希望应用程序7×24全天候可用,开发人员希望每天多次部署这些应用程序的更新版本。

[……]

继续阅读

Gearman分布式任务系统

简介

Gearman是一个轻量级分布式任务系统,它提供了一套程序框架将任务分发到不同的机器或进程,以便更好的处理任务。它允许并行工作、负载均衡处理、多语言间调用。能应用于多种场景,从高可用网站、图片缩放到数据库复制。

Gearman有以下几个优点:

  1. 开源, BSD协议
  2. 多语言支持,提供了多种编程语言API
  3. 灵活,可以快速整合
  4. 快速高效,Server采用C/C++编写,协议简单
  5. 无单点故障[……]

    继续阅读