大数据 – 第3页 – 找不到的博客

storm的配置以及实例实践-利用securecrt连接服务器

虚拟机的网络设置完之后，测试一下能不能上网，一般情况下，只要你本地能够上网，虚拟机都是可以上网的。能够上网就好办了，接下来，我们要安装依赖。

安装依赖的过程中，大多情况下可以通过yum命令来完成，但是有时候yum抽风了，我们就可以远程上传文件到服务器上。再者，我们不可能每次都直接跑到服务器那里操作、敲命令行（虚拟机也如此），而且大多数情况下是有多台服务器在运作的。如何本地管理他们呢？

类似的软件很多，我一般用的是securecrt，这款软件还是比较好用的，允许同时连接多台服务器，支持本地文件上传等。

下载和安装这里就不多说了，找绿色版的来用就行。

使用的时候，连接多台服务器，可以通过标签页来连接，这样比较方便管理。连接之后的使用就和在linux本地命令行下使用是一个样的，不多说。

主要说说怎么上传文件。我比较常用的有两种方式：

通过SecureFX来上传

这个是图形化的操作，一般在securecrt的工具里面有整合。傻瓜式操作。

securefx传输文件

多文件批量传输的话，这种方式还是挺方便的

通过sftp传输文件

当然，习惯了命令行的话，使用sftp就是一个很方便的途径了。首先需要在会话选项中设置一下路径。方便管理，比如我就在本地E盘新建了一个localsftp的文件夹，把需要传输的文件放到里面去。远程目录可以设置，也可以到时cd到你想要的目录。同理，本地的目录到时也是可以切换的。

sftp设置

设置之后，在已经连接服务器的基础上，我们就可以使用快捷键alt+p打开sftp的界面了。

介绍几个常用的命令，对于传输文件来说，足够了。

pwd：查看远程当前目录

lpwd：查看本地当前目录

ls：查看服务器当前目录下所有文件

lls：查看本地当前目录下所有文件

cd：切换远程目录

lcd：切换本地目录

get：从服务器下载文件

put：上传本地文件到服务器

和我们平时用的命令大同小异。直接put+文件名的话，会在本地默认路径下寻找文件，并传到远程服务器的当前目录，当然你可以指定目录，后面跟多一个路径参数即可。

先说到这，下一篇继续配环境

storm的配置以及实例实践-设置虚拟机网络

在虚拟机安装完centos之后，事实上我们已经可以开始动手配置安装storm相关的软件或者依赖了。但是想想，我们是在本地上进行开发测试，面对几台虚拟机，我们不可能每次都跑到虚拟机里面打开命令行，然后进行相关操作。所以，后面我会介绍到一个比较常用的ssh连接工具securecrt，它允许我们在本地连接多台远程服务器。

假如我们的ip是变化的，而虚拟机默认的NAT网络连接模式中的DHCP机制会让虚拟机里的系统ip发生变化，因此，为了方便起见，我们需要将虚拟机的网络进行设置，改成静态ip，这样我们每次通过外部工具连接虚拟机的时候就不必要更改ip了。下面说说怎么更改。

过程我是从http://www.cnblogs.com/magialmoon/archive/2013/08/10/3250393.html中学习的，因此在这里引用一下，并加上一些自己的解释。

首先关闭VMware的DHCP：

Edit->Virtual Network Editor

选择VMnet8，去掉Use local DHCP service to distribute IP address to VMs选项。点击NAT Settings查看一下相关的网络地址，如下：

将这三个地址截图或者记事本记下来，Subnet IP是子网地址，Subnet mask是子网掩码，Gateway IP是网关地址。

然后就可以到centos里面设置静态ip了。

涉及到3个文件

/etc/sysconfig/network
/etc/sysconfig/network-scripts/ifcfg-eth0
/etc/hosts

首先修改/etc/sysconfig/network
第二行是主机名，可以根据需要修改，我就改成了main，第三行是网关地址，填写上文提到的网关地址，如下：

NETWORKING=yes
HOSTNAME=main
GATEWAY=192.168.129.2

然后修改/etc/sysconfig/network-scripts/ifcfg-eth0
下图高亮的都是修改过的，其中需要注意的是以下几点：

第四行IPADDR，指的是ip地址，这里就设置成你要的ip地址，但是需要和你的ip子网相匹配，也就是说，回到上文Subnet IP，子网地址是192.168.129.0，我们只需更改最后一位即可，我这里改成了192.168.129.100，同样照葫芦画瓢，我们之后再建立虚拟机的时候，就分配192.168.129.101，依次类推；

第五行NETMASK，子网掩码，把上文中提到的子网掩码加进去即可。

最后一行的DNS1，是指定DNS服务器，DNS是域名解析服务器，如果不填写则会无法解析域名，我们可以填写自己电脑上的DNS，也可以填写百度的公共DNS：180.76.76.76，我这里就是用的百度的。

DEVICE="eth0"
#BOOTPROTO="dhcp"
BOOTPROTO="static"
IPADDR=192.168.129.100
NETMASK=255.255.255.0
HWADDR="00:0C:29:56:8F:AD"
IPV6INIT="no"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="ba48a4c0-f33d-4e05-98bd-248b01691c20"
DNS1=180.76.76.76

最后修改/etc/hosts

最后一行加入：ip和主机名，根据你之前的设置填写即可

192.168.129.100   main

设置完毕以后，reboot一下虚拟机。

最后，我们再来关闭防火墙，由于是在虚拟机上面进行试验，所以为了方便起见，把防火墙关了，但在实际的生产环境中，是要对机器的防火墙进行详细的配置的，这里不多说。下面说下关闭防火墙的步骤。

在终端依次输入以下两条命令即可：

service iptables stop 
chkconfig iptables off

然后输入service iptables status查看一下状态，会显示Firewall is not running。

至此，虚拟机网络的设置已经搞定，下一篇继续讲配置。

storm的配置以及实例实践-安装虚拟机

由于storm是一个分布式的计算框架，在实际的开发环境中是基于集群的，通常有一个主节点，分发任务给子节点，没错，和hadoop是类似的。那我们在自己学习以及调试的过程中，往往是没有真实的服务器集群给我们使用的，那么，虚拟机就是一个不错的选择。我在本地打算搭建3个虚拟机，来模拟三台服务器。下面说说安装虚拟机的过程。

首先安装vmvare，我装的版本是vmvare10，网上也有序列号，装完之后输入即可完成注册。这里就不细说了。

随后，就是在虚拟机里面安装系统了。我安装的是CentOS 6.5_X64，是64位的，根据你的电脑选择即可。

先下载iso文件：http://www.centoscn.com/CentosSoft/iso/2013/1205/2196.html

下载完成之后，打开vmvare，点击新建虚拟机，选择典型安装。然后选择安装iso，把刚才下载的centos系统的iso文件选择进来，根据实际情况设置内存大小（之后也可以更改），然后下一步下一步下一步安装系统即可，非常简单。需要注意的一点是，你需要记住你的用户密码。

之后就等待安装即可，有时候系统提示你选择不要忘了选择。大部分时间是等待。

centos系统安装

等待1个小时左右，系统就安装完毕了，可能用惯windows的朋友会不大习惯，不过，熟悉linux对搞大数据开发还是很有必要的，因此我们之后的操作基本上都是要通过命令行来完成，所以暂时忘掉那些界面吧！当然，默认安装的centos6.5是有操作界面的。就这样，一个虚拟机就安装完成了，接下来，我们就需要对它进行配置，最后再克隆两份即可。

下一篇讲配置，配置还是有很多内容的。

storm的配置以及实例实践-前言

这两天准备开始着手研究一下著名的大数据处理框架storm。在网上看了一些教程之后，概念清晰了一点，也大概明白了它的机制，当然纸上谈兵是没有用的，最终还得落实到实践当中，毕竟这个框架的强大之处在于它支撑了许多强调实时性的大数据项目。

这篇前言就先简单介绍一下storm，之后再写一个系列，记录一下我在本地配置storm集群、跑storm的简单例子。说句题外话，研究大数据，Linux系统得比较熟悉，因为很多开源的框架技术都是基于Linux的，另外，现在服务器的搭建，Linux仍是主流，跟我一样刚入门的朋友得在这方面下下功夫了。

处理实时流数据

首先对于流数据，百度百科是这么描述的：流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。

因此，流数据一般是实时的，比如某地人流聚集状况，服务器访问信息等等。Storm可以不断地取这些流数据，并作处理，这个过程是实时的，也是连续的。

工作机制

Storm由一个主节点和多个工作节点组成，他们之间的工作协调是由另外一个出名的服务zookeeper完成的，没错，storm和hadoop一样，都是批处理大数据。

Storm处理数据的基本过程

首先，你得有数据的来源，比如我们可以从消息队列kafka中获得数据，在storm中，获得数据的组件叫做Spout，英文意思是喷水口、水龙头，它负责得到源源不断的数据。

然后，这些数据会分发给谁呢？那就是BOLT，英文意思是闪电，这个bolt是关键，主要的处理逻辑、处理流程都是写在里面，而且bolt之间可以传递，相当于处理的一个个流程，比如，第一个bolt负责将数据进行过滤，并把过滤后的数据传给第二个bolt，第二个负责将数据进行统计，并写入数据库，这就完成了一个流程。他们之间传递的单位是tuple，也就是我们常说的元组，数据必须得按照storm的规范封装到tuple里面。如下图，水龙头和闪电之间的关系。

storm示意图

Storm的基本名词、概念

Topologies
Streams
Spouts
Bolts
Stream groupings
Reliability
Tasks
Workers

以上是官方文档里面的提到的概念，这里就不翻译了，英文程度尚可的朋友可以试着读一下 http://storm.apache.org/documentation/Concepts.html

现在没搞懂没关系，之后我们实践了、跑一个程序就大概知道怎么回事了。

总之，storm很强大，并把很多东西都写好了，留下好用的接口给我们。具体怎么使用，就见仁见智了。我之后，会在本地进行测试、学习，由于storm是分布式计算的框架，那么，我将就会在虚拟机安装几个centos当服务器，作为模拟，这和真实情况（有机房，有服务器）虽然有差距，但是对于理解原理来说，也足够了。前言就先写到这里了，都是一些个人的理解，之后会把自己的学习过程完整的记录下来，包括搭建环境、运行程序等等。

如何使用中科院分词系统(java版)

做数据挖掘，分词是很重要、很基础的一个环节。单独实现一个分词系统并不是一件简单的事情，特别是对于中文而言。好在中科院已经有一套开源的分词系统NLPIR，我们可以直接拿来使用，很方便。下面我就记录一下基于java怎么使用这套系统。

首先看一下关于分词系统的简介

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。

我们首先到官网的下载页面：http://ictclas.nlpir.org/downloads

下载第一个“NLPIR/ICTCLAS2015分词系统下载包”即可，如下图

中科院分词系统

下载之后，解压缩。

进入子目录下的sample文件夹，你会看到有各种示例，我们要用的是java的示例，即“JnaTest_NLPIR”，如下图：

分词系统java示例

打开eclipse，import这个工程，过程就不再赘述了。

import之后，这时候你去跑，是会报错的。

java报错

其实，我们需要改几个地方。

1.回到刚才解压的下载包，进入目录下的lib文件夹，选择你机器对应的版本，比如我是win32的，我就复制win32这个文件夹，粘贴到eclipse工程和src同级目录下，此时工作目录应是如图所示：

添加win32文件夹

2.修改第一行的代码，将NLPIR文件的路径更改为现在的路径，如下：

// 定义并初始化接口的静态变量
CLibrary Instance = (CLibrary) Native.loadLibrary(
       "./win32/NLPIR", CLibrary.class);

3.回到解压的文件夹目录下，复制“data”文件夹到eclipse的工程里，最终工程目录结构如下：

最终目录结构

4.更改主函数的第一行代码里面的路径，默认是这样：

String argu = "D:\\NLPIR";

更改为：

String argu = "./";

即工作路径。

最终代码如下：

package code;

import java.io.UnsupportedEncodingException;

import utils.SystemParas;

import com.sun.jna.Library;
import com.sun.jna.Native;

public class NlpirTest {

	// 定义接口CLibrary，继承自com.sun.jna.Library
	public interface CLibrary extends Library {
		// 定义并初始化接口的静态变量
		CLibrary Instance = (CLibrary) Native.loadLibrary(
				"./win32/NLPIR", CLibrary.class);

		public int NLPIR_Init(String sDataPath, int encoding,
				String sLicenceCode);

		public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);

		public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit,
				boolean bWeightOut);
		public String NLPIR_GetFileKeyWords(String sLine, int nMaxKeyLimit,
				boolean bWeightOut);
		public int NLPIR_AddUserWord(String sWord);//add by qp 2008.11.10
		public int NLPIR_DelUsrWord(String sWord);//add by qp 2008.11.10
		public String NLPIR_GetLastErrorMsg();
		public void NLPIR_Exit();
	}

	public static String transString(String aidString, String ori_encoding,
			String new_encoding) {
		try {
			return new String(aidString.getBytes(ori_encoding), new_encoding);
		} catch (UnsupportedEncodingException e) {
			e.printStackTrace();
		}
		return null;
	}

	public static void main(String[] args) throws Exception {
		String argu = "./";
		// String system_charset = "GBK";//GBK----0
		String system_charset = "UTF-8";
		int charset_type = 1;

		int init_flag = CLibrary.Instance.NLPIR_Init(argu, charset_type, "0");
		String nativeBytes = null;

		if (0 == init_flag) {
			nativeBytes = CLibrary.Instance.NLPIR_GetLastErrorMsg();
			System.err.println("初始化失败！fail reason is "+nativeBytes);
			return;
		}

		String sInput = "据悉，质检总局已将最新有关情况再次通报美方，要求美方加强对输华玉米的产地来源、运输及仓储等环节的管控措施，有效避免输华玉米被未经我国农业部安全评估并批准的转基因品系污染。";

		//String nativeBytes = null;
		try {
			nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);

			System.out.println("分词结果为： " + nativeBytes);

			CLibrary.Instance.NLPIR_AddUserWord("要求美方加强对输 n");
			CLibrary.Instance.NLPIR_AddUserWord("华玉米的产地来源 n");
			nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);
			System.out.println("增加用户词典后分词结果为： " + nativeBytes);

			CLibrary.Instance.NLPIR_DelUsrWord("要求美方加强对输");
			nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);
			System.out.println("删除用户词典后分词结果为： " + nativeBytes);

			int nCountKey = 0;
			String nativeByte = CLibrary.Instance.NLPIR_GetKeyWords(sInput, 10,false);

			System.out.print("关键词提取结果是：" + nativeByte);

			nativeByte = CLibrary.Instance.NLPIR_GetFileKeyWords("D:\\NLPIR\\feedback\\huawei\\5341\\5341\\产经广场\\2012\\5\\16766.txt", 10,false);

			System.out.print("关键词提取结果是：" + nativeByte);

			CLibrary.Instance.NLPIR_Exit();

		} catch (Exception ex) {
			// TODO Auto-generated catch block
			ex.printStackTrace();
		}

	}
}

运行结果如下（截图不完全，请以你的eclipse的输出为准）：

中科院分词系统运行结果

至此，一个例子就跑起来了。我稍微解释一下。

1.关于结果

分词的结果，是每个词语后面再跟一个斜杠，斜杠后面是词性，关于词性，可以参看刚才下载解压的文件目录下的“doc”文件夹里的文档。这里不做解释了。

当然，你也可以选择不要显示词性，只需将

CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);

中第二个参数改为0即可。

2.关于方法的调用

这套分词系统里面有丰富的功能，这个可以参看“doc”文件夹里面的文档，那里均有说明，由于使用了JNA,我们可以很方便的使用相关的c++方法。

要使用这些功能，我们需要在代码的接口中声明这些方法，如：

public interface CLibrary extends Library {
		// 定义并初始化接口的静态变量
		CLibrary Instance = (CLibrary) Native.loadLibrary(
				"./win32/NLPIR", CLibrary.class);

		public int NLPIR_Init(String sDataPath, int encoding,
				String sLicenceCode);

		public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);

		public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit,
				boolean bWeightOut);
		public String NLPIR_GetFileKeyWords(String sLine, int nMaxKeyLimit,
				boolean bWeightOut);
		public int NLPIR_AddUserWord(String sWord);//add by qp 2008.11.10
		public int NLPIR_DelUsrWord(String sWord);//add by qp 2008.11.10
		public String NLPIR_GetLastErrorMsg();
		public void NLPIR_Exit();
	}

声明之后，就可以在主函数里面调用了。具体的调用细节、参数设定等，还是那句话，看文档！

就先写到这里，再次感慨中科院的分词系统的厉害！