标签 使用 下的文章

使用 mongo-connector 同步 MongoDB 数据库到 ElasticSearch

在做毕设的时候,有一个需求,需要把 MongoDB 的数据同步到 ElasticSearch,于是发现了这个 mongo-connector

mongo-connector 可以把 MongoDB 的数据同步到 Solr、ElasticSearch 或者另一个 MongoDB。
支持 Python 2.6, 2.7, 3.3+ 、 MongoDB 版本 2.4, 2.6, 3.0, 3.2, and 3.4.

其实官方 Get Started 也挺清楚的,但是用的时候还是会遇到一些非常智障的问题。

- 阅读剩余部分 -

MongoDB 初窥

这周开始由于项目的原因正式接触 MongoDB,之前稍微看过一点,但没怎么正式用过,一方面是设计思维牢固的钉死在了关系数据库的三大范式上(第四和 BC 有点过了……),另一方面是没有一个机会去做 PHP 以外的站(嗯,因为黄金搭档……)。

所以兜兜转转,稍微介绍一下 MongoDB 的一些事。

引言

MongoDB 是一个 NoSQL (Not Only SQL) 的数据库,提供面向文档的存储,操作简单,天生的分布式,带文件存储功能(GridFS)。

- 阅读剩余部分 -

Xcode 编译 Weex Playground 到 iOS 设备

作为不懂 iOS 开发的萌新,Weex Playground 的 App Store 版本现在还不能运行 Vue 版本,实在是苦大仇深,原生自然比模拟器爽一些,所以试了一下编译到自己的手机上,步骤如下:

首先,git clone git@github.com:alibaba/weex.git

然后如同文档介绍的:

npm install
./start

- 阅读剩余部分 -

CentOS + Nginx Typecho 迁移指南

最近干了一件特别勤劳的事情——把博客迁移到阿里云服务器,不过期间也出了一点有趣的小插曲。

关于 CentOS 里安装 PHP,这篇已经写过很多次了:http://codesky.me/archives/centos-lnmp-yum.wind

然后只需要绑定好域名,可以看这篇:http://codesky.me/archives/centos-ghost-install-introduce.wind,如果要有多个子域,直接复制黏贴一份进行对应修改就行了。

- 阅读剩余部分 -

rsync配置与使用指南

好了,这一篇我们顺着上面几篇的思路来说说rsync,所有的内容在参考链接中都可以看到更详细应该也是更有深度的说明……

rsync科普级介绍

如果你在寻找一个差异同步上传机制,那么rsync就是你想要的,在目录中选择性拷贝,安全保障,提供多种传输方式,具体的功能可以从之后的介绍和扩展阅读中看出。

rsync算法介绍

酷壳有一篇介绍,不过一些名词介绍的比较让人郁闷,先给个总结:rsync = 分块hash check + 滑动窗口。

- 阅读剩余部分 -

SSH实现免密码登录远程服务器并且关闭密码登录功能

标题好长……这次被黑之后吸取了教训,大致说一下做的事情:

首先能不用root就不用root,除了由于普通用户拿不到权限的部分以外都使用普通用户(如Node.js程序的运行),不关闭SELINUX,开启iptables(这里需要说一下,只要开启了防火墙就会生成iptables),未开启则没有,所以才会出现找不到iptables的情况。

免密码具体就是用证书(非对称加密)来登录,处理起来其实也是蛮方便的(但如果一个手滑可能会导致登录不上去)。

如果过去没有生成过证书,则需要先运行 ssh-keygen -t rsa,之后再~/.ssh/目录会生成公钥和私钥,如果运行过了,就不要重复运行了。

之后把公钥(xxx.pub),传到服务器中的~/.ssh/目录下,重命名为authorized_keys,如果已经有该文件,则把公钥内容加入文末。

- 阅读剩余部分 -

使用Mosh来改善你的SSH连接

今天看到一篇安利iTerm2的文章,在文章介绍了mosh,支持断续连接,当时就很心动,果断进官网看看详情:

Mosh:https://mosh.mit.edu/

mosh使用UDP(ssh使用的是tcp),能够在网络环境差的情况下也保持稳定和基本的使用(在我使用之后觉得流畅了许多,终于有心情折腾了)。

安装方法相当简单,跨平台性也相当好(除了iPhone和Windows Phone):

先在OSX中安装命令:brew install mobile-shell

之后我们就能够使用mosh usr@host代替ssh usr@host,当然在服务端中也需要安装mosh。

- 阅读剩余部分 -

Node.js 用Mocha+Chai做单元测试 入门

昨天是六一儿童节(发布的时候已经是前天了= =),给自己放了一天假,然后晚上开始看自动测试的问题。

单元测试是每个程序员都应该自测的部分(《构建之法》中说:单元测试应该由最熟悉程序的人来写——也就是些这段代码的程序员)传统的测试机械化程度太高,肉眼看也是累得不行,此外,代码覆盖率是一个很重要的考察点,人工测试在计算上或称最大难题。

基本概念

当然在此之前,先来科普一些基本概念,也就是单元测试的分类:TDDBDD

- 阅读剩余部分 -

Ubuntu/Python 结巴分词 + Word2Vec利用维基百科训练词向量

结巴分词是一个跨语言的中文分词器,整体效果还算不错,功能也够用,这里直接用Python了,其他主流语言版本均有提供。

Word2Vec,起源于谷歌的一个项目,在我刚开始接触的时候就关注到了他的神奇,大致是通过深度神经网络把词映射到N维空间,处理成向量之后我们终于可以在自然语言处理上方便的使用它进行一些后续处理。(具体的方法忘了)

Python的gensim库中有word2vec包,我们使用这个就可以了,接下来我们就对维基百科进行处理,作为训练集去训练。(包地址:http://radimrehurek.com/gensim/models/word2vec.html

本文参考:http://www.52nlp.cn/中英文维基百科语料上的word2vec实验

- 阅读剩余部分 -

模拟登录新手入门教程

阅读本文,你能得到一些Cookie和Session的基本知识,模拟登录的分析思路,但是具体代码请自行实现。

今天早上起来折腾了一下模拟登录,主要是以前从来没干过,以为很有难度——实际上并没有,折腾了大概一到两个小时就完全搞定了。

这次讲的主要是分析的思路,因为代码太难看了所以暂时不提供代码,等好看了在放出。

我们以上海海事大学数字校园平台为例,主要是他是比较简单的系统,为什么说简单,之后我们会做说明。

首先,我们来说一下本次使用的道具:

Firefox + Firebug
Postman
Node.js+superagent+cheerio(本文不需要)

- 阅读剩余部分 -