Solr整合中文分词器mmseg4j

分词的基础概念

为什么要进行分词

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

Solr5.5集成到Tomcat8

也许你不熟悉Jetty,或者觉得它性能不行,你想在Tomcat上运行Solr,没问题,理论上只要是servlet容器都可以运行Solr。不过问题是从solr5开始官方不再支持Tomcat的集成,所以可以有些配置问题需要自己来解决。于是我进行了一次尝试,solr4本来是比较容易的,Solr5就出现一些问题,由于对Tomcat了解也不是很深,除运行的时候Solr管理界面有些小问题外,基本可以正常使用。

使用Heritrix抓取数据

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。最重要是对于一般的抓取,你是不用碰任何代码的,只要写好配置文件就可以了,简直就是某些人的福音。不过对于一个真正的程序员,代码可是他们的整个生命啊.

垂直搜索引擎基础知识

引言/废话

搜索引擎是大家平时使用最广泛的网络应用之一,它是普通网民接触互联网的入口,也是网络信息的搜集系统,其重要性不言而喻。我认为一个优秀的搜索服务应该实现一些基本的要求:

  • 准确回应用户搜索目的
  • 提供公正的结果排序

然而,目前最大的中文搜索引擎,在经历了血友病吧事件魏则西事件之后,网民已经失去对其的信任,甚至很多人产生了厌恶之情,且不说是否有人落井下石,或者说是罪有应得,总之,它带给大家的是不好的用户体验。吐槽到此为止,从这里开始我们进入正题。

基于Docker的开源视频分享系统解决方案

序言: 学校之前有个视频分享站点,用的是CC视频的系统,买的源码,后来服务器被黑掉了,存储服务器被格了,好几T的视频都没了,挺心疼人的。绊倒还是要站起来的,准备重新搭建视频系统,可是CC的系统已经太老了,对环境要求很苛刻,要求系统是redhat 5.4,php版本不能大于5.2,还有mysql也有特定要求,最重要的是所有的软件需要编译安装,视频转码那些软件不太好搞。之前搭建这个系统的师哥过来没搞定,把这个坑留给我,在准备跳下去的时候还是回来了,我感觉可能解决不了。于是转投其他系统,国内真心没啥好用的,都是CMS,是从各大视频网站抓链接,什么转码、截图都没有。CC视频也变成了纯粹的云服务了。国外有些很不错的,像Vimp,Melody,但免费版的功能有很多限制,也跳过坑,最后找到开源的clipbucket。

另外,本项目托管在 mytube - github ,后续更新以此为准。

导入Mysql数据到Solr中

一般存储数据都会用到数据库,之前十几年关系型数据库大行其道,现在非关系性数据库(NoSql)如日中天,随着数据越来越来越多,人们发现关系型数据库的性能已经不能满足需要,经历了一番挣扎,从主-从(读-写)分离,到分库分表,虽然维持了一段时间,但是数据量很快就上来了,于是NoSql越来越显示出其在大数据时代的价值。

咳咳,不过这篇文章讲的却是从最流行的关系型数据库中导入数据到Solr,没办法,笔者还没用过NoSql,所以还是老老实实讲Mysql,哈哈。

解决新疆地区百度网盘分享链接不能用

写在前面

新疆的网络封锁,我在之前一篇 Github在新疆用不了的问题 中也讲过了,政治问题不再重提。可是我们只能看内地的小伙伴快乐地分享文件,我们只能出来 Error400,岂不痛哉!!下面方法要求有一定的 接入国际互联网 的技能。

Fuck 百度云盘

那么怎么才能正确打开百度云的分享链接呢?