飞呯纪元

Developer 未读

Java 程序在解析 HTML 文档时，最常用的是 htmlparser 这个开源项目。但现在你有更好的选择，那就是Jsoup。 jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于

搜索引擎 jsoup 2016-05-22

Developer 未读

Solr5配置文件参数解析

Solr5的主要配置文件有solrconfig.xml和managed-schema，另外一些还有solr.xml,数据导入配置,ZooKeeper配置等。这里详细介绍两个主要的配置文件。  solrconfig.xml solrconfig.xml文件是solr的主配置文件

搜索引擎 Solr 2016-05-20

Developer 未读

Solr整合中文分词器mmseg4j

分词的基础概念为什么要进行分词中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界

搜索引擎 Solr 2016-05-19

Developer 未读

Solr5.5集成到Tomcat8

也许你不熟悉Jetty，或者觉得它性能不行，你想在Tomcat上运行Solr，没问题，理论上只要是servlet容器都可以运行Solr。不过问题是从solr5开始官方不再支持Tomcat的集成，所以可以有些配置问题需要自己来解决。于是我进行了一次尝试，solr4本来是比较容易的，Solr5就出现一些

搜索引擎 Solr 2016-05-18

Developer 未读

使用Heritrix抓取数据

Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。最重要是对于一般的抓取，你是不用碰任何代码的，只要写好配置文件就可以了，简直就是某些人的福音。不过对于一个真正的程序员，代码可是他们的整个

搜索引擎数据抓取 2016-05-18

Developer 未读

Solr基础知识及安装

Solr的身世引用Solr官网的slogan,blazing-fast一词可见一斑。 Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™. 再来看看它的特

搜索引擎 2016-05-17

Developer 未读

垂直搜索引擎基础知识

引言/废话搜索引擎是大家平时使用最广泛的网络应用之一，它是普通网民接触互联网的入口，也是网络信息的搜集系统，其重要性不言而喻。我认为一个优秀的搜索服务应该实现一些基本的要求：准确回应用户搜索目的提供公正的结果排序然而，目前最大的中文搜索引擎，在经历了血友病吧事件、魏则西事件之后,网民已经失去

搜索引擎 2016-05-15

Developer 未读

【总述】用Solr构建垂直搜索引擎

用Solr构建垂直搜索系列文章入门知识部分垂直搜索引擎基础知识 Solr基础知识及安装 Solr5.5 集成 Tomcat8 搜集信息部分使用Heritrix抓取数据

搜索引擎 Solr 2016-05-15

Developer 未读

基于Docker的开源视频分享系统解决方案

序言：学校之前有个视频分享站点，用的是CC视频的系统，买的源码，后来服务器被黑掉了，存储服务器被格了，好几T的视频都没了，挺心疼人的。绊倒还是要站起来的，准备重新搭建视频系统，可是CC的系统已经太老了，对环境要求很苛刻，要求系统是redhat 5.4，php版本不能大于5.2，还有mysql也有特

视频分享系统 Docker 2016-04-24

Developer 未读

导入Mysql数据到Solr中

一般存储数据都会用到数据库，之前十几年关系型数据库大行其道，现在非关系性数据库（NoSql）如日中天，随着数据越来越来越多，人们发现关系型数据库的性能已经不能满足需要，经历了一番挣扎，从主-从（读-写）分离，到分库分表，虽然维持了一段时间，但是数据量很快就上来了，于是NoSql越来越显示出其在大数据

Solr 搜索引擎 2016-04-06