Lily-建立在HBase上的分布式搜索

php中文网
发布: 2016-06-07 16:26:18
原创
1367人浏览过

lily以nosql技术为主题,是建立在云计算上的内容仓库(content repository)。它是基于apache的 hbase(存储)和solr(索引/搜索),并提供了大型内容集合存储与检索的解决方案。可运用在 门户网站,内容管理系统,及时搜索,档案应用,文案管理,等等。 Lily项目

lily以nosql技术为主题,是建立在云计算上的内容仓库(content repository)。它是基于apache的 hbase(存储)和solr(索引/搜索),并提供了大型内容集合存储与检索的解决方案。可运用在 门户网站,内容管理系统,及时搜索,档案应用,文案管理,等等。

Lily simple architecture diagram

Lily项目与传统的Lucene框架相比体现了以下几点关键性的优势:
    ·伸缩性  –> sharding/MapReduce
    ·可用性
  –> replication
    ·及时性  –> real-time update index
    ·容错性  –> no SPFO

另外,Lily 借用了Apache的 HBase进行存储 ,Solr进行Index/Search;
            Lily 重新构建大数量的索引Lily会采用MapReduce把索引当做文件切在HDFS上;
            Lily 索引更新时切换并没有像LinkedIn的Zoie那样保存在内存里,Lily在Hbase上建立了secondary indexes;
            Lily 在建立索引的结构方面 借鉴了Google App Engine的索引设计思想;
            Lily 提供REST 和 API 2种方式提供客户端调用;
           

BTW:关于上面提到了LinkedIn的Zoie我想多数两句,Zoie跟LinkedIn的其他产品捆绑的非常紧密,导致你如果单一的使用Zoie总会觉得很变扭,而且文档非常少,那篇让人貌似惊喜的中文文档仍然不够详细,只好对Zoie望而却步了。

Lily的系统架构由4个主要的部分组成:
    1.Zookeeper – 对分布式环境中的状态和配置进行管理,让Client可以知道当前有多少个工作的 Lily Node。
    2.Lily Node – a)WAL(预写日志)、b)Message Queue(消息队列)、c)Indexer(索引策略)、d)Lily Repository(索引CRUD) 组成。
    3.HBase -作为存储单元,最终的消息、索引、数据和二进制数据还是存储在HDFS上。
    4.Solr – 建立Lucene框架基础上查询器,并且支持分布式搜索,切片的策略由Lily Middleware中的Indexer部件提供。
    5.Client-客户端的访问入口基于Avro的协议(类似于PB)操作Repository,

如图所示:

2088shop商城购物系统
2088shop商城购物系统

2088shop商城购物系统是商城系统中功能最全的一个版本:非会员购物、商品无限级分类、不限商品数量、商品多级会员定价、上货库存、Word在线编辑器、订单详情销售报表、商品评论、留言簿、管理员多级别、VIP积分、会员注册积分奖励、智能新闻发布、滚动公告、投票调查、背景图片颜色更换、店标上传、版权联系方式修改、背景音乐(好歌不断)、广告图片支持Flash、弹出浮动广告、搜索引擎关健词优化、图文友情联

2088shop商城购物系统 0
查看详情 2088shop商城购物系统

 lily architecture

废话1:
         1.Lily 提供了快速入门的模拟集群工具(Minicluster),不需要搭建HBase/Hadoop/Zookeeper环境,只要有JDK你第一次上手20分钟内也能跑起来一个例子。
         2.Lily 在分布式的环境中不能使用Apache的原版Hbase和Hadoop,需要使用改装过的版本,HBase是Lily自己改装的,Hadoop是Cloudera的 0.20.2+737版 。
         3.Lily 为了简化开发和将来对项目的维护,在代码上使用了Spring作为集成工具。
         4.Lily 考虑使用HBase和Solr作为基础平台纠结了很久,最终给出了一些依据。
       
废话2:
    1.zookeeper作为JEE分布架构中最上层防止单点(SPFO)系统接口是不错的选择,不仅是Lily在这样做,HBase本身也是这样。
    2.分布式搜索中需要异步架构的支撑,消息中间件是最佳的选择,用来对索引进行CRUD和挂起的操作。
    3.对于大数量的索引合并和更新是MapReduce实战才能的时候了。
    4.通过Lily项目对于HBase的使用场景又有了新的参考。
        
废话3:
         1.Srping也对云计算的话题蠢蠢欲动,Spring Framework HBase Template  列入计划中。
         2.在众多HBase ORM中pigi 算是不错的一个,使用简单,Pigi Project 。
         3.JMXToolkit 可以对HBase进行监控,并且可以和Cacti、Nagios进行集成。
 

相关文章:
MySQL向Hive/HBase的迁移工具
HBase入门5(集群) -压力分载与失效转发
Hive入门3–Hive与HBase的整合
HBase入门篇4
HBase入门篇3
HBase入门篇2-Java操作HBase例子
HBase入门篇
基于Hbase存储的分布式消息(IM)系统-JABase

–end–

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号