| 基于空间数据库的数据挖掘技术 | 点击:310 | ||
| 随着GIS技术在各个行业的应用以及数据挖掘、空间数据采集技术、数据库技术的迅速发展,对从空间数据库发现隐含知识的需求日益增长,从而出现了用于在空间数据库中进行知识发现的技术空间数据挖掘(Spatial Data Mining,本文简称为SDM)。空间数据挖掘是从空间数据库中提(2007-03-14) | |||
| [GIS论文] 基于空间数据库的数据挖掘技术 | 点击:66 | ||
| 基于空间数据库的数据挖掘技术 摘自《武汉科技大学学报(自然科学版)》第25卷第2期-2002 年6 月 基于空间数据库的数据挖掘技术 蒋 旻 (武汉科技大学计算机学院,湖北武汉,430081) 摘 要:探讨扩展传统数据挖掘方法如分类、关联规则、聚类等到空间数据库的方法,着重对(2006-06-15) | |||
| [GIS论文] 基于web的地图搜索引擎设计与实现 | 点击:145 | ||
| (2006-11-16) | |||
| 数据仓库、OLAP和数据挖掘的关系 | 点击:127 | ||
| 数据仓库、OLAP和数据挖掘是作为三种独立的信息处理技术出现的。数据仓库用于数据的存储和组织,OLAP集中于数据的分析,数据挖掘则致力于知识的自动发现。他们都可以分别应用到信息系统的设计和实现中,以提高相应的处理能力。 由于这三种技术内在的联系性和互补性,将(2006-11-16) | |||
| 给Lucene.NET增加中文分词 | 点击:294 | ||
| 一、 Lucene 的 .NET 版本介绍 到目前为止, Lucene 的 C# 移植有三个版本,最开始是 NLucene ,然后是 Lucene.NET ,当 Lucene.NET 转向商业化之后, SourceForge 上又出现了 dotLucene 项目。 猎兔推出完全使用 C# 开发的,支持 Lucene.NET 的中文分词模块。 二、调(2006-10-27) | |||
| Lucene中文分词的highlight显示 | 点击:211 | ||
| 在Lucene1.4.3版本中的一个新功能可以解决这个问题。Term Vector现在支持保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后,就不需要为了高亮显示而在运行时解析每篇文档。通过Field(2006-10-27) | |||
| Nutch安装笔记 | 点击:80 | ||
| 在RH9+J2EE5.0+TOMCAT5.0.28,使用Nutch-0.6完成了企业内部网简单测试,并记录遇到的问题和解决方法 今天的天气真是热死了!没办法,呆在家里吧,有空调凉快些。于是想到了研究Nutch 这是一个开源的搜索引擎,现在已经列入Apache的Lucene的子项目了。最新版本是0.6(200(2006-10-08) | |||
| Nutch相关资料收集整理 | 点击:197 | ||
| Nutch相关资料收集整理: http://issues.apache.org/jira/browse/NUTCH-36 http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03907.html 以上两个链接的内容出处相同,都是Apache Nutch dev mail archive。 由Jack Tang于04-Apr-2005提出,是描(2006-10-08) | |||
| Nutch 进行全网的爬行(Whole-web Crawling) 的操作测试过程以及 | 点击:224 | ||
| Nutch 的数据包括两种类型: Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型: fetchlist:指定待获取的一个页面集合的文件 fetcher outp(2006-10-08) | |||
| Nutch 简介,如何使用 Nutch 进行 Intranet crawling | 点击:200 | ||
| Nutch vs Lucene Lucene 不是完整的应用程序,而是一个用于实现全文检索的软件库。 Nutch 是一个应用程序,可以以 Lucene 为基础实现搜索引擎应用。 Nutch vs GRUB GRUB 是一个分布式搜索引擎( 参考 )。用户只能得到客户端工具(只有客户端是开源的),其目的在于利用用(2006-10-08) | |||
| 基于Lucene/XML的站内全文检索解决方案 | 点击:105 | ||
| 内容摘要: 为Lucene做一个通用XML接口一直是我最大的心愿:更方便的在WEB应用中嵌入全文检索功能 提供了XML的数据输入接口:适合将原有基于各种数据库的数据源导入到全文索引中,保证了数据源的平台无关性; 通过了基于XML的搜索结果输出:方便了通过XSLT进行前台的结(2006-10-08) | |||
| 基于Java的全文索引引擎Lucene简介 | 点击:58 | ||
| Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。(2006-10-08) | |||
| Lucene 分词原理 | 点击:105 | ||
| Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索(2006-10-08) | |||
| Nutch源码学习系列之一:Analysis包 | 点击:145 | ||
| Nutch0.7出来,对于我们这些Lucene爱好者来说,是件兴奋的事情!当时用Nutch0.6做实验已经让我非常兴奋。 Nutch0.7比之0.6又增添了一部分功能,我们开发一些小型搜索引擎可以修改Nutch的一些接口,使之更加用户化。 此节主要讲述Nutch下的Analysis包即package org.apac(2006-10-08) | |||
| Nutch中Analysis包下的NutchAnalysis.jj解读分析 | 点击:125 | ||
| 学习完javacc语法之后,再读NutchAnalysis.jj就轻松多了.原文解读如下,省略了大片的注释!nutch的分词,主要有 此文件完成. 原文如下: /** JavaCC code for the Nutch lexical analyzer. */ /**修改此文件,以使Nutch支持中文分词*/ options { STATIC = false; USER_CHAR_S(2006-10-08) | |||