技术标签: # solr(全文搜索) + Sphinx
开始此篇之前,我已经假定你已经学会了如何在Tomcat下部署Solr5啦。即启动Tomcat后你能看到Solr5的Web UI界面。OK,下面直接进入正题。
首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包,当然你也可以直接到依赖的jar包扔到 Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图:
这里我采用了另外一种方式,把依赖的jar包放当前core的lib目录下,这样做的好处是每个core依赖的jar包当初存放在各自core的子目录下分类存放,更方便管理,全部扔tomcat下杂乱无章不好管理。如图新建lib目录:
然后往lib目录copy一些 DIH依赖的jar包,如图:
截图的那些jar包在solr5的解压包里都能找到,如果你实在找不到再来问我。然后solrconfig.xml配置文件里我们需要配置外部jar包的加载路径,如图配置:
dir参数里的 ./ 即表示当前core根目录,regex表示一个正则表达式,目的就是为了批量指定j加载哪些jar包.然后配置我们的dataimport处理器并指定data-config.xml配置文件的加载路径,如图:
然后编写配置我们的data-config.xml,如图:
url="C:/docs/solr-word.pdf"即表示对C:\docs目录下的solr-word.pdf文件进行文本提取并创建索引,format表示把提取到的文本当作什么类型的数据,默认支持text(纯文本),xml,json,html等格式,不配置format默认值就是text.
然后我们需要在schema.xml文件里定义我们的域,如图:
细心的你,肯定发现了我配置了IK分词器,IK分词器配置如图:
刚才我已经在core根目录的lib下复制了IK分词器jar包,我们还需要在core\conf目录下复制一份IKAnalyzer.cfg.xml配置文件,如果你有自定义IK扩展字典,那么你还需要把扩展字典文件的加载路径配置在
IKAnalyzer.cfg.xml文件里,如图:
到此,准备工作就完成了,重启你的tomcat,访问你的Solr Web UI进行测试,如图:
如果你执行后看到如图效果,就表明PDF导入Solr成功了,为了验证PDF成功导入Solr了,你可以切换到Query菜单进行查询验证,如图:
OK,关于如果导入PDF到Solr5就介绍到这儿了。相关配置文件我待会儿会在底下的附件里打包上传一份供你们参考,但希望你们还是要自己动手操作下,不要仅仅是直接解压复制我提供的示例,只有于遇到问题并不断自虐的过程中你才能学到经验。
间隔很久没写了,让大家等久了,不好意思哈,写博客不易,大家且看且珍惜,也希望大家多多提意见,时间匆忙,难免会有所纰漏。
如果你还有什么问题请加我Q-Q:7-3-6-0-3-1-3-0-5,
或者加裙
一起交流学习!
JSP程序设计课程教学心得体会JSP程序设计课程教学心得体会高等职业院校是以培养高素质、技能型专门人才为主线。一个合格的高职学生,除了具备本专业的理论知识之外,更注重培养学生职业技术应用能力。《JSP程序设计》是计算机信息管理软件编程专业开设的一门专业必修课程,是一门动手实践能力和逻辑分析能力要求比较高、与实际岗位关系比较紧密的专业技能课程,是培养基于java技术web程序员的主要支撑课程。一、教...
1、Opencv的下载和安装1 1. 下载网址 Opencv官网下载: https://opencv.org/releases.html 2. 2. 安装路径 自动生成opencv文件夹,不用重复新建文件夹放opencv 3. 注意文件 Opencv只是一个计算机视觉库,和前面用的ffmpeg一样,在VS中使用时,需要对文件进行配置,调用其中的文件 ...
为什么80%的码农都做不了架构师?>>> ...
1.在idea首页 File–>setting–>build,execution,deployment–>buildTool–>maven–>work offine勾选,apply,ok2.点击右侧Maven Project–>lifecycle–>install,下载jar包;没有的话自己先点+号添加pom文件。3.FIle–>setting...
首先查看官网安装frida很简单:电脑执行pip install frida-tools之后首先发现没有pip,很简单sudo easy_install pip 安装完成pip后开始重新执行pip install frida-tools卡主,半小时没有动,感觉有可能是公司网络不好,就打开手机热点连通,再次尝试,还是不行,还是不行,然后就开始百度找问题,需要...
二维整数矩阵a[N][N]表示一个迷宫,矩阵左上角表示迷宫入口,右下角表示出口。矩阵的元素为0表示可以通过,为1表示不能够通过。如maze[5][5]={0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0};则迷宫的一条通往出口的路径为(0, 0)->(1, 0)->(2
QT样式表单QT的样式表单允许我们在对程序不做任何代码上的更改的情况下轻松改变应用程序的外观。其思想来源于网页设计中的CSS,即可以将功能设计和美学设计分开。它的语法和概念和HTML CSS也是差不多的。其原理可简单理解为:QT内部存在一个CSS语法解析器,我们将我们的样式控...
记一次文件上传引发的血案。解决QQ浏览器com.tencent.mtt.fileprovider问题。更新列表日期修改内容2019年7月2日更新遇到的问题前情描述:使用系统文件管理器,选择指定文件类型上传。基础知识MIME调起文件管理器指定浏览位置(路径转URI)设置多种文件类型URI转路径踩坑com.tencent.mtt.fileprovider 问题1. MIMEMIME (Multipur...
dBm转换为W的口算规律是要先记住“1个基准”和“2个原则”:1个基准:30dBm=1W2个原则:1)+3dBm,功率乘2倍;-3dBm,功率乘1/22)+10dBm,功率乘10倍;-10dBm,功率乘1/10...
TSLintTSLint是一个可扩展的静态分析工具,用于检查TypeScript代码的可读性,可维护性和功能性错误。收到现代编辑和构建系统的广泛支持,并且可以使用您自己的路由,配置和格式化。安装npm install tslint typescript -g运行linter之前,请确保TypeScript源文件能够正确编译。用法 tslint [options] [file ....
android 耳机线控的实现方法keycodeonkeydownkeyevent 耳机线控的功能 耳机线控是一种很好用,并且能提升用户体验的功能。可以用来实现一些常用和基本的功能。比如:实现音乐播放的控制,接听电话,音量控制等。下面写一下耳机线控的几种实现方式。 耳机线控的实现 耳机线控实现方式主要有两种,(注:可能出现无法获取键值的问题,可能导致的原因是:1、驱动不支持;2、...
初学CSS所以就以博客的形式记录下来,权当是个记事本了。1.CSS语法CSS规则由俩个主要部分构成:选择器,以及一条或多条声明 selector {declaration1;declaration2;… declarationN}其中选择器通常是你需要改变的HTML元素,例如”p”或”h1”这些 每条声明由一个属性和一个值组成 其中属性(property)是希望您设置的样式属性。每个属性都