2ch勢いランキング 全部 1- 最新50

全文検索エンジン Hyper Estraier 2


名無しさん@お腹いっぱい。 [] 2007/04/17(火) 19:56:12

ttp://http://hyperestraier.sourceforge.net/index.ja.html

名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 08:37:50
ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 09:36:59
”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?
名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 13:07:41

いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 13:47:37

インデックスの容量 -> テキスト情報量に依存
クロール時間    -> クロール方法に依存

マニュアルをちゃんと読んでから検討したほうがいいよ。
名無しさん@お腹いっぱい。 [] 2011/02/10(木) 23:56:21
最近のMinGWでコンパイルに成功したかたいますか?

ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します

そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました

なにかポインタがあれば教えてください
名無しさん@お腹いっぱい。 [sage] 2011/04/14(木) 21:08:55.94
大文字小文字を区別して検索できるようにして欲しい
名無しさん@お腹いっぱい。 [sage] 2011/04/17(日) 12:28:30.18
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?
281 [] 2011/04/17(日) 12:31:21.73
も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。
名無しさん@お腹いっぱい。 [sage] 2011/05/07(土) 18:02:40.44
,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?

自分は上記のような感じで

ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。

オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
名無しさん@お腹いっぱい。 [sage] 2011/05/11(水) 20:07:25.33
もう見てる人居ないんだろうか
名無しさん@お腹いっぱい。 [sage] 2011/05/11(水) 20:21:05.25
見てるけど、開発が止まっちゃってて新しい話題がないよなー
名無しさん@お腹いっぱい。 [sage] 2011/05/12(木) 05:31:56.98
一応チェックリストには入れてる
名無しさん@お腹いっぱい。 [sage] 2011/05/13(金) 19:03:09.08
namazu と これくらいかー?
使える全文検索は。
名無しさん@お腹いっぱい。 [] 2011/07/13(水) 06:07:12.29
luceneで決まりだろ
名無しさん@お腹いっぱい。 [sage] 2011/07/13(水) 16:35:33.19
クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。

query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
名無しさん@お腹いっぱい。 [] 2011/07/19(火) 00:44:48.88
今はkyotoだっけtokyoだっけ?
名無しさん@お腹いっぱい。 [sage] 2011/07/19(火) 12:55:07.65
作者がmixiからgoogleにいったよね
名無しさん@お腹いっぱい。 [sage] 2011/07/19(火) 14:38:11.73

へえ、ついに検索の総本山へか
名無しさん@お腹いっぱい。 [] 2011/08/13(土) 15:26:49.80
え?自分で会社作ってたんじゃなかったっけ??
名無しさん@お腹いっぱい。 [sage] 2011/08/15(月) 10:45:08.18
失敗したんだって
名無しさん@お腹いっぱい。 [] 2011/08/28(日) 22:41:21.12
解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。


unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。

Windows用バイナリ
ttp://http://hyperestraier.sourceforge.net/win/
名無しさん@お腹いっぱい。 [sage] 2011/09/18(日) 23:41:27.20
P2Pでクローラーを動かしてます。

特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
296  [] 2011/09/18(日) 23:42:18.24
お願いします
192.774 [] 2011/11/26(土) 01:02:16.43
検索革命のせいか検索デスクの逆リンクがまだ動かない。
名無しさん@お腹いっぱい。 [sage] 2012/01/18(水) 15:49:41.20
mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか
名無しさん@お腹いっぱい。 [sage] 2012/01/18(水) 19:37:28.38
Gnus
名無しさん@お腹いっぱい。 [] 2012/04/19(木) 18:59:45.66
Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
ttp://https://gist.github.com/2418271
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?
名無しさん@お腹いっぱい。 [sage] 2012/04/19(木) 21:59:39.60
Homebrew ttp://http://mxcl.github.com/homebrew/
っつうMac用パッケージ管理システムのインストール定義だね。
rubyスクリプトで定義が書けるんだね。
名無しさん@お腹いっぱい。 [sage] 2012/04/20(金) 21:10:24.25
やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。

しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…
名無しさん@お腹いっぱい。 [sage] 2012/04/20(金) 23:35:36.63

Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。
名無しさん@お腹いっぱい。 [sage] 2012/04/21(土) 19:13:50.93

さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど
303 [sage] 2012/04/21(土) 20:56:51.07

うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw
名無しさん@お腹いっぱい [] 2012/05/21(月) 00:40:06.77
検索に基礎がなっていない。
名無しさん@お腹いっぱい。 [] 2012/08/11(土) 17:34:18.82
すいません、質問させてください。

まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず?

で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。

どのようにすれば、doc、xlsファイル等を検索できるでしょうか?
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか?
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。

以上、よろしくお願いいたします。
名無しさん@お腹いっぱい。 [] 2012/08/11(土) 17:38:13.25
訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
   ↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ

です。 失礼しました。
名無しさん@お腹いっぱい。 [sage] 2012/08/11(土) 18:17:47.26

estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。
名無しさん@お腹いっぱい。 [sage] 2012/08/11(土) 19:07:37.99

おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。

ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。
名無しさん@お腹いっぱい。 [sage] 2012/08/11(土) 20:12:21.99

ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。
名無しさん@お腹いっぱい。 [sage] 2012/08/11(土) 20:36:05.84

レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz

フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。
名無しさん@お腹いっぱい。 [sage] 2012/08/11(土) 20:56:51.31

知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。
名無しさん@お腹いっぱい。 [sage] 2012/10/10(水) 14:49:50.26
pandocというのがodfの変換もできるほか、いろいろ変換できそう
名無しさん@お腹いっぱい。 [sage] 2013/05/04(土) 18:53:18.57

DesktopHEはWin7x64で快適に動作していますが。
名無しさん@お腹いっぱい。 [sage] 2016/02/08(月) 08:45:27.23
2007年からメンテされてないんだね
名無しさん@お腹いっぱい。 [sage] 2016/02/08(月) 10:03:53.02
forkがあるけどこっちも止まってるかな
ttp://https://github.com/fumiyas/hyperestraier-encore
名無しさん@お腹いっぱい。 [sage] 2016/11/28(月) 00:25:53.50
ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。
名無しさん@お腹いっぱい。 [sage] 2016/11/29(火) 08:55:34.02
今時ならgroongaがいいんじゃないかなあと思っている。
名無しさん@お腹いっぱい。 [] 2017/12/29(金) 07:49:19.75
誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

XER7GWRJ9A
名無しさん@お腹いっぱい。 [sage] 2018/01/23(火) 23:16:38.05
(Javaを使わずに)全文検索を構築したくて
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
ttp://https://github.com/ikbhotels/pyperestraier
ttp://https://github.com/ikbhotels/dj-estsearch
まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
ttp://http://feedintegra.info/search/est2ch
よろしくお願いします
名無しさん@お腹いっぱい。 [] 2018/05/22(火) 03:07:11.85
知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』

MS75P
名無しさん@お腹いっぱい。 [sage] 2020/02/11(火) 15:28:38.93
チエオクレのハゲの悲惨なツイッター
ttp://https://twitter.com/aphonedollar

  ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる

>「DesktopHE」 はWindows10に対応してないらしい

はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!

■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■

チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!

hatenaとかでまで、必死こいて大嘘をばらまいているんだが  
ttp://https://twitter.com/5chan_nel (5ch newer account)

勢い5万以上のスレをメールでお知らせするサービス、実施中!!
憧れボディをGETしたい!その夢、ボニックで!

2ch勢いランキング 全部 1- 最新50 UNIX板ランキング

凡例:

レス番

100 (赤) → 2つ以上レスが付いている
100 (紫) → 1つ以上レスが付いている

名前

名無しさん (青) → sage のレス
名無しさん (緑) → age のレス

ID

ID:xxxxxxx (赤) → 発言が3つ以上のID
ID:xxxxxxx (青) → 発言が2つ以上のID

このページは2ch勢いランキングが作成したキャッシュです。元のページはこちら。削除についてはこちら