Namazu全文検索システム
- : 名無しさん@お腹いっぱい。 [ ] 2001/06/14(木) 09:17ID:???
- 全文検索システム Namazu
ttp://www.namazu.org/
日本語全文検索エンジンソフトウェアのリスト
ttp://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
前スレ ttp://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718 - : 名無しさん@お腹いっぱい [sage] 2001/06/14(木) 15:26ID:???
- いか焼きそば
- : 名無しさん@お腹いっぱい。 [sage] 2001/06/15(金) 01:24ID:???
- namazuはカスタマイズがやりにくいのが嫌いだ。
作り直しきぼん。 - : 名無しさん@お腹いっぱい。 [0] 2001/07/05(木) 09:41ID:???
- ttp://64.124.197.202/main.htm
namazuってやっぱり負荷かかるのかな。 - : 名無しさん@ディストリいっぱい [] 2001/07/05(木) 10:22:wD33sdDI
- >>4
index作る時にはCPU使用率100%になります。
項目がいくつもあるとかなりツライです。
↓うちのNamazu
ttp://2ch.dyn.to/ - : 名無しさん@お腹いっぱい。 [0] 2001/07/05(木) 17:05ID:???
- 100%?(w
すご・・・ - : でり [sage] 2001/07/06(金) 02:36ID:???
- >>5 ん、それは負荷テストに参加してくれというお誘いかな (w
- : 名無しさん@お腹いっぱい。 [] 2001/07/09(月) 00:57:muVIdrhs
- ここ見てユーザーディレクトリにインストしちゃっていいもんでしょうか?
ttp://www.amays.com/~mizusawa/namazu_kaisetu/noSUinstall.html
当方レンタルサーバー 専用サーバー持つ金ありません。
C言語は使えます。負荷のかからないように、自分のマシンでindex作ればいいかな。
っていうかレンタルサーバー会社に聞かずにやっちゃって、かまわんかしら(汗 - : 名無しさん@お腹いっぱい。 [] 2001/07/25(水) 04:10:OjwNZy2I
- インデックス構築中に検索かけられるとCGI TimeOut出ちゃうことが多々あります・・・
ttp://www1.odn.ne.jp/mimizun/ - : 名無しさん@お腹いっぱい。 [] 2001/07/25(水) 18:41:smjKvwXM
- nice で優先度落とせばいいじゃん。
- : 名無しさん@お腹いっぱい。 [] 2001/08/01(水) 18:06:ix6uIOfU
- windowsだし。
- : ナナ萌え(゚д゚)ウマー [(゚д゚)ウマー] 2001/08/02(木) 00:34ID:???
- WIN2Kに入ってるインデックスサービスってどーなん?
- : 名無しさん@お腹いっぱい。 [] 2001/08/04(土) 01:50:aNwZ.JX.
- >>12
穴。まさぐられると逝ってしまうぞ。 - : 名無しさん@お腹いっぱい。 [] 2001/08/10(金) 14:53:A94SLV6Y
- 2.0.6 release age
- : 初心者 [sage] 2001/08/11(土) 11:52ID:???
- NAMAZUのインデックスにはたくさんファイルがありますけど、
いらないファイル(テンプレート等)も多いと思います。
結局必ず必要なファイルってどれなんですか? - : 名無しさん@お腹いっぱい。 [0] 2001/08/12(日) 00:26ID:???
- >>15
んー俺もそう言えばわからん、
もともと、俺にとって、このNamazu初めの頃難しすぎた。
その前に、うなぎ食いたいんだよね。腹減ってきた・・・ - : NAMANAMA [] 2001/08/12(日) 01:02:TrSLsWVY
- namazu2.0.5なんだけど、共有サーバにインストールしたんですよ。
でも、さすがにインデックスの作成は共有サーバでやるのも申し訳ないので、ローカルで作ってあげてます。
そういう場合って、namazu.cgi, .namazurc, Template, Index以外は全部テデリっても問題ないですかね?
それと、やっぱ、インデックスをcrontabで定期的に共有サーバで作ったら迷惑でしょうか?
マジレスお願いします。 - : むぎ茶 [むぎ茶 ] 2001/08/12(日) 01:08ID:???
-
ばれなければ問題無い。
┐(´ー`)┌
┏━━━━━━━━━┓
┃('Д')y ─┛~~ ┃
┃むぎ茶 ┃
┃mugicha@360.cc ┃
┗━━━━━━━━━┛ - : 名無しさん@お腹いっぱい。 [sage] 2001/08/12(日) 01:24ID:???
- >>17
負荷はかからないけど、ローカルは、めんどくせぇ(涙 - : 名無しさん@お腹いっぱい。 [] 2001/08/12(日) 17:40:KkZ3OuWw
- Namazu.pm使ってperlでCGIを作りたいんですが…
Namazu.pmってあまり人気がないんですか?
参考スクリプト(書籍・サイト)がなかなか見つからなくって
何かありませんか? - : 名無しさん@お腹いっぱい。 [sage] 2001/08/15(水) 21:03ID:???
- >>20
ない、と思う。
まあしかし機能はシンプルなことこのうえないので、
利用にあたってそんなに難しいこともないと思うけど。
Ruby 用のモジュール rbnamazu.rb の方機能は多そうだ。 - : 名無しさん@お腹いっぱい。 [] 01/08/28 05:33:aw.N/Mco
- どう?namazu使ってつくったやつ。
とりあえず2ちゃんねる全板検索可能です。
ttp://mimizun.mine.nu/ - : 名無しさん@お腹いっぱい。 [0] 01/08/28 21:59:1JnfOa0A
- お奨め本おしえte
- : 名無しさん@お腹いっぱい。 [] 01/08/29 00:17:TsF5AU7k
- >>22
これ、すげぇじゃん。 - : 名無しさん@お腹いっぱい。 [sage] 01/08/29 02:52:1UTTw6kk
- >>24
どこが? - : 名無しさん@お腹いっぱい。 [] 01/08/30 12:01:8CpRLBMo
- namazaってCGIやSSIで出力する内容も検索するんですか?
- : 名無しさん@お腹いっぱい。 [sage] 01/08/30 12:11:3TFNK/cI
- namazaは知りませんが
Namazuで検索できるのは「ファイル」だけのようです。 - : 名無しさん@お腹いっぱい。 [] 01/08/30 23:03:YzLgVA/.
- はやくpostgresqlのテーブルの中身を検索できるようになっておくれ。
- : 名無しさん@お腹いっぱい。 [] 01/09/10 22:31:2EURowzo
- >>22
みずずん大丈夫? - : 名無しさん@お腹いっぱい。 [sage] 01/09/10 22:32ID:???
- みみずんか(藁
- : 名無しさん@お腹いっぱい。 [] 01/09/11 12:11:liJMw8bE
- XMLの検索ってどうなの?
- : 名無しさん@お腹いっぱい。 [sage] 01/09/17 18:14ID:???
- >>31
filter 書いてくれ。 - : 名無しさん@お腹いっぱい。 [] 01/09/17 18:18:dMB6uEtM
- >>28
Namazuシステムの構築と活用, ソフトバンク
やっぱこれじゃない? - : 名無しさん@お腹いっぱい。 [] 01/09/17 18:21:FURvtMLg
- >>28 PostgreSQLスレッドで誰かやってなかったっけ?
- : 名無しさん@お腹いっぱい。 [sage] 01/09/17 23:18ID:???
- >>34
よく知らないけど、pgnmz はPostgreSQLにNamazuのインデックスを
入れておいて、DBにクエリー投げて検索結果を出すという感じっぽいので、
テーブル内容検索とはちがうっぽい。
ttp://search.namazu.org/ml/namazu-users-ja/msg01550.html - : 名無しさん@お腹いっぱい。 [] 01/09/20 17:20:TUOJrHAw
- PHPファイルを検索できるようにするにはどうすれば良いんですか?
ソースがまんま出ちゃうんですけど。 - : 名無しさん@お腹いっぱい。 [] 01/09/26 22:51:9178Yr9s
- >>36
PHP の出力を検索させたいのなら出力した結果をファイルにして
それにインデックスをかけるとかしないと無理。 - : 36 [] 01/09/27 00:11:IzjiFxn2
- >>37
「出力した結果をファイルにする」ってのは、phpでですか?
なんかそこら辺のこと詳しく書いてあるサイトが無いんで…。
Namazuシステムの構築本に書いてないかなー - : 名無しさん@お腹いっぱい。 [sage] 01/09/27 01:15ID:???
- >>38
php のことよく知らないけど
php scriptname.php ってやったら出力されないかな?
ところで俺も質問なんだけど、namazu.cgi って検索後は
ファイルへのリンクを ttp://hostname/hogehogeで出力するけど、
こいつを file://hogehoge にする方法って無い?
windows でローカルファイルの検索に使いたいんだけど WEB で
探しても見つからなかった。 - : 名無しさん@お腹いっぱい。 [] 01/09/27 17:20:IzjiFxn2
- >>39
php scriptname.phpだとコマンドすら無いって言われてしまう。
指定先は.namazurcってファイルで設定できる↓参照
ttp://village.infoweb.ne.jp/~fwnk1502/data/howto2.htm#namazurc - : 名無しさん@お腹いっぱい。 [] 01/09/27 22:04:clsPKe1Y
- コマンド版のPHPがないとダメじゃないかねえ。
>>39 はインデックス作成時に
mknmz --replace='s#^#file:///'
とかでもいけそうだけどどうよ。 - : 39 [] 01/10/01 05:28:UjeefWpE
- 2chNo1(と思える)過疎板にて反応があって感動。
>>40
.namazurc で
Replace ttp://http://localhost/">ttp://localhost/ file://
と指定してみてたんだけど、どうやら無効の模様。
この部分(ttp://hostname)は固定で出力してるのかな?
>>40 はうまくいったかな?
アパッチのモジュール lib_php3.so (だっけ?) しか
インストールされてない時は >>41 の 言う通りコマンド
ラインで使えるようにしよう。手動で最初からやってみ
たこと無いので詳しい説明できなくてごめん。 - : 40 [] 01/10/04 19:40:4sun3RUk
- 返事遅れてスマソ。
>> 39
うちは
Replace /C\|/docume~1/admini~1/mydocu~1/mywebs~1/ ttp://ark/
みたいな感じになってる。ちなみにこの行と
Lang ja_JP.SJISと書かれた行以外は全てコメントアウト
php検索はコマンドラインで使えるように設定してみます。
というかコマンドラインで使えるようにする方法すら知らないんだけど。
どこか書いてるとこ知りません? 本でも良いんですけど。 - : アナログから光までオッケー [] 01/10/05 02:03:7kq.xdqk
- このサイトはみなさんのインターネット環境の
スピードを計ってくれます。また、遅いと思う
人は設定を少し変えることによって無料で
スピードを早くすることができます。
お金を出す前に一度試してみては
いかがでしょうか。上がりの計測も可能です。
ttp://cym10262.omosiro.com/ - : 22 [] 01/10/05 02:47:UlE8Ntsc
- ttp://www.max.hi-ho.ne.jp/~http/
- : 名無しさん@お腹いっぱい。 [] 01/12/09 11:02:eU0f+J4K
- だめだ〜Out of Memory!で止まっちゃうよ〜。
一応FAQに書いてあることは試したつもりなんだが・・・。
どうも特定のファイルの時にそうなってるみたい。
なんか落ちやすい文字とか、そういうのあるんかな? - : 名無しさん@お腹いっぱい。 [] 01/12/10 22:24:UuNX8sYB
- 設定の問題かどうか
- : 名無しさん@お腹いっぱい。 [sage] 01/12/15 22:02ID:???
- ulimit がらみだと思うけど > Out of Memory
もしくは本当にメモリ(+仮想メモリ)が足りないか。 - : 名無しさん@お腹いっぱい。 [] 02/01/04 06:04:HxTTmUTv
- use POSIX 'strftime';
print strftime "%Y%m%d\n", localtime;
こう書くと年月日が出るじゃないですか。
この日付けに7を足す事ってできます??? - : 名無しさん@お腹いっぱい。 [sage] 02/01/04 06:04ID:???
- >49
マルチうざい
資ね! - : 名無しさん@お腹いっぱい。 [sage] 02/01/04 23:19ID:???
-
逝って良し。
■解説■
マルチは下げ進行で微妙に煽りつつシカトします
上記例のように古典的な煽りは「逝って良し」
他にアスキーアートを使ったものなど多彩ですが、
サーバーの不可を考慮してかあまり好まれません。
やはりシンプルに「氏ね」など短文なものがベストです。 - : 名無しさん@お腹いっぱい。 [age] 02/01/09 18:03ID:???
- あげ
- : 名無しさん@お腹いっぱい。 [age] 02/01/12 04:40ID:???
- age
- : 名無しさん@お腹いっぱい。 [sage] 02/01/13 16:11ID:???
- もう、、下げといてやれよ。。
- : 名無しさん@お腹いっぱい。 [sage] 02/01/13 19:32ID:???
-
再利用というか、もっかい盛り上がることが出来ないスレなんですか?(笑) - : 名無しさん@お腹いっぱい。 [] 02/01/25 06:48:YyTiWZ/9
- 半年で、50位か。1000までいったら感動するな。あげ
- : 名無しさん@お腹いっぱい。 [] 02/02/18 08:00:TWCf5+1d
- age
- : 1001 Over 1000 Thread [] 02/02/18 10:21:Qb17d1xd
- このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。 - : 名無しさん@お腹いっぱい。 [] 02/02/19 07:42:DggBq+7H
- age
- : 名無しさん@お腹いっぱい。 [sage] 02/02/20 22:28ID:???
- 関連スレ
全文検索エンジンNamazu @ Unix板
ttp://pc.2ch.net/test/read.cgi/unix/1009715036/l50 - : nobodyさん [] 02/03/11 21:08:Jt12j7IU
- namazuの検索、なんか使いにくいんだけど。。
変に文節で区切らずに、googleみたいに普通に検索してくれたら
それでいいのに。。 - : nobodyさん [sage] 02/03/11 23:50ID:???
-
うん。 - : nobodyさん [] 02/03/12 07:59:qMnzd5b/
-
これのこと?
>日本語がでたらめにわかち書きされてしまう
>{ [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、
>でたらめにわかち書きされることがあります。
>これは、そもそも最新情報という言葉が検索対象に含まれないことを意味します。
>検索はあきらめましょう。
それとも、インデックス作るときの分かち書きをしないでほしい、ってこと?
それって実現できるのか? - : nobodyさん [sage] 02/03/18 17:35ID:???
- googleはユーザーにあまり意識させないだけで、分けて探してるよ
- : nobodyさん [] 02/03/19 11:29:ulLvfL7+
- googleわけてるかな?
日本語は解析していないように見えるけど…。
英語はスペースでわけるだけだから楽だね。
それにしてもgoogleはスペルミスの修正判断も出してくれたりすごい。
つーか20億ページを0.1秒で検索できるのが単純にすごいと思うのだが。
ローカルでほしい、、 - : nobodyさん [] 02/03/19 12:54:TPtrOTqR
-
googleも分かち書きしてるらしい、という実験結果がある。
検索エンジンのしくみ教えます
ttp://www.google.com/search?hl=ja&ie=Shift_JIS&oe=Shift_JIS&q=cache%3AALmw0POy8V4C%3Awww.mars.sphere.ne.jp%2Fengine%2Fchap_g1.htm+site%3Awww.mars.sphere.ne.jphl%3Dja+Google&lr=lang_ja
なんか 403 forbidden になってるんでgoogleのキャッシュで見てね。 - : nobodyさん [sage] 02/03/19 14:31ID:???
- さん、ありがとうございます。
ほんとだ。分かち書きしてる、、
うむ、googleはちゃんと各言語ごとにチューンしてるんですね。 - : nobodyさん [] 02/03/19 15:32:TPtrOTqR
- 逆に言えば、分かち書きエンジンの精度さえ向上させれば、
google並みのことはできるってことだよね
(もちろん、PageRank とかは抜きにして)。
いつも kakasi だけど、Chasen を使ってみようかなあ・・・。 - : nobodyさん [sage] 02/03/19 15:52ID:???
- 個人で使うような件数の多寡が知れているようなシステムだったら、純粋に全件マッチ検索の方が便利だよね。
- : nobodyさん [sage] 02/03/19 20:25ID:???
-
googleの肝は結果の表示順序。(pagerankもそれを支える情報の一つ)
なので、namazuに少し手を入れたぐらいではgoogle並にはならないよ。
ヒット数が少ない場合、関係ないけど。 - : nobodyさん [sage] 02/03/19 20:38ID:???
-
その点は激しく同意。
ただ、分かち書きの精度を上げることで、
のやりたいことは実現できるんじゃないかな、って思った。 - : nobodyさん [sage] 02/04/24 13:48ID:???
- (´_ゝ`)フーン
- : ato [] 02/05/09 14:31:8gc3nIf4
- Namazu使ったPDFの全文検索でページしていとかできますか?
- : nobodyさん [sage] 02/05/10 00:55ID:???
- Namazu使ったJPGの全文検索でページしていとかできますか?
- : nobodyさん [sage] 02/05/10 02:55ID:???
-
いまさらだが、NamazuへのPageRankの実装は、この論文が有名。
ttp://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html - : nobodyさん [sage] 02/05/10 07:02ID:???
-
まだ、このスレが生きていたとはね
興味深い文章サンクス。
改めて深入りできない、しちゃいけない分野だと再確認したよ - : nobodyさん [sage] 02/05/10 20:41ID:???
- 77ゲットオォォォォ!!
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄ (´´
∧∧ ) (´⌒(´
⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
 ̄ ̄ (´⌒(´⌒;;
ズザーーーーーッ
- : nobodyさん [sage] 02/05/24 03:19ID:???
- (・∀・)イイ!
- : nobodyさん [] 02/05/27 19:51:LrpMVRit
- 類似スレッド
WWW検索エンジンサイト
ttp://pc.2ch.net/test/read.cgi/esite/973436559/l50 - : nobodyさん [] 02/06/06 04:44:jW1FwXu2
- ひさしぶり!
- : nobodyさん [] 02/06/09 00:21:MvwsaEnI
- コレ、namazuの対抗馬になれるか?
ttp://freshmeat.net/projects/snatcher/ - : 山拓変態問題 [期待age] 02/06/20 09:30ID:???
- mp3用のフィルタって誰か書いてないかしら?
- : nobodyさん [] 02/06/20 09:39:updula6F
- Namazuでmp3用のフィルタ???
わからん、俺がアフォなだけか? - : nobodyさん [] 02/06/20 12:41:0pQ6ektu
-
ID3タグでも検索するのか?
そういうのは ふつー DB 使うだろ。 - : 山拓変態問題 [期待age] 02/06/20 15:09ID:???
-
自分のホームヂレクトリをクロンで毎晩なめてるんだけど、
どうせなら、ID3も見てくれないかなと。
変かなぁ。
- : 82=85 [sage] 02/06/20 15:34ID:???
- って、WEBプログラミングとは、違いますな。
スレ違いスマソ。
- : nobodyさん [] 02/06/25 01:01:cgKxt6dS
-
なるほど、mp3 の中に埋め込まれたテキストも「文書」として扱い、
検索対象としたい、ってわけね。全然変じゃない。むしろ面白い。
やってることは google のイメージ検索みたいな感じかな。
perl でサクッと書けそうな雰囲気。
ぜひトライしてみて。
あと、Web プログラミングとは関係ないけど、
Namazu に関係あればいいと思うよ。 - : nobodyさん [sage] 02/06/25 02:46ID:???
- いや、それをWebから使えるようにすりゃWebプログラミングと
むちゃくちゃ関係あるじゃん。
> やってることは google のイメージ検索みたいな感じかな。
イメージ検索は外部から関連性を持ってくるのでちと違うような。
内部のID3だけだったらPDF検索くらいに対応するだろう。
ぜんぜんNamazuじゃなくても良さそうだけど、他と串刺し検索するなら
やっぱり便利かも。 - : nobodyさん [sage] 02/08/12 22:58ID:???
- うなぎ食べたいね。
- : nobodyさん [sage] 02/09/02 23:28ID:???
- ナマズマズー
- : nobodyさん [sage] 02/09/20 08:19ID:???
- ウマー
- : nobody [age] 02/09/21 15:05ID:???
-
検索結果で表示されるファイルの先頭部分のサイズを変更できますか?
やりかたを教えて下さい。 - : nobodyさん [] 02/09/25 08:37:3VOnIdJA
- wget
でURLテキスト-iで、ディレクトリ作成-x
しながらページ拾ってくると、
稀にディレクトリ作成(www.aaa.xxx)されなくて
関係ないディレクトリ(www.bbb.xxx)にページを
格納してしまいます。
このままindex作るとURLリンクが関係ないところに。
どうしてだろう。困った。 - : nobodyさん [] 02/09/27 20:30:7S/gcFrV
- Office XPファイルは、インデキシングできないのかなぁ。
- : nobodyさん [] 02/09/28 02:50:gf1ROtiY
- @ノハ@
ピュー( ‘ д‘)
=〔~∪ ̄ ̄〕
=◎−−◎
- : 名無しさん@お腹いっぱい。 [] 02/10/07 17:04:ucR8g7pl
- @ハヽ@
(' д ‘)ピュー
〔~∪ ̄ ̄〕=
◎−−◎=
づかれたゾイ - : 名無しさん@お腹いっぱい。 [] 02/10/07 17:05:ucR8g7pl
- ↑車輪がずれたゾイ
- : nobodyさん [] 02/11/02 15:20:Jwe6TBuD
- ウマー
- : Windows における namazu w/chasen [] 02/11/03 10:47:rQsphwgx
- Chasen を使ったインデックス作成が出来ません
ttp://www.namazu.org/ml/namazu-win32-users-ja/msg00671.html
ttp://www.namazu.org/ml/namazu-win32-users-ja/msg00672.html
ttp://www.namazu.org/ml/namazu-win32-users-ja/msg00692.html
を見ると、2001/05 時点で chasen を使ったインデックス作成は
cygwin 環境で行うことができるようですが、
現在も chasen を使おうとすると cygwin 上で行うのが妥当でしょうか? - : Windows における namazu w/chasen [sage] 02/11/03 11:17ID:???
-
Chasen 2.0.2 は cygwin 上で問題なくコンパイルできました。
凡例:
レス番
100 (赤) → 2つ以上レスが付いている
100 (紫) → 1つ以上レスが付いている
名前
名無しさん (青) → sage のレス
名無しさん (緑) → age のレス
ID
ID:xxxxxxx (赤) → 発言が3つ以上のID
ID:xxxxxxx (青) → 発言が2つ以上のID
このページは2ch勢いランキングが作成したキャッシュです。元のページはこちら。削除についてはこちら。