zuqqhi2のIT日記

プログラミング + アカデミック + 何か面白いこと

   Mar 21

Memo for Installing Mahout on Ubuntu 12.04 LTS

by zuqqhi2 at 2015年3月21日
Pocket

Only Command

sudo vim /etc/hadoop-0.20/conf/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64
hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 4 100

sudo apt-get install mahout
sudo apt-get install mecab
sudo apt-get install mecab-ipadic-utf8
mecab -b 184 -O wakati aozora/input.txt -o aozora/input.txt.wkt

$ less aozora/input.txt.wkt
$ hadoop fs -mkdir nb
$ hadoop fs -put aozora nb/

mahout seqdirectory --input nb/aozora --output nb/aozora_seq -c UTF-8


 hadoop fs -text nb/aozora_seq/chunk-0
/input.txt      学界というものをごく狭く理解して、研究室や研究所に直接関係がある世界のことだとすると、私は今日では全く学界の外の人である。

/input.txt.wkt  学界 という もの を ごく 狭く 理解 し て 、 研究 室 や 研究所 に 直接 関係 が ある 世界 の こと だ と する と 、 私 は 今日 で は 全く 学界 の 外 の 人 で ある 。



mahout seq2sparse \
--input nb/aozora_seq \
--output nb/aozora_vec


hadoop fs -ls nb/aozora_vec
Found 7 items
drwxr-xr-x   - hidetomo supergroup          0 2014-03-16 16:27 /user/hidetomo/nb/aozora_vec/df-count
-rw-r--r--   1 hidetomo supergroup        725 2014-03-16 16:26 /user/hidetomo/nb/aozora_vec/dictionary.file-0
-rw-r--r--   1 hidetomo supergroup        893 2014-03-16 16:27 /user/hidetomo/nb/aozora_vec/frequency.file-0
drwxr-xr-x   - hidetomo supergroup          0 2014-03-16 16:27 /user/hidetomo/nb/aozora_vec/tf-vectors
drwxr-xr-x   - hidetomo supergroup          0 2014-03-16 16:28 /user/hidetomo/nb/aozora_vec/tfidf-vectors
drwxr-xr-x   - hidetomo supergroup          0 2014-03-16 16:26 /user/hidetomo/nb/aozora_vec/tokenized-documents
drwxr-xr-x   - hidetomo supergroup          0 2014-03-16 16:26 /user/hidetomo/nb/aozora_vec/wordcount



mahout seqdumper -s nb/aozora_vec/dictionary.file-0
Key: あ: Value: 0
Key: い: Value: 1
Key: う: Value: 2
Key: が: Value: 3
Key: く: Value: 4
Key: こ: Value: 5
Key: ご: Value: 6
Key: し: Value: 7
Key: す: Value: 8
Key: だ: Value: 9
Key: て: Value: 10
Key: で: Value: 11
Key: と: Value: 12
Key: に: Value: 13
Key: の: Value: 14
Key: は: Value: 15
Key: も: Value: 16
Key: や: Value: 17
Key: る: Value: 18
Key: を: Value: 19
Key: 世: Value: 20
Key: 人: Value: 21
Key: 今: Value: 22
Key: 係: Value: 23
Key: 全: Value: 24
Key: 外: Value: 25
Key: 学: Value: 26
Key: 室: Value: 27
Key: 所: Value: 28
Key: 接: Value: 29
Key: 日: Value: 30
Key: 狭: Value: 31
Key: 理: Value: 32
Key: 界: Value: 33
Key: 直: Value: 34
Key: 研: Value: 35
Key: 私: Value: 36
Key: 究: Value: 37
Key: 解: Value: 38
Key: 関: Value: 39
Count: 40


mahout seqdumper -s nb/aozora_vec/frequency.file-0
Key: 0: Value: 2
Key: 1: Value: 2
Key: 2: Value: 2
Key: 3: Value: 2
Key: 4: Value: 2
Key: 5: Value: 2
Key: 6: Value: 2
Key: 7: Value: 2
Key: 8: Value: 2
Key: 9: Value: 2
Key: 10: Value: 2
Key: 11: Value: 2
Key: 12: Value: 2
Key: 13: Value: 2
Key: 14: Value: 2
Key: 15: Value: 2
Key: 16: Value: 2
Key: 17: Value: 2
Key: 18: Value: 2
Key: 19: Value: 2
Key: 20: Value: 2
Key: 21: Value: 2
Key: 22: Value: 2
Key: 23: Value: 2
Key: 24: Value: 2
Key: 25: Value: 2
Key: 26: Value: 2
Key: 27: Value: 2
Key: 28: Value: 2
Key: 29: Value: 2
Key: 30: Value: 2
Key: 31: Value: 2
Key: 32: Value: 2
Key: 33: Value: 2
Key: 34: Value: 2
Key: 35: Value: 2
Key: 36: Value: 2
Key: 37: Value: 2
Key: 38: Value: 2
Key: 39: Value: 2
Count: 40

Related Posts

  • mahout2015年6月17日 Collaborative Filtering by Mahout Install Apache Hadoop Apache Hadoop […]
  • 2013年5月29日 [Hadoop][Ruby]Hadoop Streaming First Step RubyでMap Reduceを書く まずはMapper 次にReducer テストしてみる。 できた! Hadoop Streamingで実行する できた! Write Map Reduce code […]
  • 2015年3月14日 [RabbitMQ]How to install RabbitMQ in Ubuntu, run sample app and management screen Goal 次のことをやる。 RabbitMQをUbuntuインストールする(12.04) サンプルRubyクライントを動かす Web管理画面を動かす Environment OSLinux version […]
  • 2013年7月2日 [Haskell]Install it on Ubuntu 13.04 haskellのインストール haskellを使ってみたくなったのでインストールしてみる。 インストールは非常に簡単。 簡単なプログラム なんとなくファイルの内容をそのまま出力するプログラムを書いてみる。 これを動かしてみる。 […]
  • <!--:ja-->[node.js][express]CPUとヒープのスナップショットを撮る<!--:--><!--:en-->[node.js][exprees]How to take snapshot of CPU and Heap<!--:-->2014年8月31日 [node.js][exprees]How to take snapshot of CPU and Heap 概要 node.jsでアプリを作成しているとメモリリーク(やCPUの負荷)に悩まされることが多い。 多くはスナップショットを撮ってボトルネックを見つけて改善することできたから、 ここではその方法を載せる。 スナップショットの結果はライブラリの関係上Chromeブラウザの […]
Pocket

You can follow any responses to this entry through the RSS 2.0 feed. Both comments and pings are currently closed.