MTMineRは主に日本語、中国語、韓国語、英語、ドイツ語とフランス語などのテキスト解析のために作成した。 本システムでは、日本語の形態素解析はJUMAN、ChaSen、MeCab、構文解析は CaboCha、中国語の形態素解析はNLPIR、 英語、ドイツ語とフランス語などの形態素解析はTreeTaggerを借用する。
データの構造化では平テキストやタグ付きのテキストから頻度を集計し表形式(行列形式) のデータを出力する。 データ統計分析は、集計結果を一旦保存し、各自が使い慣れている統計ツールを用いて分析することもできる。 また、データ解析のフリーソフトRをインストールし、 若干の設定を行うと直接 MTMineR からメニュー操作で用意されているデータ解析の方法を用いることができる。
平テキストは、我々が書いた一般の文章形式を指す。
タグ付きは、平テキストを自由に切り分け、その部分の性質を<>の中に自由にタグを付けたテキストを指す。
ここで、MTMineRを用いて、各言語に対して形態素解析の操作を説明する。各形態素解析器を使う前に環境設定が必要であるため、MTMineR事前準備マニュアルに参考してください。
 

日本語

MeCab、ChaSen、JUMAN がインストールされ、パスが通されている環境では、 平テキストを読み込み、MTMineRでメニュー操作により形態素解析を行い、タグを付け集計を行うことが可能である。
まず、メニューバーに[language]を選択し、[Data Format]に[Tagged Text]を選択する。



MeCab、ChaSen、JUMANによって形態素解析を行ったテキストを読み込み処理するときには、 図に示す画面の上部の三種類の形態素解析器の名前にラジオボタンを選択する。
ただし、形態素解析結果の中の品詞は階層化されている。たとえば、助詞「の」の第 1層は助詞で、第2層は連帯化助詞になっている。 そのまま用いてもよいが、MTMineRでは、各自が自由にタグを命名するステップを置いている。 形態素解析器を選択し、さらに[POSRenaming]ボタンを押し、品詞の命名を行う。ボタン [POSRenaming]を押すと品詞を命名する窓が開かれる。 黒字は形態素解析器の結果であり、青色縦棒の右の赤文字は自由に書き換えられる形態素の属性である。属性の命名が終わったら確認ボタン [Conform]を押す。 これで、日本語形態素解析が終った。形態素解析結果を[temp]ファイルに保存している。



Go To Top
            

中国語

中国語の形態素解析はNLPIRを使っている。パスを通す必要がない。 しかし、テキストはUTF-8で保存する必要がある。また、ファイル名についてアルファベットしか認識できない。 ファイル名はアルファベット以外の文字/記号が入っている場合は、[(UTF8)Onekey Convert]と[(GB2312)Onekey Convert]の機能でファイル名とテキスト の保存コードを一括で変更できる。
たとえば、元テキストはGB2312で保存されている場合は、[(GB2312)Onekey Convert]を選択すると、下に示しているようなフレームが出て来る。 それぞれのグループのテキスト数とグループ名を設定し、[ok]を押す。生成したファイルを[temp]の中に確認できる。



Go To Top
  

英語、ドイツ語とフランス語

英語、ドイツ語とフランス語などの形態素解析は共にTreeTaggerを借用する。操作は同じであるので、ここで、英語を例として説明する。 [treeTagger]、[Call POS Tagger]を選択してから、[POS Renaming]を押し、日本語と同じくタグの名前を変更できる。 [Confirm]を押すと、形態素解析を完了する。



TreeTaggerの形態素解析結果を下の図に示している。第1列はテキストの中に用いた単語、第2列はタグ、第3列は単語の原型である。 [Prototype]を選択しないまま形態素解析する結果は、[テキストの中に用いた単語/タグ]になっている。一方、[Prototype]を選択すると[単語の原型/タグ]という結果になる。



Go To Top