テキストマイニング2018

 

 

テキストマイニング(text mining)とは、文字・記号列や言語データを対象とし、自然言語処理、データ科学(統計学、機械学習、情報科学)などの技法を用いて、大量のデータから特定のパターンや使用傾向、情報・知識を見つけ出す分野です。近年様々な領域で研究が進められています。そこで、テキストマイニング研究・応用の促進のため、テキストマイニングに関連する研究の取り組み、及びその成果の報告、テキストマイニングの講習を目的とし、本セミナーを企画しました。 セミナーの初日は、テキストマイニングに関わる研究の構想、及びその研究事例の発表を行い、翌日は研究事例の発表と初心者を対象としたテキストマイニングの講習を行います。 発表をご希望する方は521(月)9:00時までに申し込みください。

 

日       :   201869()10(日)

場       :   同志社大学 文化情報学部 夢告館101,102

京都府京田辺市多々羅都谷13

アクセス情報:   このリンク

共     催:

★  学術振興会領域開拓プログラム (代表:大平 英樹)

  予測的符号化の原理による心性の創発と共有-認知科学・人文学・情報学の統合的研究-

★  基盤研究(A) 16H02722 (代表:長野  泰彦)

  チベット・ビルマ語族の繋聯言語の記述とその古態析出に関する国際共同調査研究

★  基盤研究(B) 15H03212 (代表:山崎 誠)

  会話文への発話者情報の付与によるコーパスの拡張

★  基盤研究(C) 18K00627 (代表:金 明哲)

  データサイエンスに基づいた日本文体分析とその構造のモデリング

★  若手研究 18K18336 (代表: 河瀬 彰宏)

  日本民謡の旋律と歌詞の音韻の計量比較による地域性の分析

★  同志社大学ハリス理化学研究所第二部門 「感情科学」 (代表: 余語 真夫)

  感情の可識化と価値創成

 京都大学東南アジア地域研究研究所 「地域情報資源の共有化と相関型地域研究の推進拠点」 (代表:工藤 彰)

純文学と大衆文学における文学空間史とデータベースの構築

★  同志社大学文化情報学部データサイエンス研究室

 

 

      : なし

      : 無料

登 録 先: Googleにて

問い合せ先: sonnkou1985(アット)gmail.com

       人数把握のため、講演者以外の方も事前登録をお願いします。特に610日のテキストマイニング講習会への参加有無を申し込む際に必ずご記入ください。

食事 情報: 日曜日は生協食堂のほとんどが休みです。関連情報はこのリンクをご覧ください。

駐 車 場: 関連情報

 

プログラム

6月9日(土曜日)
10:00〜12:05 MK101 PC環境設定ヘルプディスク
MK102 プロジェクト研究紹介
13:10〜17:30 MK101 PC環境設定ヘルプディスク
MK102 研究発表
6月10日(日曜日)
10:00〜12:00 MK101 研究発表
MK102 講習会(Rの入門)
13:00〜16:00 MK101
MK102 講習会 (MTMineRによるテキストマイニング)
6月9日

10:00〜12:05

セッション1  座長:金 明哲

 

10:00〜10:05

金 明哲 挨拶

10:05〜10:25

データサイエンスに基づいた日本文体分析とその構造のモデリング

金 明哲 (同志社大学)

 

10:25〜10:50

認知科学・人文学・情報学の統合的研究とテキストマイニング

大平 英樹 (名古屋大学)

 

10:50〜11:15

小説会話文への話者情報付与とその問題点

山崎 誠 (国立国語研究所)

 

11:15〜11:40

日本民謡の旋律と歌詞の音韻の計量比較による地域性の分析

河瀬 彰宏 (同志社大学)

 

11:40〜12:05

チベット・ビルマ系未解読言語シャンシュン語の言語学・統計学的解析

長野 泰彦・武内 紹人(国立民俗学博物館、神戸市立外国語大学)

 

12:0513:10

ランチタイム

 

13:1015:15

セッション2  座長: 入江 さやか

 

13:10〜13:35

大規模ブログデータベースを用いた食の流行の現状把握―ベンチャー企業での開発―

渡邊 隼史 (統計数理研究所)

 

13:35〜14:00

社会科学分野におけるより良い活用のためのツール整備

樋口 耕一 (立命館大学)

 

14:00〜14:25

計量文献学の技法を用いた歌詞の通時的分析

小林 雄一郎 (日本大学)

 

14:25〜14:50

特許情報とテキストマイニング

井本美子 (放送大学)

 

14:5015:15

文体の数量分析に基づく川端康成影武者問題の解明

孫 昊 (同志社大学)

 

15:1515:25

休憩

 

15:2517:30

セッション3  座長: 孫 昊

15:2515:50

コーパスを用いた条件形に見られる音韻融合に関する計量的比較分析

入江 さやか (同志社大学文化情報学研究科)

 

15:5016:15

計量文体学の観点からみた宇野浩二の文体変化

劉 雪琴 (同志社大学文化情報学研究科)

 

16:1516:40

大正・昭和小説における文体の変化に関する計量解析

李 広微 (同志社大学文化情報学研究科)

 

16:4017:05

テキストマイニングを用いた芥川龍之介と太宰治の文体的特徴の類似性について

尾城 奈緒子 (同志社大学文化情報学研究科)

17:0517:30

線形回帰モデルを使った文章難易度の研究

李 在鎬 (早稲田大学)


6月10日    

10:00〜12:00

セッション1   座長:尾城 奈緒子

 

10:0010:20

ネットワーク分析による中国語の感情語分析

劉 雪琴(同志社大学文化情報学研究科)

 

10:2010:40

テキスト分類における特徴量選択方法の比較評価

鄭 弯弯 (同志社大学文化情報学研究科)

 

10:4011:00

データサイエンスの手法による歌謡曲の旋律分析

井口 慎也 (同志社大学文化情報学研究科)

 

11:0011:20

テキストマイニング手法を用いた絵画作品の計量的分析

行村 隆平 (同志社大学文化情報学研究科)

11:2011:40

菊池寛代作問題に関する計量的研究

柳 Y佳 (同志社大学文化情報学研究科)

 

11:4012:00

文章の著者識別のための特徴量の提案

黄 善玉 (同志社大学文化情報学研究科)

10:00〜12:00

MTMineRを用いたテキストマイニングの基礎 講師: 孫 昊  

 

テキストマイニングのプロセス

テキストデータのクリーニング(編集・整形・加工)

テキストマイニングの環境整備(Java、R、形態素&係り受け解析、パスの設定)

R言語の基礎

 

12:0013:00

ランチタイム

 

MTMineRを用いたテキストマイニング演習1 講師: 劉 雪琴・尾城 奈緒子  

13:0014:30

MTMineRの紹介、日本語、英語、ドイツ語とフランス語形態素解析、構文解析、データ集計、

Rとの連携、データの視覚化、ネットワーク分析、主成分分析、対応分析など

 

14:3014:40

休憩

 

MTMineRを用いたテキストマイニング演習2  講師: 尾城 奈緒子・劉 雪琴  

14:4016:00

階層的クラスター分析、PAM法、トピックモデル、決定木、ランダムフォレスト、サポートベクターマシンなど方法

 

演習の事前準備

パソコンのOS

MS Windows

 

関連ソフト:

事前準備マニュアル

 

 

各自のマシンのbit数と一致する Javaをインストール

 

 

形態素解析器 MeCab JUMANのインストールパスの設定

 

 

文節係り受け解析器CaboChaのインストールとパスの設定

 

 

TreeTagerのインストールと分析する言語環境の整備  Perl のインストール

 

 

Rのインストールとパスの設定

 

MTMineR:

ソフトを事前に ここ からダウンロードし、解凍してください。

サイズが大きいので、ネット環境によっては時間がかかります。

 

問い合わせ先: 

teiwanwan(アット)gmail.com  演習について不明なところ、あるいはトラブルがある時、ご連絡ください