【講演概要】

人と機械学習モデルの類推・類似性判断の差異から人の関係性表現の特質を探る

〇加藤 龍彦、日高 昇平 (北陸先端科学技術大学院大学)



近年、自然言語処理分野で提案された機械学習モデル (ベクトル空間モデル) が四項類推やメタファー同定といった課題において、高い性能を発揮し得ることが示されてきた (Mikolov et al., 2013a,b; Penningnton et al., 2014)。ベクトル空間モデルは、 コーパス中の単語の共起頻度を近似するようベクトル空間を構成することで、 単語間の相対的な距離を表現する。こうしたモデルの類推、 メタファーといった課題の高い性能は、課題を行う上で重要な関係性の表現において、 モデルが人を近似し得ることを示唆する。 実際、Baroniらははいくつかの人の類似性判断のデータセットと上記のモデルの単語間類似度とが、 高い相関 (相関係数0.7-0.8) を持つことを示している (Baroni et al, 2014)。 一方でこうしたモデルに否定的な結果もあり、 例えばChenらは様々な意味関係を表現する単語対のデータセットに関して、 word2vecモデルがごく少数の関係しか表現できていない可能性を示している (Chen et al., 2016)。 我々は人とモデルの間のギャップの要因を明らかにすることで、 人の類推やメタファー能力の特質を明らかにできるのではないかと考え、 研究を行ってきた。本発表では、 モデルの類推性能向上のために我々が提案した類推演算と、人とモデルの類似性判断のギャップの要因について議論する。

参考文献:

  1. Baroni, M., Dinu, G., & Kruszewski, G. (2014). Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors (pp. 238-247). Association for Computational Linguistics.
  2. Chen, D., Peterson, J. C., & Griffiths, T. L. (2016). Evaluating vector-space models of analogy arXiv preprintarXiv:1705.04416.
  3. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013a). Efficient Estimation of Word Representations in Vector Space. ArXiv:1301.3781 [Cs]. Retrieved from http://arxiv.org/abs/1301.3781
  4. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013b). Distributed Representations of Words and Phrases and their Compositionality. In Advances in neural information processing systems (pp. 3111-3119).
  5. Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp.1532-1543).
  6. Zayed, O., McCrae, J. P., & Buitelaar, P. (2018). Phrase-Level Metaphor Identification Using Distributed Representations of Word Meaning. In Proceedings of the Workshop on Figurative Language Processing (pp. 81-90).}