enVecって?

単語間の「近さ」をベクトル計算し、単語ごとに近い単語を一覧にしたものです。世界最大の百科事典Wikipedia英語版618万記事5,187万項目日本語版123万記事365万項目<いずれも2020年10月時点>)内の全テキストをすべて解析、計算して作成しました。

Wikipediaでの出現頻度から上位20万語の英日単語を選び、この各20万語それぞれに対し、近い単語をリストしました。つまりenVecは40万ページに及ぶ、類似単語リストサービスです。

またこの類似単語リスト以外に、enVecではリストされた語の英和・英英辞書(英単語のみ)、例文集を加えています。例文は30万のニュース記事データベースから、各単語の例文(日本語単語の場合は和訳に当該単語が含まれる例文)をリストして表示します。例文は読みやすいように、語数の少ない順に並んでいます。単語によっては数百の例文が表示されます。

さらに例文集の各文は、全て構文解析されていて、SVOやSVOC等の文型表示、各単語の係り受け表示、高音質での読み上げ、クイズ表示等が行なえます。知りたい語の語法トレーニングがすぐに行えます。

enVecは、類似単語リスト、英和・英英辞書、英単語例文集の3つが一体化したサービスです。

ベクトル計算って?

言語ベクトル計算のアイデアは、比較的最近生まれたものです。世界には多様な言語があり、発音や文法は違うけれど、詳細に見ると言葉一つ一つの概念は類似している、という発想から言語ベクトルは生まれました。

概念が同じならばこれを数値化できるに違いない、ということで、一つの言葉を数百次元の数値に変換しました。言葉の数値化に成功したのです。
数値にしたことで、言葉、概念はコンピュータで計算できるようになりました。有名な計算例に、言葉の足し算、引き算があります。

こんな計算をしてみました。

osaka - comedy = nagano (0.61) , fukuoka (0.59)
soccer - kick = basketball (0.50) , hockey (0.49)
summer - heat = winter (0.58) , spring (0.48)
lemon - acid = cherry (0.46) , quince (0.42) , berry (0.41)
wife - marriage = girlfriend (0.38) , fiancée (0.34)
human - intelligence = animal (0.44) , natural (0.39)
scientist + goodness = genius (0.59)
scientist + badness = genius (0.56)

むちゃくちゃ面白いことになりました。すでに翻訳やチャットポットなどでもこうした計算は利用されています。

類似度の計算って?

enVecで行っている類似度の計算は、上記の足し算、引き算とは若干異なっています。各言語ベクトルの距離を計算し、それを1~0の数値で表しています。1に近い程、類似しています。

この類似は、言語に含まれる様々な概念の近さを総合したものなのですが、例えば次のようなものを含みます。

  • 同じセンテンス内で、単語を一つ入れ替え成立する場合、入れ替えて可能な単語は類似しています。動詞や形容詞の言い換え表現であったり、類義語もそうです。
  • また「OOは大統領である」といった場合、OOに入る名詞は入れ替え可能で互いに類似している、と言えます。
  • あるいは、一つのセンテンス内で、同時に使われることが多い単語は、互いに近いと言えます。いわゆる共起表現です。

語と語のベクトル距離を計算した結果は、様々な語の類似をもっと大きな視点から計算した、スーパー類似語なのです。

enVecの表示

enVecではこのベクトル計算を20万語×20万語行い、類似度の高い順に、1語に付き最大100単語をピックアップしています。 ピックアップした単語は、類似度によって文字の大きさを5段階で変えてあります。大きい程、類似しています。英単語には日本語訳、日本語単語には英訳も一つ付けました。

表示した単語をタップすると、次々とその単語の類似語が画面いっぱいに表示されます。なかなか壮観です。この類似表示が何を意味するのか、具体例を後述してあるので、是非チェックしてください。

類似度で記憶の島を作る

単語は、人間の脳でどんなふうに記憶されているのでしょうか。最新の認知言語学では、一つの単語は他の単語と幾重ものネットワークで結びついていると説明します。

経験則でも、英単語は単独でバラバラに覚えようとすると、すぐ忘れるし、大変な努力をしないと記憶に残りません。よく言われることですが、記憶はネットワークのように、他の様々な記憶と結びついて初めて定着していきます。いくら重要な単語、試験に出る単語であっても、バラバラに覚えるのは、脳の記憶のメカニズムに反しているのです。

人は言語を「記憶の島」のようなものを形作りながら憶えていくと、認知言語学は説明します。単独ではなく単語のグループがいくつも出来上がり、これらが重なっているイメージです。一つの語はいくつもの語グループに所属していることになりますが、これは言語ベクトルの数百次元に符合します。記憶の考え方の中で、最も自然な知見であると思われます。

enVecの類似単語の一覧は、この「記憶の島」にかなり極めて近いものとなっています。最新の記事でできた膨大な量のテキストを解析し計算しているため、最新の概念グループ、最新の集合知、最新の記憶の島となっています。
人々の記憶の島は、その人が島を作った時の時代の概念を反映しているため、人によっては異なっているかな、と思うかもしれません。

試しにenVecで「apple」を検索し、類似単語一覧を表示してみて下さい。果物の仲間はほとんど出てきません。スマートフォンの関連用語が多く表示されます。いまappleといえば、多くの人がまずiPhoneを思い浮かべます。appleの最新概念と記憶の島の仲間は、iPhoneにとって代わられてしまいました。ちなみに「apples」と入力すると、果物の名前がたくさん表示されます。

enVecのベクトル単語表示は、最新の英単語の記憶の島を作るのに、英語のボキャブラリー・ビルディングに最適なツールなのです。

類似単語の具体例

enVec!で表示される類似単語には次のようなものがあります。

名詞

man

"woman"や"boy"、"person"は予想がつくとして、意表を突かれたのが"thug"の殺人者。"woman"の類似度単語には出てこないものなのですが。

woman

こちらには"girl"とか"lover"もある一方で、"divorcee"(離婚)、"seductress"(誘惑する女性)だとか不穏なものも散見しますねぇ。

idea

「考え」の中でも思考に関わる"idea"の類似単語には、やはり"concept"(概念)、"notion"(一般概念)、"thinking"(考え方)、"mindset"(ものの見方)などが高い類似度を示しています。

speech

"speech"にはいろいろな意味がありますが、ここでは「演説」系に類似している単語、"statement"(声明)、"presentation"(プレゼン)、"discourse"(講演)がリストアップされています。

woods

単数複数で意味が違う単語、例えば"wood"を複数形で用いると「森林」などの意味になりますが、類似単語もそれにあわせて、"forest"(森林), "pond"(池), "marsh"(沼), "meadows"(牧草地)など場所を表すようなものが多く表示されます。一方、"wood"(木)の類似単語となると、"timber"(材木), "stone"(石), "charcoal"(炭), "teak"(チーク材)など材質などを表す単語が類似単語としてリストアップされるから、面白いですね。

動詞

link

「結ぶ」には「結わえる/縛る」などの"tie"や"knot"などがありますが、同じ「結ぶ」でも「連結する」イメージの"link"には、つなぐのイメージである"conenect"が表示されています。

permit

「認める」でも「許可」系の単語が当然多くリストされます。"allow"(許す)、"admit"(<入学などを>許容する)、"approval"(承認)の類似度が高く示されました。

fall

秋のイメージであれば"autumn"、"spring"などの季節。落ちる、落下するでも使われる"fall"には"drop"(したたる)、"plummet"(垂直に落ちる・飛び込む)、"collapse"(つぶれる・くずれる)といった単語がイメージに近いようです。

suspect

「疑いをかける」とする意味にふさわしい単語が並んでますね。"murderer"、"perpetrator"(犯人)、"gunman"(殺し屋)、"kidnapper"(誘拐犯)、"culprit"(犯罪容疑者)などなど、サスペンスの臭いがプンプンですね。

hope

"joy"(喜び)、"haooiness"(幸福)、"someday"(いつか)、"gratitude"(感謝)など、明るいイメージの単語であふれています。"optimism"(楽天主義)なんて単語が"hope"に近い単語としてリストアップされること頷けます。

形容詞

wonderful

感想を言うときの、ひと言英会話で使えそうな、形容詞がいっぱい!"amazing!", "beautiful!", "lovly!", "marvellous!", "unbelievable!"

strong

対になる言葉としての"weak"が筆頭です。そのほか"tough"(強い)、"powerful"(勢力のある)、"robust"(たくましい)などの類義語の単語が続きます。

perfect

"good"、"beautiful"、"wounderful"など、同じ文脈やテーマで用いられそうな英単語がリストアップされていますね。類似度が一番高い"flawless"って、知っていました?flawが「ひび」や「傷」、「欠陥」、「短所」といった意味。そのflawに"-less"という「~ない」という否定の意味を持つ語尾がついて、「欠点がない」=「完璧な」という意味になります。これも"perfect"に類似した形容詞ですね。

expensive

金銭的に「高い」というときの"expensive"。"plicey"はその言い換え表現として良くでてきますが、"expensive"の中での類似度は、そこまで高くないのですね。同じ「高い」でも、「ダメージ・犠牲が大きい」ことをベースにある"costly"が最も類似度が高い。反意語の"cheep"も同じ文脈で使われるケースが高いのは、言わずもがなですね。

horrible

"terrible", "awful", "disgusting", "scary"などなど、不快さをひと言でも表せるような表現が目立ちます。

番外編

samurai

"ninja", "warrior"には頷けますよね。"shogun", "yakuza"だって英語でも通じる単語だ。あ。"hanzo", "benkei"も出てくる。enVecは英語版Wikipediaのセンテンスを分析したわけですが、こんな人名も記載されているんですね。"champloo"ってのは、『サムライチャンプルー』というテレビアニメからです。

Rambo

シルベスター・スタローンの代名詞にもなってる作品だけに、"Stallone"もあるし、彼の作品"Expendables"も出てきますね。その他、"hitman"、ランボーの上官役"Trautman"もありますね。

Hitler

わぁ!!独裁者の名前がたくさん表示されますねー。