英語論文をさくさく読むためのTips

この記事はCPS Lab Advent Calendarの7日目の記事です。 adventar.org

6日目の記事はこちら tonkatu05.hatenablog.com

研究する上で欠かすことのできない英語論文のサーベイ。概要をざっくりでも知りたいとき英語論文をGoogle翻訳にかけることが一般的だと思います。
ただ、pdfでダウンロード可能な論文は翻訳するとき一手間が必要。今回は論文を翻訳にかけるときのTipsを述べます。(※あくまで個人的に見つけた方法なのでいい方法があったらコメントしてください。)

おすすめの翻訳方法

Skimでpdfファイルを開き、文章をGoogle翻訳にコピペ

Mac使用者におすすめなこの方法。 個人的には読み始めにすばやく取り掛かれるのでこの方法が最も良いと感じてます。ここで使うSkimというPDFReaderアプリはAdobe Readerと異なり、文末の改行コードを除いてくれるのでコピペしても改行が入りません。

Wordでpdfをdocxファイルで書き出し、Google翻訳でまるごとドキュメント翻訳

Windows使用者におすすめなのはこの方法。MacのWordはpdfファイルを読み込めないが、WindowsのWordはpdfファイルを開く事ができる。
特徴としてpdfを開いたときのレイアウトの崩れが驚くほど少ないので画像や数式等を削除して文章を詰めておくと誤変換が減る。

Wordで書き出したdocxファイルはgoogle翻訳のドキュメント翻訳を使用することでまとめて翻訳することができる。

f:id:dattiren:20181207220331p:plain

GoogleDocsでpdfファイルを開き編集後まるごと翻訳

pdfファイルをgoogle DriveにアップロードしてGoogleDocsで開くと、Word同様読み込んでくれる。しかし、読み込むファイルによってWordに比べてレイアウト崩れが起こりやすい。

GoogleDocsのメリットはツールから翻訳が可能であること。わざわざgoogle翻訳のページを開かなくてもGoogleDocsの機能でまとめて翻訳をかけることができる。

f:id:dattiren:20181207220326p:plain

論文を翻訳かけるときの障害

pdfファイルの正しい変換の妨げとなる要素は以下のとおりである。

  • 図とそのタイトル
  • 数式
  • ヘッダー, フッター

この要素を取り除かないと文章が途中で途切れて翻訳が正しく行われないので注意が必要。

5000字を超える文の翻訳

最近のアップデートでGoogle翻訳で5000字を超える翻訳が可能となった。5000字を超える文章をコピペすると、画面右下に「次の5000字を翻訳」ボタンが表示され、5000字を超えた分の翻訳を実行してくれる。この機能を使えばいちいち全削除してコピペし直すことがなくなるのでぜひ活用してほしい。

f:id:dattiren:20181207223620p:plain

所感

今回述べなかったが、Pythonでpdfからテキスト抽出する際に使用するPDFMiner.sixライブラリで英語論文の読み込みから翻訳まで自動化しようとしたこともある。しかし、文中にこっそり紛れ込む改行コードや数式の取扱いに悩まされて実現には至らなかった。

github.com

英語勉強すればすべて解決するが とくにB3生はこれから英語論文を読む時の参考にしてもらえればと思います。