影像翻译

本页使用了标题或全文手工转换
维基百科,自由的百科全书

影像翻译(英语:Image translation)是指将影像或照片中的文字翻译的技术,例如:海报、看板、餐厅菜单、告示牌、文件或萤幕截图等。光学字元辨识(OCR)的技术可以抽取出影像的文字,然后这些文字会翻译成想要的语言,然后使用数位影像处理的技术,将原图处理成一张文字被翻译过的新图。影像翻译也和机器翻译的研究领域相关。

概述

机器翻译的研究让文字的翻译变得更加简便,而光学字元辨识技的进展让人们可以翻译影像中的文字。在2004年,日本的手机第一次引进光学辨识的技术,让使用者可以透过镜头将拍到的文字抽取出来。而且,抽取出的文字可以被进一步处理,被储存成网址的URL连结,或是拿来使用在电子邮件或简讯。

近年来,行动装置的硬体有长足的进步,相机的画质提升而且自动对焦的技术也被开发,让使用手机进行文字的扫描变成可能。于是,影像翻译的技术出现了,让使用者在扫描出影像中的文字之后,还能够进一步将文字翻译成他们想要的语言。越来越多的相关应用也开始出现,例如:Word Lens[1]。在这个程式被Google取得之后,它成为了Google翻译行动app的一部分。

另外,随著影像处理技术的同步发展,人们可以将影像中的文字替换成翻译过后的文字,而处理成一张全新的照片。[2]

历史

影像翻译的展来源自于光学字元辨识的进步,由于需要进行光学字元辨识的记忆体和运算量比以往减少许多,让行动装置也能够进行文字的扫描。

第一个声称可以用行动装置的相机镜头"阅读"文字的是International Wireless这家公司。他们在2003年发布了CheckPoint和WebPoint这两个软体。前者可以用来辨识发票的文字,后者可以辨识被印出来的网址连结,并在装置上开启该网站。[3] 在2005年九月,NEC和日本的Nara科学研究机构发布一个新的软体,让使用者可以用手机进行文字的扫描,而且这个软体可以扫描整页的文件。然而,这两家公司宣布他们不会在2008年底之前发布这份软体的商用版。

到了2008年四月,Nokia发布了Shoot-to-Translate应用程式,可以将装置拍摄到的影像中的文字抽取出来并翻译。这个应用程式只提供中文和英文之间的翻译,Nokia那时也表示他们正在开发名叫Multiscanner的产品,希望能够提供52种语言之间的翻译。[4] 在2014年五月,Google取得了Word Lens的使用权,让视觉和语音的翻译品质有了显著的进步,让行动装置可以立刻地翻译扫描的的文件或是图片。在2018年八月,一家印度公司开发了ImageTranslate,它可以辨识、翻译影像的文字,并且重新生成一张文字被翻译过后的图片。

现今,常见的影像翻译服务由以下几家公司所提供:

  • Google翻译
  • ImageTranslate[5]
  • Yandex[6]

参考资料

  1. ^ WordLens Tm: wiki. [2019-03-23]. (原始内容存档于2022-06-20). 
  2. ^ ImageTranslate Tm: website. [2019-03-23]. (原始内容存档于2022-06-02). 
  3. ^ International Wireless, Inc. Reads Personal Checks with Cell Phones. - Free Online Library. Thefreelibrary.com. [2012-02-24]. (原始内容存档于2016-01-27). 
  4. ^ [1] 互联网档案馆存档,存档日期April 12, 2009,.
  5. ^ ImageTranslate. [March 23, 2019]. (原始内容存档于2022-06-02). 
  6. ^ Yandex ocr translate. [March 23, 2019]. (原始内容存档于2022-06-03).