![]() ![]() |
場(chǎng)景文字視覺(jué)問(wèn)答技術(shù)理論與實(shí)踐研究
場(chǎng)景文字視覺(jué)問(wèn)答,是指給定場(chǎng)景圖像并回答場(chǎng)景圖像中場(chǎng)景文字相關(guān)問(wèn)題的技術(shù)。這需要模型具備推理、分析和理解圖片中的文本信息的能力,這是多模態(tài)理解的重要基礎(chǔ),是從感知智能走向認(rèn)知智能的重要一步。本書(shū)主要介紹場(chǎng)景文字視覺(jué)問(wèn)答的最新進(jìn)展和技術(shù)方向,主要內(nèi)容包括緒論、場(chǎng)景文字視覺(jué)問(wèn)答相關(guān)概念、以場(chǎng)景文本語(yǔ)義為中心的場(chǎng)景文字視覺(jué)問(wèn)答方法、基于文本語(yǔ)義上下文學(xué)習(xí)及空間表示的場(chǎng)景文字視覺(jué)問(wèn)答方法以及基于圖像分割和匹配的場(chǎng)景文字視覺(jué)問(wèn)答方法。
你還可能感興趣
我要評(píng)論
|