胡一凯起首提到,虽然机械翻译手艺已有50多年的研究汗青,但正在现实使用中,特别是面临大型医疗器械公司的专业文档翻译需求时,仍面对诸多挑和。例如,一家跨国企业需要将200页的核磁共振仿单从英文译成中文,虽然他们具有内部术语库,但外包给专业翻译机构的成果仍未能达到90%的术语精确率要求。针对这一挑和,亚马逊云科技团队起首测验考试了最间接的方式,即将术语间接嵌入翻译模子的上下文中。这种方式正在处置少量术语时结果尚可,但当术语数量激增至上千条时,模子的术语遵照能力和PDF格局的衬着结果均遭到影响。为了降服这一,团队引入了AC从动机算法,通过内存中的键值婚配实现快速检索,无效处理了术语数量和大模子上下文长度的。然而,跟着数据量进一步添加,AC从动机正在内存耗损和搜刮效率上的不脚逐步,出格是无法处置术语中的特殊符号等复杂环境。为此,亚马逊云科技团队立异性地利用了OpenSearch Percolator缓存手艺。这一手艺以术语为索引,可以或许快速检索出取输入文本婚配的术语,不只处理了大规模术语库的婚配问题,还支撑恍惚婚配,极大地提拔了翻译效率和精确性。正在处理术语翻译精确性的同时,若何遵照企业内部文风也是一题。胡一凯引见,团队测验考试了微调大模子、锻炼罗拉(LORA)以及正在提醒词中明白文风要求等多种方式,但都存正在成本较高或结果无限的问题。最终,他们采用了一种连系RAG(检索加强生成)和FuseShot的方案,通过建立Web学问库,将客户的汗青翻档和内部术语库进行向量化处置,实现了翻风的分歧性。正在工程化方面,胡一凯分享了处置PDF和Word文档翻译时的手艺挑和和处理方案。因为PDF文档的复杂格局和分歧言语的消息浓度差别,团队正在衬着翻译后的PDF时碰到了空间折叠、通过引入高度、动态递归算法以及双指针算法等手艺手段,他们成功处理了这些问题,确保了翻译后的文档格局准确、易于阅读。比拟之下,Word文档的翻译过程则相对简单。因为Word文档底层采用XML布局,团队只需将文档解析为XML文件,进行翻译后再衬着回Word格局即可。为了让客户可以或许便利地利用这些手艺,亚马逊云科技团队开辟了一个前端系统。系统会正在后台从动处置并生成翻译成果。整个系统基于Amazon CDK建立,可正在用户的云中一键摆设,大大缩短了摆设时间。
胡一凯还提到了专业翻译范畴的飞轮效应。他指出,通过将内部语料、文风汗青语料拾掇成数据资产,并利用翻译东西进行翻译,再将翻译成果反馈给营业方进行人工标注和丰硕,能够构成一个正向轮回,不竭堆集和优化内部语料资产。这些资产不只能够用于智能文档翻译,还能够拓展使用到智能写做审核、AI校对等新的范畴。正在分享的最初,胡一凯强调,亚马逊云科技将继续投入AI算力、云根本设备等范畴,通过领先的手艺实力和丰硕的行业经验,帮力企业正在AI时代实现立异驱动和全球化成长。记者12月10日从中国航空工业集团无限公司获悉,由该集团自从研制的国产首款800公斤级沉载电动垂曲起降飞翔器(eVTOL)AR-E800首飞成功,标记着我国正在低空物流范畴送来了一款全新的、智能化的沉载运输平台…12月10日,国产首款沉载电动垂曲起降飞翔器AR-E800正在景德镇首飞成功。当天16时52分,跟着指令下达,飞控员沉稳地鞭策操控杆,启动飞翔法式。约4分钟后,完成起飞、悬停、反转展转、前飞、后飞等全数既定试飞科目…12月10日下战书,由中国航空工业集团自从研制的800公斤级沉载电动垂曲起降飞翔器(eVTOL)AR-E800首飞使命成功。 AR-E800正在本年举办的第七届天津国际曲升机博览会上,一举斩获160架确认订…正在逛戏安拆目次下建立名为Epic Games的公用文件夹将逛戏指定安拆到这个新建立的文件夹中避免正在安拆径中利用特殊字符或过长的目次名如许能够确保逛戏安拆正在合适要求的尺度目次布局中,无效避免径问题导致…本网坐LOGO小熊标记受版权,版权登记号:鲁做登字-2015-F-025467,未经ITBEAR许可,严禁利用。
建湖J9集团国际站官网科技有限公司
2026-01-07 19:30
0515-68783888
免费服务热线
扫码进入手机站 |
网站地图 | | XML | © 2022 Copyright 江苏J9集团国际站官网机械有限公司 All rights reserved. 