© COPYRIGHT SYSTRAN. ALL RIGHTS RESERVED.

 

SYSTRAN Model Studio

SYSTRAN Model Studio는 언어 코퍼스를 기반으로 특정 도메인에 최적화된 번역 모델 학습하는데 필요한 모든 기능 및 환경이 통합으로 제공되는 모델 학습 플랫폼입니다.
학습에 필요한 데이터만 보유하고 있다면 기계번역 모델 학습에 대한 전문성이 없어도 독자적인 번역 모델을 생성할 수 있습니다. 생성된 번역모델에 대한 지적재산권은 해당 모델 학습에 활용된 데이터의 제공자에게 귀속됩니다.

  • “일반(Generic)” 번역은 이미 다양한 온라인 도구 및 서비스를 통해 사용할 수 있으며, 신경망 번역 기술의 도래 이후 그 품질이 기존대비 비약적으로 높아져 일반적인 컨텍스트에 대체적으로 잘 맞는 번역결과를 제공합니다. 하지만 특정 업계나 비즈니스 분야에 최적화된 번역이 필요한 전문가들의 요구사항을 충족시키지는 못합니다.
  • “도메인 특화 모델“ 또는 “고객 맞춤형 모델"이라고 하는 특화 번역모델을 생성하기 위해서는 모델 학습의 기반이 되는 학습 데이터, 신경망 번역 엔진 및 학습 관련 알고리즘, 그리고 사람의 전문성이 필요합니다.
  • SYSTRAN Model Studio에는 SYSTRAN이 지난 수십 년간 지속적으로 고도화해온 기계번역 엔진 및 관련 도구들, 모델 학습 관련 노하우 및 전문성, 그리고 학습에 필요한 모든 인프라 환경이 갖춰져 있어, 기계번역 분야의 전문가가 아니어도 고품질의 도메인 특화 기계번역 모델을 만들 수 있습니다.

SYSTRAN Model Studio 구조

.

(1) 데이터 준비

  • 모델 학습용 데이터 준비
  • 번역 메모리나 가지고 있는 데이터 활용
  • 데이터는 학습 프로세스 동안 완전한 보안이 유지되며 자체 모델 학습 이외의 목적으로 사용되지 않음

(2) 모델 학습

  • SYSTRAN의 대규모 번역 모델 카탈로그 내에서 기반(Base) 모델을 선택하여 활용 가능
  • ‘Zero’ 베이스 시작 대비 시간 및 작업 효율성 증대
  • 훈련된 모델이라고 하면 이미 임베디드 UD 샘플링, 모델 증강(Augmentation),필터링, 노이징(Noising), 토큰화(Tokenization)와 같은 작업들이 어느 정도 기본적으로 처리가 되었기 때문에 전문화(Specialization) 작업을 보다 빠르고 수월하게 수행할 수 있음

(3) 모델 평가

  • SYSTRAN 모델 스코어링 모듈을 사용하여 각 훈련 반복에서 모델 진화를 평가
  • SYSTRAN 모델 스튜디오를 사용하면 SYSTRAN에서 선택하고 도메인별로 분류 된 50 개 이상의 테스트 파일에서 모델의 BLEU 점수 진화비교 가능
  • 고유 테스트 셋 추가시 특정 도메인에서 모델의 진행 상황 확인 가능

(4) 모델 게시

  • SYSTRAN 번역 모델 카탈로그 게시여부 판단.
  • 전 세계 사용자들이 생성된 모델을 테스트 후 구매 가능
  • 클라이언트 용으로 빌드하는 경우 모델 비공개 선택 가능
  • 모델의 지적 재산권은 모델을 생성한 사람 소유

.

Q) 학습용 데이터의 정의가 어떻게 되나요?

원문과 번역문의 1:1 매칭 형태로 되어 있는 코퍼스 데이터를 말합니다.

Q) 보유하고 있는 데이터가 원문과 번역문의 1:1 매칭 형태로 되어 있지 않은 경우에는 어떻게 하나요?

학습이 가능한 형태로 데이터에 대한 정제 작업(내부 또는 외부)을 진행해야 합니다.

Q) Model Studio를 사용하기 위해 필요한 자격조건이나 전문지식이 따로 있나요?

데이터 오너(Data Owner)로서 모델 학습에 활용 가능한 데이터만 보유하고 있다면 누구나 참여하여 사용할 수 있습니다. 기계번역 분야나 번역모델 학습과 관련된 경험이 전무한 사용자들도 쉽게 사용할 수 있도록 환경이 구성되어 있으며 관련 가이드 문서와 컨설팅도 제공됩니다. 물론, 관련 분야에 대한 경험과 전문지식이 있는 경우에는 보다 쉽게 사용이 가능합니다.

Q) 데이터 오너(Data Owner)가 되기 위해서 가장 먼저 할 일은 무엇인가요?

SYSTRAN 담당자를 통해 데이터 오너 계약 절차를 먼저 완료해야 합니다.

보유하고 계신 다량의 번역데이터 활용에 대한 고민이 있으시나요?

SYSTRAN MarketPlace에서는 여러분의 데이터를 기반으로 특화된 기계번역 모델을 생성할 수 있습니다.

생성된 모델에 대한 소유권은 데이터를 제공자에게 있으며, 관련 데이터는 외부에 공개되지 않습니다.

생성한 모델은 직접 사용하시거나 SYSTRAN Model Catalog을 통해 글로벌 사용자들에게 판매하여 추가 수익을 얻으실 수도 있습니다.

SYSTRAN MarketPlace를 통해 보유하고 계신 언어 데이터를 기반으로 보다 많은 부가가치를 창출해보세요.

.

상담 문의하기