☁️ Google Cloud * STT 인식률을 개선보자 1/3

인식률이 나쁘진 않지만 특정 부분에서 인식률이 많이 떨어지곤 한다.

Watson STT는 데이터를 학습시킬 수 있도록 서비스를 제공한다고 알고 있다.

그렇다면 Google STT는 어떨까?

사용자가 직접 학습시키는 것은 아니지만 Google Cloud로 data를 보내 사용자의 data를 학습시킬 수 있다.

그 외에도 몇가지 인식률이 좋아지는 조건(?) 상황(?) 들이 있다고 하니 살펴보도록 하자.

1. Sampling rate Setting

SampleRateHertz 옵션으로 오디오 Samling rate를 지정합니다. 입력으로 전달되는 data와 같은 형식을 사용해야하며 Sampling rate 지원 범위는 8000Hz ~ 48000Hz 입니다.

SampleRateHertz 옵션으로 Samling rate를 지정했다 하더라도 FLAC 또는 WAV 파일의 Samling rate는 파일의 헤더에 따라 결정 될 수 있습니다.

입력 자료 Samling rate를 16000Hz으로 하는 것이 좋으며,

레벨이 높은 경우에는 인식 품질에 큰 영향을 끼치지 않으나 Samling rate가 16000Hz 보다 낮으면 음성 인식 정확도가 손상될 수 있습니다.

Q. 그럼 16000Hz로 samling 해서 보내면 되겠네요!?

A. 아니요 그러지마세요.. 😭

구글이 든 예시를 요약하자면, 변환했다가 오디오 잡음 추가되는 것 보다 8000Hz까지는 지원을 하니까 그대로 넣어라 라는 말 같네요.

For example, use sample rates of 8000 Hz, which may give less accurate results. If you must use such audio, provide the audio to the Speech API at its native sample rate.

예를 들어, 대부분 sampling 전의 오디오는 8000Hz 샘플링 레이트를 사용하므로 결과 정확도가 떨어질 수 있습니다. 이러한 오디오를 사용해야 하는 경우, Speech API에 samling 전의 오디오를 제공하세요.

2. Selecting models

RecognitionConfig 객체의 model 필드를 수정하여 모델을 선택할 수 있다.

STT는 여러 머신러닝 모델 중 하나를 사용할 수 있는데 Google은 특정 유형별로 음성 인식 모델을 학습시켰다.

해서 특정 유형에 해당하는 모델을 콕! 집어주면 인식률을 향상시킬 수 있다고 한다.

Type	Enum constant	Description	Supported languages
Video	`video`	Use this model for transcribing audio in video clips or that includes multiple speakers. For best results, provide audio recorded at 16,000Hz or greater sampling rate. 여러명이 얘기하거나 동영상 클립을 해석하려면 이 모델을 사용하세요. 최상의 결과를 얻기 위해서 16,000Hz 이상의 sampling rate로 녹음된 오디오를 제공하세요. Note: This is a premium model that costs more than the standard rate. 참고: 표준 요금보다 비싼 프리니엄 모델입니다.	en-US only
Phone call	`phone_call`	Use this model for transcribing audio from a phone call. Typically, phone audio is recorded at 8,000Hz sampling rate. 전화 통화를 해석하려면 이 모델을 사용하세요. 일반적으로 전화 통화는 8,000Hz sampling rate로 녹음됩니다.	en-US only
Command and search	`command_and_search`	Use this model for transcribing shorter audio clips. Some examples include voice commands or voice search. 짧은 오디오를 해석하려면 이 모델을 사용하세요. 예시로는 음성 명령이나 음성 검색 등이 있습니다.	All available languages
Default	`default`	Use this model if your audio does not fit one of the previously described models. For example, you can use this for long-form audio recordings that feature a single speaker only. Ideally, the audio is high-fidelity, recorded at 16,000Hz or greater sampling rate. 위의 모델에 해당하지 않는 오디오의 경우 이 모델을 사용하세요. 예를들어 한명이 이야기하는 긴 오디오 녹음 번역에 사용할 수 있습니다. 16,000Hz 이상의 sampling rate로 녹음된 Hi-Fi 오디오가 이상적입니다.	All available languages

비디오와, 전화통화 모델은 영어만 지원하며, 명령어나 검색 또는 기본 모델은 테이블 우측에 사용가능한 언어 All available language를 보면 확인 할 수 있습니다.

3. Phrase hints

주어진 인식 작업에 대해 유용한 정보(힌트)를 제공하는 speechContext(Speech Context 형식)를 전달할 수도 있습니다.

컨텍스트는 '힌트'로 작용할 목록을 보유할 수 있으며 이러한 문구들은 해당 단어나 문구 인식 가능성을 높일 수 있습니다.

문구는 작은 단어 그룹 또는 단일 단어로 제공될 수 있으며 문구 수와 크기에 대한 제한은 [ 콘텐츠 제한 ] 페이지를 참조하세요.

힌트가 다중 단어 구문으로 제공되는 경우 제공된 순서대로 인식 될 수 있는 가능성이 높으며 개별 단어를 포험하여 구문의 일부분이 인식될 수 있는 가능성이 높아집니다.

구문힌트 사용 방법

1. 오디오에서 과도하게 표현되는 경향이 있는 특정 단어와 구문의 정확도를 향상 시킨다.

예를 들어, 특정 명령어를 일반적으로 사용자가 말하는 경우 이러한 명령어를 구문 힌트로 제공할 수 있다.

추가 구문은 특히 제공된 오디오에 잡음이 있거나 포함된 음성이 명확하지 않은 경우 유용할 수 있습니다.

2. 인식 작업의 어휘에 단어를 추가합니다.

고유명사나 도메인 관련 단위가 어휘에 없는 경우, 요청의 sppechContext에 제공된 구문에 이를 추가 할 수 있습니다.

음성 Context 힌트는 절제해서 제공해야 하며 말할 것으로 예상되는 구문에 사용하면 보다 나은 인식 정확도를 얻을 수 있습니다.

예를 들어, 대화 상태 또는 장치 작동 모드가 여러 개 인 경우 항상 힌트를 제공하지 않고 특정 상태에 해당하는 힌트만 제공할 수 있습니다.

4. Data logging

데이터로깅은 Google Cloud에서 우리가 사용한 음성 data를 기록하여 학습시킴으로써 음성인식 서비스를 개선한다.

우리가 따로 입력시켜서 학습시킬 수 있는 것은 아니며 Google에서 사용할 데이터를 선별해서 학습시키는 것 같다.

Beta

This is a beta release of Speech-to-Text 데이터 로깅. This feature might be changed in backward-incompatible ways and is not subject to any SLA or deprecation policy. This feature is not intended for real-time usage in critical applications.

이 기능은 베타 버전임으로 사라질 수도 있고 바뀔 수도 있음을 명심하자.

To help Cloud Speech-to-Text to better suit your needs, you can opt into the data logging program. The data logging program allows Google to improve the quality of Speech-to-Text through using customer data to refine its speech recognition service. As a benefit for opting in, you gain access to enhanced transcription models that Google has trained by using data collected through the data logging program.

Cloud Speech-to-Text가 사용자 요구를 더 잘 맞추도록 사용자는 Data logging programe에 참여할 수 있습니다.

Data logging programe을 통해 Google은 고객 데이터를 사용하여 음성인식 서비스를 개선함으로써 Speech-to-Text의 품질을 향상시킬 수 있습니다.

프로그램에 참여하는 대신 사용자는 Google이 data logging programe을 통해 수집한 데이터를 사용하여 교육한 고급 텍스트 변환 모델을 이용할 수 있습니다.

데이터 로깅을 사용하기 위해서는 일련의 절차를 따라야 하는데 자세한 절차 밑 설정 방법은 두번째 게시글을 참조하자.

일련의 과정을 먼저 얘기하자면 다음과 같다.

데이터 로깅 사용 설정 약관 확인하기
프로젝트에서 데이터 로깅 사용 설정하기
코드에서 고급 모델 사용 설정 하기

Note: Your data collected through data logging enjoys the same level of security as all other Google Cloud services. The Google security model is an end-to-end process, built over 15 years of experience and focused on keeping customers safe on Google applications like Gmail, Search and other Apps.

참고: 데이터 로깅을 통해 수집된 데이터는 다른 모든 Google Cloud 서비스와 동일한 수준의 보안으로 보호됩니다. Google 보안 모델은 15년 이상의 겸험을 토대로 구축되었으며 end-to-end 프로세스로 Gmail, 검색, 기타 앱과 같은 Google 애플리케이션에서 고객 보안을 유지하는데 중점을 두었습니다.

Thanks for

저작자표시 비영리 변경금지

'Platform > ☁️ Google Cloud' 카테고리의 다른 글

☁️ Google Cloud * Speech to Text 알아보기 (0)	2020.03.09
☁️ Google Cloud * 텍스트를 읽어주겠니? for Python (0)	2020.03.06
☁️ Google Cloud * 프로젝트 삭제 좀 하자 ㅠ.ㅠ (0)	2020.03.05

Programmer Leni 🤪