์ธ์๋ฅ ์ด ๋์์ง ์์ง๋ง ํน์ ๋ถ๋ถ์์ ์ธ์๋ฅ ์ด ๋ง์ด ๋จ์ด์ง๊ณค ํ๋ค.
Watson STT๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ํฌ ์ ์๋๋ก ์๋น์ค๋ฅผ ์ ๊ณตํ๋ค๊ณ ์๊ณ ์๋ค.
๊ทธ๋ ๋ค๋ฉด Google STT๋ ์ด๋จ๊น?
์ฌ์ฉ์๊ฐ ์ง์ ํ์ต์ํค๋ ๊ฒ์ ์๋์ง๋ง Google Cloud๋ก data๋ฅผ ๋ณด๋ด ์ฌ์ฉ์์ data๋ฅผ ํ์ต์ํฌ ์ ์๋ค.
๊ทธ ์ธ์๋ ๋ช๊ฐ์ง ์ธ์๋ฅ ์ด ์ข์์ง๋ ์กฐ๊ฑด(?) ์ํฉ(?) ๋ค์ด ์๋ค๊ณ ํ๋ ์ดํด๋ณด๋๋ก ํ์.
1. Sampling rate Setting
SampleRateHertz ์ต์ ์ผ๋ก ์ค๋์ค Samling rate๋ฅผ ์ง์ ํฉ๋๋ค. ์ ๋ ฅ์ผ๋ก ์ ๋ฌ๋๋ data์ ๊ฐ์ ํ์์ ์ฌ์ฉํด์ผํ๋ฉฐ Sampling rate ์ง์ ๋ฒ์๋ 8000Hz ~ 48000Hz ์ ๋๋ค.
SampleRateHertz ์ต์ ์ผ๋ก Samling rate๋ฅผ ์ง์ ํ๋ค ํ๋๋ผ๋ FLAC ๋๋ WAV ํ์ผ์ Samling rate๋ ํ์ผ์ ํค๋์ ๋ฐ๋ผ ๊ฒฐ์ ๋ ์ ์์ต๋๋ค.
์ ๋ ฅ ์๋ฃ Samling rate๋ฅผ 16000Hz์ผ๋ก ํ๋ ๊ฒ์ด ์ข์ผ๋ฉฐ,
๋ ๋ฒจ์ด ๋์ ๊ฒฝ์ฐ์๋ ์ธ์ ํ์ง์ ํฐ ์ํฅ์ ๋ผ์น์ง ์์ผ๋ Samling rate๊ฐ 16000Hz ๋ณด๋ค ๋ฎ์ผ๋ฉด ์์ฑ ์ธ์ ์ ํ๋๊ฐ ์์๋ ์ ์์ต๋๋ค.
Q. ๊ทธ๋ผ 16000Hz๋ก samling ํด์ ๋ณด๋ด๋ฉด ๋๊ฒ ๋ค์!?
A. ์๋์ ๊ทธ๋ฌ์ง๋ง์ธ์.. ๐ญ
๊ตฌ๊ธ์ด ๋ ์์๋ฅผ ์์ฝํ์๋ฉด, ๋ณํํ๋ค๊ฐ ์ค๋์ค ์ก์ ์ถ๊ฐ๋๋ ๊ฒ ๋ณด๋ค 8000Hz๊น์ง๋ ์ง์์ ํ๋๊น ๊ทธ๋๋ก ๋ฃ์ด๋ผ ๋ผ๋ ๋ง ๊ฐ๋ค์.
For example, use sample rates of 8000 Hz, which may give less accurate results. If you must use such audio, provide the audio to the Speech API at its native sample rate.
์๋ฅผ ๋ค์ด, ๋๋ถ๋ถ sampling ์ ์ ์ค๋์ค๋ 8000Hz ์ํ๋ง ๋ ์ดํธ๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ๊ฒฐ๊ณผ ์ ํ๋๊ฐ ๋จ์ด์ง ์ ์์ต๋๋ค. ์ด๋ฌํ ์ค๋์ค๋ฅผ ์ฌ์ฉํด์ผ ํ๋ ๊ฒฝ์ฐ, Speech API์ samling ์ ์ ์ค๋์ค๋ฅผ ์ ๊ณตํ์ธ์.
2. Selecting models
RecognitionConfig ๊ฐ์ฒด์ model ํ๋๋ฅผ ์์ ํ์ฌ ๋ชจ๋ธ์ ์ ํํ ์ ์๋ค.
STT๋ ์ฌ๋ฌ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์ค ํ๋๋ฅผ ์ฌ์ฉํ ์ ์๋๋ฐ Google์ ํน์ ์ ํ๋ณ๋ก ์์ฑ ์ธ์ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค.
ํด์ ํน์ ์ ํ์ ํด๋นํ๋ ๋ชจ๋ธ์ ์ฝ! ์ง์ด์ฃผ๋ฉด ์ธ์๋ฅ ์ ํฅ์์ํฌ ์ ์๋ค๊ณ ํ๋ค.
Type | Enum constant | Description | Supported languages |
---|---|---|---|
Video | video |
Use this model for transcribing audio in video clips or that includes multiple speakers. For best results, provide audio recorded at 16,000Hz or greater sampling rate. ์ฌ๋ฌ๋ช ์ด ์๊ธฐํ๊ฑฐ๋ ๋์์ ํด๋ฆฝ์ ํด์ํ๋ ค๋ฉด ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ธ์. ์ต์์ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด์ 16,000Hz ์ด์์ sampling rate๋ก ๋ น์๋ ์ค๋์ค๋ฅผ ์ ๊ณตํ์ธ์.
Note: This is a premium model that costs more than the standard rate. ์ฐธ๊ณ : ํ์ค ์๊ธ๋ณด๋ค ๋น์ผ ํ๋ฆฌ๋์ ๋ชจ๋ธ์ ๋๋ค. |
en-US only |
Phone call | phone_call |
Use this model for transcribing audio from a phone call. Typically, phone audio is recorded at 8,000Hz sampling rate. ์ ํ ํตํ๋ฅผ ํด์ํ๋ ค๋ฉด ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ธ์. ์ผ๋ฐ์ ์ผ๋ก ์ ํ ํตํ๋ 8,000Hz sampling rate๋ก ๋ น์๋ฉ๋๋ค. |
en-US only |
Command and search | command_and_search |
Use this model for transcribing shorter audio clips. Some examples include voice commands or voice search. ์งง์ ์ค๋์ค๋ฅผ ํด์ํ๋ ค๋ฉด ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ธ์. ์์๋ก๋ ์์ฑ ๋ช ๋ น์ด๋ ์์ฑ ๊ฒ์ ๋ฑ์ด ์์ต๋๋ค. |
All available languages |
Default | default |
Use this model if your audio does not fit one of the previously described models. For example, you can use this for long-form audio recordings that feature a single speaker only. Ideally, the audio is high-fidelity, recorded at 16,000Hz or greater sampling rate. ์์ ๋ชจ๋ธ์ ํด๋นํ์ง ์๋ ์ค๋์ค์ ๊ฒฝ์ฐ ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ธ์. ์๋ฅผ๋ค์ด ํ๋ช ์ด ์ด์ผ๊ธฐํ๋ ๊ธด ์ค๋์ค ๋ น์ ๋ฒ์ญ์ ์ฌ์ฉํ ์ ์์ต๋๋ค. 16,000Hz ์ด์์ sampling rate๋ก ๋ น์๋ Hi-Fi ์ค๋์ค๊ฐ ์ด์์ ์ ๋๋ค. |
All available languages |
๋น๋์ค์, ์ ํํตํ ๋ชจ๋ธ์ ์์ด๋ง ์ง์ํ๋ฉฐ, ๋ช
๋ น์ด๋ ๊ฒ์ ๋๋ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ํ
์ด๋ธ ์ฐ์ธก์ ์ฌ์ฉ๊ฐ๋ฅํ ์ธ์ด All available language๋ฅผ ๋ณด๋ฉด ํ์ธ ํ ์ ์์ต๋๋ค.
3. Phrase hints
์ฃผ์ด์ง ์ธ์ ์์ ์ ๋ํด ์ ์ฉํ ์ ๋ณด(ํํธ)๋ฅผ ์ ๊ณตํ๋ speechContext(Speech Context ํ์)๋ฅผ ์ ๋ฌํ ์๋ ์์ต๋๋ค.
์ปจํ ์คํธ๋ 'ํํธ'๋ก ์์ฉํ ๋ชฉ๋ก์ ๋ณด์ ํ ์ ์์ผ๋ฉฐ ์ด๋ฌํ ๋ฌธ๊ตฌ๋ค์ ํด๋น ๋จ์ด๋ ๋ฌธ๊ตฌ ์ธ์ ๊ฐ๋ฅ์ฑ์ ๋์ผ ์ ์์ต๋๋ค.
๋ฌธ๊ตฌ๋ ์์ ๋จ์ด ๊ทธ๋ฃน ๋๋ ๋จ์ผ ๋จ์ด๋ก ์ ๊ณต๋ ์ ์์ผ๋ฉฐ ๋ฌธ๊ตฌ ์์ ํฌ๊ธฐ์ ๋ํ ์ ํ์ [ ์ฝํ ์ธ ์ ํ ] ํ์ด์ง๋ฅผ ์ฐธ์กฐํ์ธ์.
ํํธ๊ฐ ๋ค์ค ๋จ์ด ๊ตฌ๋ฌธ์ผ๋ก ์ ๊ณต๋๋ ๊ฒฝ์ฐ ์ ๊ณต๋ ์์๋๋ก ์ธ์ ๋ ์ ์๋ ๊ฐ๋ฅ์ฑ์ด ๋์ผ๋ฉฐ ๊ฐ๋ณ ๋จ์ด๋ฅผ ํฌํํ์ฌ ๊ตฌ๋ฌธ์ ์ผ๋ถ๋ถ์ด ์ธ์๋ ์ ์๋ ๊ฐ๋ฅ์ฑ์ด ๋์์ง๋๋ค.
๊ตฌ๋ฌธํํธ ์ฌ์ฉ ๋ฐฉ๋ฒ
1. ์ค๋์ค์์ ๊ณผ๋ํ๊ฒ ํํ๋๋ ๊ฒฝํฅ์ด ์๋ ํน์ ๋จ์ด์ ๊ตฌ๋ฌธ์ ์ ํ๋๋ฅผ ํฅ์ ์ํจ๋ค.
์๋ฅผ ๋ค์ด, ํน์ ๋ช ๋ น์ด๋ฅผ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ์๊ฐ ๋งํ๋ ๊ฒฝ์ฐ ์ด๋ฌํ ๋ช ๋ น์ด๋ฅผ ๊ตฌ๋ฌธ ํํธ๋ก ์ ๊ณตํ ์ ์๋ค.
์ถ๊ฐ ๊ตฌ๋ฌธ์ ํนํ ์ ๊ณต๋ ์ค๋์ค์ ์ก์์ด ์๊ฑฐ๋ ํฌํจ๋ ์์ฑ์ด ๋ช ํํ์ง ์์ ๊ฒฝ์ฐ ์ ์ฉํ ์ ์์ต๋๋ค.
2. ์ธ์ ์์ ์ ์ดํ์ ๋จ์ด๋ฅผ ์ถ๊ฐํฉ๋๋ค.
๊ณ ์ ๋ช ์ฌ๋ ๋๋ฉ์ธ ๊ด๋ จ ๋จ์๊ฐ ์ดํ์ ์๋ ๊ฒฝ์ฐ, ์์ฒญ์ sppechContext์ ์ ๊ณต๋ ๊ตฌ๋ฌธ์ ์ด๋ฅผ ์ถ๊ฐ ํ ์ ์์ต๋๋ค.
์์ฑ Context ํํธ๋ ์ ์ ํด์ ์ ๊ณตํด์ผ ํ๋ฉฐ ๋งํ ๊ฒ์ผ๋ก ์์๋๋ ๊ตฌ๋ฌธ์ ์ฌ์ฉํ๋ฉด ๋ณด๋ค ๋์ ์ธ์ ์ ํ๋๋ฅผ ์ป์ ์ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ๋ํ ์ํ ๋๋ ์ฅ์น ์๋ ๋ชจ๋๊ฐ ์ฌ๋ฌ ๊ฐ ์ธ ๊ฒฝ์ฐ ํญ์ ํํธ๋ฅผ ์ ๊ณตํ์ง ์๊ณ ํน์ ์ํ์ ํด๋นํ๋ ํํธ๋ง ์ ๊ณตํ ์ ์์ต๋๋ค.
4. Data logging
๋ฐ์ดํฐ๋ก๊น ์ Google Cloud์์ ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ์์ฑ data๋ฅผ ๊ธฐ๋กํ์ฌ ํ์ต์ํด์ผ๋ก์จ ์์ฑ์ธ์ ์๋น์ค๋ฅผ ๊ฐ์ ํ๋ค.
์ฐ๋ฆฌ๊ฐ ๋ฐ๋ก ์ ๋ ฅ์์ผ์ ํ์ต์ํฌ ์ ์๋ ๊ฒ์ ์๋๋ฉฐ Google์์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฅผ ์ ๋ณํด์ ํ์ต์ํค๋ ๊ฒ ๊ฐ๋ค.
Beta
This is a beta release of Speech-to-Text ๋ฐ์ดํฐ ๋ก๊น . This feature might be changed in backward-incompatible ways and is not subject to any SLA or deprecation policy. This feature is not intended for real-time usage in critical applications.
์ด ๊ธฐ๋ฅ์ ๋ฒ ํ ๋ฒ์ ์์ผ๋ก ์ฌ๋ผ์ง ์๋ ์๊ณ ๋ฐ๋ ์๋ ์์์ ๋ช ์ฌํ์.
To help Cloud Speech-to-Text to better suit your needs, you can opt into the data logging program. The data logging program allows Google to improve the quality of Speech-to-Text through using customer data to refine its speech recognition service. As a benefit for opting in, you gain access to enhanced transcription models that Google has trained by using data collected through the data logging program.
Cloud Speech-to-Text๊ฐ ์ฌ์ฉ์ ์๊ตฌ๋ฅผ ๋ ์ ๋ง์ถ๋๋ก ์ฌ์ฉ์๋ Data logging programe์ ์ฐธ์ฌํ ์ ์์ต๋๋ค.
Data logging programe์ ํตํด Google์ ๊ณ ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ์ธ์ ์๋น์ค๋ฅผ ๊ฐ์ ํจ์ผ๋ก์จ Speech-to-Text์ ํ์ง์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
ํ๋ก๊ทธ๋จ์ ์ฐธ์ฌํ๋ ๋์ ์ฌ์ฉ์๋ Google์ด data logging programe์ ํตํด ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ต์กํ ๊ณ ๊ธ ํ ์คํธ ๋ณํ ๋ชจ๋ธ์ ์ด์ฉํ ์ ์์ต๋๋ค.
๋ฐ์ดํฐ ๋ก๊น ์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ์ผ๋ จ์ ์ ์ฐจ๋ฅผ ๋ฐ๋ผ์ผ ํ๋๋ฐ ์์ธํ ์ ์ฐจ ๋ฐ ์ค์ ๋ฐฉ๋ฒ์ ๋๋ฒ์งธ ๊ฒ์๊ธ์ ์ฐธ์กฐํ์.
์ผ๋ จ์ ๊ณผ์ ์ ๋จผ์ ์๊ธฐํ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ฐ์ดํฐ ๋ก๊น ์ฌ์ฉ ์ค์ ์ฝ๊ด ํ์ธํ๊ธฐ
- ํ๋ก์ ํธ์์ ๋ฐ์ดํฐ ๋ก๊น ์ฌ์ฉ ์ค์ ํ๊ธฐ
- ์ฝ๋์์ ๊ณ ๊ธ ๋ชจ๋ธ ์ฌ์ฉ ์ค์ ํ๊ธฐ
Note: Your data collected through data logging enjoys the same level of security as all other Google Cloud services. The Google security model is an end-to-end process, built over 15 years of experience and focused on keeping customers safe on Google applications like Gmail, Search and other Apps.
์ฐธ๊ณ : ๋ฐ์ดํฐ ๋ก๊น ์ ํตํด ์์ง๋ ๋ฐ์ดํฐ๋ ๋ค๋ฅธ ๋ชจ๋ Google Cloud ์๋น์ค์ ๋์ผํ ์์ค์ ๋ณด์์ผ๋ก ๋ณดํธ๋ฉ๋๋ค. Google ๋ณด์ ๋ชจ๋ธ์ 15๋ ์ด์์ ๊ฒธํ์ ํ ๋๋ก ๊ตฌ์ถ๋์์ผ๋ฉฐ end-to-end ํ๋ก์ธ์ค๋ก Gmail, ๊ฒ์, ๊ธฐํ ์ฑ๊ณผ ๊ฐ์ Google ์ ํ๋ฆฌ์ผ์ด์ ์์ ๊ณ ๊ฐ ๋ณด์์ ์ ์งํ๋๋ฐ ์ค์ ์ ๋์์ต๋๋ค.
Thanks for
'Platform > โ๏ธ Google Cloud' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
โ๏ธ Google Cloud * Speech to Text ์์๋ณด๊ธฐ (0) | 2020.03.09 |
---|---|
โ๏ธ Google Cloud * ํ ์คํธ๋ฅผ ์ฝ์ด์ฃผ๊ฒ ๋? for Python (0) | 2020.03.06 |
โ๏ธ Google Cloud * ํ๋ก์ ํธ ์ญ์ ์ข ํ์ ใ .ใ (0) | 2020.03.05 |