حالت تشخیص صدا لینوکس

by گری نیوئل

معرفی

من صرف وقت زیادی برای تحقیق در مورد مقالات و اغلب من در مورد موضوع برای یک مقاله در حالی که قدم زدن به ایستگاه قطار و یا زمانی که در خارج و در مورد به طور کلی فکر می کنم.

یک شب در حالی که در حال حرکت به ایستگاه 5/1 مایل از ایستگاه از کار من بودم، فکر نکردم که اگر می توانم چیزی را که می خواستم بگویم، ضبط کنم و آن را به طور خودکار به یک فایل متنی رونویسی کنم که بعدا می توانم آن را ویرایش و فرمت کنم .

من چندین ساعت طول کشیدم که به گزینه های مختلف برای تشخیص صدا و دیکته از جمله ضبط مستقیم از طریق میکروفون با استفاده از نرم افزار دیکته در لینوکس، ضبط فایل به فرمت MP3 یا WAV و تبدیل آن از طریق خط فرمان و همچنین استفاده از Chrome و برنامه های آندروید.

این مقاله نتایج من پس از روزهای سخت کار را برجسته می کند.

گزینه های لینوکس

تلاش برای پیدا کردن دیکته و نرم افزار تشخیص صدا در لینوکس به آسانی امکان پذیر نیست و گزینه های موجود اینقدر هوشمندانه نیستند.

این صفحه ویکیپدیا دارای فهرستی از گزینههای احتمالی شامل CMU Sphinx، Julius and Simon است.

من از SparkyLinux استفاده می کنم که بر اساس تست دبیان در حال حاضر است و می توانم بگویم که تنها بسته تشخیص صدا موجود در مخازن، Sphinx است.

برنامه های بومی لینوکس من به پایان رسید تلاش PocketSphinx بود، که من برای تبدیل فایل های WAV به متن و Freespeech-VR که یک برنامه پایتون است که به شما اجازه می دهد مستقیما از یک میکروفون ضبط کنید.

من همچنین چندین برنامه Chrome از جمله VoiceNote II و Dictanote را آزمایش کردم.

در نهایت من "دیکته و ایمیل" و "بحث و گفتگو گفت و گو" نرم افزار آندروید تلاش کرد.

Freespeech-VR

Freespeech-VR در مخازن استاندارد در دسترس نیست. من فایل ها را از اینجا دانلود کردم

بعد از بارگیری و استخراج محتویات فایل زیپ من یک ترمینال را باز کردم و به پوشه ای که فایل ها استخراج شده بود حرکت می کردم.

من فرمان زیر را برای باز کردن freespeech-vr تایپ کردم.

sudo python freespeech-vr

من یک هدست جفتی با یک میکروفون نسبتا مناسب و یک لهجه بلند انگلیس نسبتا روشن دارم.

متن زیر در پنجره freespeech-vr ظاهر شد:

خوش آمدید به سگ واحد از نتیجه امروز حصول اطمینان از اینکه چگونه برای مدیریت تست باید تست کنید هنگامی که برای متن استفاده از راه سیستم سخنرانی من به هر یک فقط در یک به امید ماندن و به معنای یک مرغ طلایی به عنوان سیستم Ea هنگامی که آن را نام من تلفن بعدی تلفن تماس این فایل به زودی به اندازه کافی موارد تلفن به دست - فضا sphinx رفتن این است که تلفن ها نیست به اشتراک گذاشته شده آموزش داده شده و ابزار استفاده از صحبت هنگامی که شما به پایان رسید می گویند یک فایل استفاده شده آخرین داستان A و استفاده از توسط هنگامی که بسیار موفقیت است این لینوکس همان است که شما را اجتناب می کند

من فقط می خواهم اکنون بگویم که این یک وب سایت واحد سگ ها نیست و هیچ ارتباطی با جوجه های طلایی ندارد. من در واقع سعی داشتم فرآیند استفاده از نرم افزار تشخیص صدا را توصیف کنم.

من چند بار نرم افزار را چندین بار امتحان کردم، از جمله زمین و سرعت متغیر، اما دقت ضعیف بود.

PocketSphinx

PocketSphinx قادر به گرفتن یک فایل WAV و تبدیل آن به متن با استفاده از خط فرمان است.

PocketSphinx از طریق مخازن Debian در دسترس است و برای اکثر توزیعها باید در دسترس باشد.

موضوع اصلی من با PocketSphinx در بر داشت این است که شما به طور مداوم در مفاهیم تشخیص صدا، فایل های زبان، واژه نامه ها و نحوه آموزش سیستم نیاز به درجه دارد.

پس از نصب PocketSphinx، باید به سایت CMU Sphinx مراجعه کنید و اطلاعاتی را که ممکن است در اختیار داشته باشید. شما همچنین باید فایل مدل زیر را دانلود کنید.

مدل زبان عمومی انگلیسی ایالات متحده

(اگر شما یک زبان مادری انگلیسی نیستید، مدل زبان را انتخاب کنید که برای شما مناسب است).

اسناد و مدارک برای PocketSphinx و Sphinx به طور کلی دشوار است برای فرد نابینای درک، اما از آنچه که من می توانم از فایل های فرهنگی استفاده می شود برای ارائه لیستی از کلمات ممکن است و مدل های زبان لیستی از تلفظ بالقوه است.

برای تست PocketSphinx از ضبط صدای خودم، یک قطعه از آل پاچینو در "The Devils Advocate" و یک قطعه از "Morgan Freeman" استفاده کردم. نکته این بود صداهای مختلفی را امتحان کنید و برای من کسی وجود ندارد که بتواند داستان را به صراحت به عنوان مورگان فریمن توضیح دهد و هیچ کس خط دیگری مانند آل پاچینو را ارائه نمی دهد.

برای PocketSphinx برای کار نیاز به یک فایل WAV و نیاز به فرمت خاصی دارد. اگر فایل در فرمت MP3 باشد، از فرمان ffmpeg برای تبدیل آن به فرمت WAV استفاده کنید:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -in 16000 outputfilename.wav

برای اجرای PocketSphinx از دستور زیر استفاده کنید:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous یک فایل WAV طول می کشد و آن را به متن تبدیل می کند.

در فرمان pocketsphinx بالا گفته شده است که از یک پرونده فرهنگ لغت با نام "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" با استفاده از زبان "cmusphinx-5.0-en-us.lm" استفاده کنید. فایل تبدیل شده به متن صدا صدای فراخوانی می شود (که ضبط شده با صدای من است). در نهایت 2> تمام خروجی verbose که شما لزوما به یک فایل به نام voice2.log نیاز ندارید. نتایج واقعی آزمایش در پنجره ترمینال نمایش داده می شود.

نتایج با استفاده از صدا من به شرح زیر است:

خوش آمدید به آینده در مورد خوب هیچ هفته این موضوع که در آن نرم افزار به رسمیت شناختن در یک دقیقه

نتایج به دست آمده با Freespeech-VR بسیار ترسناک نیستند، اما هنوز هم قابل استفاده نیستند. بعد از آن سعی کردم با استفاده از PocketSphinx با آل پاچینو، اما این نتایج هیچ نتیجه ای نگرفت.

سرانجام، با استفاده از صدای مورگان فریم از فیلم "بروس عالی" سعی کردم و در اینجا نتایجی به دست آمده است:

000000000: ما بر او خواهیم بود
000000001: همه چیز سخت است آره روزی که الان هم آره اینه بیشتر ما زنده ایم من بخاطر گرم
000000002: در آسانسور که کلید از کمی ساعت بیس بال است و یا می دانید چه باید بکنید در زندگی
000000003: آنهایی که بهبود می یابند
000000004: آنها آن را نوشتند
000000005: آنها به من حق دارند
000000006: باید قوانینی داشته باشید
000000007: من منتظر تو هستم
000000008: و او در اینجا آموخت که تصویری بود که حزب کریسمس قاتل بود
000000009: یکی از راه های نوشتن O است. الاغ من فکر کردم کمی همیشه یکی را می پوشند
000000010: مانند یک مشکل متحد، او را خوب نخواهم گذاشت، من آن ها را در آن لحظه تخمین زده ام که تمام چیزهایی را که فکر می کنید من در جهان هستم، خانه ها خواهم ساخت و من آن را دیده ام
000000011: پدر که آن را دارد
000000012: آنچه در مورد این موضوع زیاد است
000000013: آیا این داده شده است
000000014: همه چیز شما را که برای بسیاری از سقوط نیست
000000015: درست در پاییز
000000016: به خوبی برای من نگه دارید
000000017: آن ناراضی است اگر من فکر می کنم بیش از حد که آنها در حال رفتن به آن است که همه کسانی که ازدواج در یک بود نه من من دوست ندارم بر خلاف راه

آزمون من به سختی می تواند علمی در نظر گرفته شود و توسعه دهندگان PocketSphinx ممکن است اعلام کنند که من از نرم افزار به درستی استفاده نمی کنم. همچنین یک تکنیک به نام آموزش صدا وجود دارد که می تواند برای ایجاد لغت نامه های بهتر و فایل های زبان استفاده شود.

هرچند نظر من این است که برای استفاده روزمره استاندارد خیلی دشوار است.

VoiceNote II

VoiceNote II یک برنامه Chrome است که از API تشخیص Google Voice استفاده می کند.

اگر از مرورگرهای Chrome یا Chromium استفاده می کنید می توانید VoiceNote II را از طریق فروشگاه وب نصب کنید.

آیکون های VoiceNote II به گونه ای عجیب و غریب قرار می گیرند که شما نیاز به تنظیم زبان در پایین پنجره دارید و دکمه ویرایش نیز در پایین است، اما دکمه رکورد در سمت راست بالا قرار دارد.

اولین چیزی که باید انجام دهید این است که یک زبان را انتخاب کنید و این را می توان با کلیک کردن بر روی آیکون جهانی به دست آورد.

برای شروع ضبط، بر روی آیکون میکروفون کلیک کنید و به میکروفون خود صحبت کنید. برای بهترین نتایج، به آرامی صحبت کردم، کلید بود به طوری که نرمافزار میتوانست فرصتی برای ادامه داشته باشد.

نتایج بدست آمده به اندازه ای که دیده می شود نیست:

سلام و خوش آمدید برای اتصال در حال حاضر مقالات امروز در مورد صدای به تبدیل متن dunelm farrell رکود اقتصادی 2008 به عنوان تبدیل و آن را گفت: به خوبی بهترین راه من پیدا کردم متن افزوده متن برای نشان دادن برنامه 2014debian یا rpm باز کردن آن نوع صدا به گفتار به متن آن را باز کنید اگر شما می خواهید را انتخاب کنید در مقابل فرانسوی آلمانی در ادینبورگ تصمیم گرفتم زمان را در انگلیس در پادشاهی متحده متحد کنم که شما به عنوان یک فایل متنی به موفقیت آن را نوشتید. این عبارات بسیار استاندارد انگلیسی از جنوب انگلیس برای آن بهتر است اما من به textvia این torrentalong می روم با سند واقعی و شما می توانید برای اشتباهات که شما را برای listeningfriends به شما نشان می دهد

دیکتانوت

Dictanote یکی دیگر از برنامه های کروم است که می تواند برای اهداف دیکته استفاده شود و به نظر می رسد بصری تر است ولی نتایج بهتر از VoiceNote II نیست.

من فقط نسخه آزمایشی Dictanote را که از ایجاد اسناد جدید جلوگیری می کند، استفاده می کنم، اما به شما اجازه می دهد که بیش از متن را که در ویرایشگر است صحبت کنید. من توانستم تشخیص صدا را امتحان کنم، اما نتایج بهتر از VoiceNote II نبود و بنابراین برای نسخه حرفه ای ثبت نام نکردم.

دیکته و ایمیل

"Dictation And Mail" یک برنامه Android است که با استفاده از API محلی شناسایی صدای گوگل بومی است.

نتایج "دیکته و ایمیل" بسیار بهتر از هر برنامه دیگری بود که تا این لحظه تلاش می کرد.

خوش آمدید به لینوکس در مورد. امروز ما صحبت در مورد تبدیل صدا به متن است

کلاهبرداری با "Dictation and Mail" این است که به آرامی صحبت کنید و همچنین با لهجه حتی می توانید صحبت کنید.

پس از پایان صحبت کردن، می توانید نتایج خود را به ایمیل ارسال کنید.

بحث و گفتگو دیکته

یکی دیگر از برنامه های آندروید که من سعی کردم این بود «گفتگو و بحث گفتگو».

رابط کاربری این برنامه بهترین گروه بود و تشخیص صدا واقعا به خوبی کار می کرد. پس از ضبط دیکته من توانستم نتایج را در راه های مختلف از جمله از طریق ایمیل به اشتراک بگذارم.

خوش آمدید به about.com about.com امروز ما در مورد تبدیل گفتار به متن صحبت می کنیم

همانطور که می توانید متن بالا را ببینید، به همان اندازه که می توانید انتظار داشته باشید، آن را روشن کنید. صحبت کردن به آرامی کلید است.

خلاصه

بومی لینوکس با توجه به شناخت صوت و به طور خاص دیکته، راه دیگری دارد. برخی از برنامه های کاربردی که از API Voice API استفاده می کنند اما هنوز در مخازن ذکر نشده اند.

برنامه های ChromeOS کمی بهتر هستند اما تا حد زیادی بهترین نتایج را با استفاده از تلفن Android من به دست آوردند. شاید تلفن دارای یک میکروفون بهتر باشد و از این رو، نرم افزار تشخیص صدا شانس بیشتری برای تبدیل دارد.

برای تشخیص صدا برای تبدیل شدن به واقعا قابل استفاده است، باید با استفاده از تنظیمات کمتری مورد نیاز باشد. شما نباید با استفاده از مدلهای زبان و لغت نامه ها به راحتی آشنا شوید.

با این حال، قدردانی میکنم که کل هنر تشخیص صدا بسیار چالش برانگیز است، زیرا هر کس صدایی متفاوت دارد و گویشهای بسیاری از منطقه به منطقه در یک کشور، نگران صدها زبان در سراسر جهان نیست.

بنابراین تجزیه و تحلیل من این است که نرم افزار تشخیص صدا هنوز در حال کار است.